一个基于Python Flask的Web应用,高效的开源知识提取器工具,专为企业知识库建设而设计,是RAG(检索增强生成)应用和企业知识管理的理想预处理工具
它支持将PDF、Word、PPT、Excel、WAV、MP3等多种格式的文件智能转换为结构化的TXT或Markdown格式,帮助用户快速将各类文档资料标准化地录入企业知识库系统。通过先进的格式解析和内容提取技术,该项目显著提升知识转换的效率和准确性,是RAG(检索增强生成)应用和企业知识管理的理想预处理工具。
一个基于Python Flask的Web应用,可以将各种文档格式(Word、Excel、PowerPoint、PDF、TXT和Markdown)转换为纯文本或结构化的Markdown。
最新更新 (v0.2.1)- 优化Markdown预览功能:使用marked.js库提供更完善的Markdown渲染,完美支持表格和图片
- 添加图片交互:支持点击图片放大查看
- 增加代码高亮:使用highlight.js提供代码语法高亮
- 增加Docker部署支持:添加Dockerfile和docker-compose配置
- 修复了API文档问题:改进了API文档的Markdown标签切换
功能特点将多种文件格式转换为文本或Markdown - 支持Word (.doc, .docx)、Excel (.xls, .xlsx)、PowerPoint (.ppt, .pptx)、PDF、文本文件等
- 在Markdown转换模式下保持文档结构
- 通过OCR从图像中提取文本
Markdown转换 - 保留文档结构,包括标题、列表和表格
- 保持链接和格式
- 提供转换后的Markdown预览功能
OCR支持 - 自动从文档中嵌入的图像提取文本
- 适用于Word、PowerPoint和PDF文件中的图像
音频转换 (新功能) - 将音频文件(.mp3, .wav)转换为文本/Markdown描述
- 提取元数据,包括时长、声道和采样率
UTF-8编码 - 自动将文档转换为UTF-8编码
- 解决中文字符显示问题
- 无需手动配置编码
大文件支持
使用方法- 选择转换模式(文本或Markdown)
- 上传您的文档(或拖放)
- 查看、复制或下载转换结果
- 使用Markdown预览功能查看格式化结果(使用Markdown模式时)
REST API该工具提供了REST API以供程序访问: - 文本转换:POST /api/convert
- Markdown转换:POST /api/convert-to-md
有关详细文档和测试,请通过Web界面访问API文档页面。 安装与部署本地安装要求- Python 3.6+
- Flask
- pytesseract(用于OCR功能)
- Tesseract OCR引擎
设置
创建虚拟环境并安装依赖:
- python -m venv venv
- source venv/bin/activate # 在Windows上:venv\Scripts\activate
- pip install -r requirements.txt
复制代码 安装Tesseract OCR引擎(用于OCR功能):
- Windows:附件中下载
- macOS:brew install tesseract
- Linux:sudo apt-get install tesseract-ocr
复制代码
运行应用程序:
Web浏览器并导航至http://127.0.0.1:5000/
项目优势- 高性能文档处理:优化的文档解析引擎,能够高效处理各种格式的文档
- 低资源消耗:即使在配置较低的服务器上也能流畅运行
- 准确的结构保留:特别是在Markdown转换中,能够准确保留文档的原始结构
- 多平台支持:可在Windows、macOS和Linux系统上部署
- 灵活的API接口:提供RESTful API,方便与其他系统集成
- 无外部依赖的部署:除OCR功能外,核心功能无需外部服务支持
- 容器化部署:支持Docker部署,简化环境配置
已知问题- 较旧的Word文档(.doc格式)处理时间可能较长;建议在上传前将其转换为.docx格式
- 一些复杂的文档布局在Markdown转换中可能无法完美保留
- OCR准确性取决于图像质量和文本复杂性
一个基于Python Flask的Web应用,高效的开源知识提取器工具,专为企业知识库建设而设计,是RAG(检索增强生 ...
一个基于Python Flask的Web应用,高效的开源知识提取器工具,专为企业知识库建设而设计,是RAG(检索增强生 ...
一个基于Python Flask的Web应用,高效的开源知识提取器工具,专为企业知识库建设而设计,是RAG(检索增强生 ...
一个基于Python Flask的Web应用,高效的开源知识提取器工具,专为企业知识库建设而设计,是RAG(检索增强生 ...
一个基于Python Flask的Web应用,高效的开源知识提取器工具,专为企业知识库建设而设计,是RAG(检索增强生 ...

链接:https://pan.quark.cn/s/0f05a9c29a1b
提取码下载:
|