Skip to content

Conversation

@pzc163
Copy link

@pzc163 pzc163 commented Aug 15, 2025

  • 新增mineru_loader.py服务文件
  • 更新knowledge_imp.py服务
  • 更新nginx配置
  • 更新initdb配置

pzc163 added 4 commits August 15, 2025 13:42
- 新增mineru_loader.py服务文件
- 更新knowledge_imp.py服务
- 更新nginx配置
- 更新initdb配置
- 修改mineru解析器逻辑,只支持PDF、PNG、JPG、JPEG格式
- 其他格式(doc、docx、ppt、pptx)继续使用原有解析方案
- 在filetype_load_map中添加图片格式支持
- 保持代码向后兼容性
- 新增MinerUTextSplitter类,专门处理MinerU解析结果
- 智能识别并保持Markdown结构:标题、表格、公式、代码块
- 限制MinerU解析器仅支持PDF和图片格式
- 优化chunk切分逻辑,确保标题与内容在同一chunk中
- 添加详细的调试日志,便于问题排查
- 统一所有Office文档类型(doc/docx/html/mhtml/ppt/pptx)使用相同切分逻辑
- 修复分隔符转义问题:将'\n\n'和'\n'转换为真实换行符
- 使用RecursiveCharacterTextSplitter支持多分隔符切分
- 保持使用传入的separator参数,不强制覆盖
- 清理调试日志,保持代码简洁
- 修复texts变量未定义问题
- 添加参数验证和默认值保护
@yanmao2023
Copy link

这么好的功能怎么没有合并呢

@jieyuhuayang
Copy link
Collaborator

2.3 版本合进来哈

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants