引入其他开源PDF OCR项目用于扫描件PDF的识别 #634

HonorWater · 2024-06-13T06:00:59Z

v1.2.0

首先感谢开发者开源这么好的项目！
有很多的PDF文档都是扫描件，MaxKB是无法正常识别的。

希望可以加入PDF的OCR功能，可以对PDF导入后先进行OCR识别：一般都是把PDF每一页转换为图片，然后进行识别。
可以参考这个开源项目：https://github.com/hiroi-sora/Umi-OCR
他的OCR识别效果还是很好的

No response

baixin513 · 2024-06-13T09:10:21Z

感谢反馈，我们先调研一下。

HonorWater assigned baixin513 Jun 13, 2024

baixin513 modified the milestone: v1.5.0 Aug 19, 2024

Provide feedback