第86期 软件推荐 一个开源超好用的OCR软件
2024年11月2日大约 2 分钟
第86期 软件推荐 一个开源超好用的OCR软件
在日常的工作中经常会遇到电子书或文档是图片扫描出的无法选中,或选中文字为乱码的情况。这种情况下就需要OCR软件进行再识别生成双层PDF
常用的文字识别软件为 ABBYY FineReader以及WPS。但均存在软件较大,识别慢,收费的问题
本期介绍一个github 20k stars的明星开源项目(Umi-OCR).
软件介绍
免费,开源,可批量的离线OCR软件
- 免费:项目所有代码开源,完全免费。
- 方便:解压即用,离线运行,无需网络。
- 高效:自带高效率的离线OCR引擎,内置多种语言识别库。
- 灵活:支持命令行、HTTP接口等外部调用方式。
- 功能:截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别
软件安装
注意事项
软件分为两个版:Paddle版和Rapid版。能用paddle就用paddle版吧
- Paddle 引擎插件版
- (性能好,速度快,占用率高,适合高配机器。不兼容奔腾、赛扬、凌动CPU)
- Rapid 引擎插件版
- (速度稍慢,内存占用低,适合低配机器,兼容性好)
- 个人使用
- 差距还是挺大的,同运行条件下,我的paddle版会比rapid版的速度快一倍。
- 大约2-3秒一面PDF(Paddle版,文字内容极多的蓝色生死恋) 不同版本仅OCR引擎插件不同,其它功能完全一致。
目前只有windows版本,其它端在开发中
Github安装
其它安装
公众号后台回复 “240410” 获取安装包
使用教程
软件使用简单,功能清楚,直接用没有任何问题
更多教程中文文档可见源网址:hiroi-sora/Umi-OCR: OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。 (github.com)