评测更新时间: 2025-10-27
olmOCR
当前版本:olmOCR2
由Ai2训练发布的开源PDF转换模型,有在线demo可预览十页解析结果。完整版只能通过本地运行完成。
优点:目前最好的页面布局检测和处理以及OCR效果,没有太离谱的数学公式识别策略
缺点:模型对文档的结构应该是有感知的,但是输出为markdown时没有header信息,且输出端的格式需要手动微调
MinerU
上海人工智能研究院发布的工具,具有足够大的在线使用额度,地址在此
优点:免费,不需要本地部署,而且大部分情况下效果足够好;能并排对照输出侧和源文件
缺点:强制开启OCR和数学公式识别,同时这两者的错误率不低,需要手动修改。对表格的支持一般