首页 > 资讯 > 正文

百度开源Unlimited OCR，长文档识别进入端到端模型竞速阶段

时间： 2026-06-29 阅读： 102

欧易交易所

全球三大交易所之一，注册领50 USDT数币盲盒！

官网注册 APP下载

OCR这条赛道过去几年一直不算喧闹，但变化其实持续在加速，只是多数时候藏在工程细节里。

百度这次发布并开源的Unlimited OCR，把讨论重新拉回到“端到端文档理解”这条线上。模型面向长文档解析场景，总参数3B，推理时实际激活约570M，结构上更接近一种“轻激活+高表达”的折中设计。

和传统OCR路径相比，这一代模型的变化不在“识别文字”，而在“理解文档结构”。

过去OCR更多是字符级任务，后面再接版面分析、表格解析、信息抽取，一整套流水线拆得很细。但问题也在这里：每一层都可能成为误差源，尤其在复杂扫描文档、跨栏排版、低质量图片场景中，误差会逐级放大。

端到端模型试图做的，是把这些中间环节压缩成一个统一推理过程。

Unlimited OCR的定位比较清晰：长文档。

这其实是一个被低估的场景。企业里的合同、财报、医疗记录、法律文书，结构复杂但格式相对稳定，对OCR的要求不是“看懂一句话”，而是“理解整页逻辑”。在这种任务里，传统OCR工具链的成本并不低。

模型在OmniDocBench v1.6上拿到93.92%的综合成绩，这个数字本身不只是性能指标，更像是一个阶段性信号——端到端OCR开始进入可用区间，而不只是实验室展示。

更有意思的是它发布后的传播路径。

上线次日就进入GitHub Daily Trending榜、Python榜，同时在HuggingFace的多个榜单上位列前排。这种快速扩散在OCR领域并不常见，通常发生在通用大模型或多模态模型上。

一定程度上说明一个变化：OCR正在从“工具型模型”向“基础能力组件”靠拢。

技术结构上，3B总参数规模并不算激进，但推理时只激活约570M参数，这种设计更接近“稀疏激活+任务聚焦”的思路。好处很直接：部署成本下降，适配边缘或企业私有化环境的门槛更低。

OCR模型过去的商业化障碍之一，就是算力与成本之间的比例不够友好。尤其在长文档处理场景里，推理成本会随着页面长度线性上升。压缩激活参数，本质是在解决这个问题。

从产业链角度看，这类模型的意义不只在技术突破，而在流程替代。

如果端到端OCR足够稳定，企业内部的文档处理流程会发生结构性变化：原本分段式的识别、清洗、抽取流程，会被统一成一个模型接口。这会直接影响到RPA、文档自动化、甚至部分BPO（业务流程外包）环节。

不过现实层面也不会完全线性替代。

端到端模型的弱点在于可解释性和边界控制。在金融、法律这类高风险场景中，企业往往需要逐步验证每一层处理结果，而不是直接接受最终输出。这意味着短期内更可能是“混合架构”，而不是全面替换。

但趋势是清晰的：OCR正在从规则驱动转向模型驱动，从流水线系统转向统一网络。

放在更大的AI图景里，这一步其实是多模态能力向“文档世界”渗透的一部分。图像理解、语言生成、结构解析正在逐渐融合，而文档，恰好是三者交汇的一个典型场景。

Unlimited OCR的意义不在于它是否刷新纪录，而在于它把OCR从一个工具问题，推向了基础模型问题。

币安

币安，全球顶级数字货币交易平台，手机即可买卖BTC等！

注册链接下载链接