澳门游戏网 DeepSeek-OCR 2重磅发布：AI学会“东说念主类视觉逻辑”，以因果流解读图片

2026-01-28 00:06 157

DeepSeek发布新一代光学字符识别系统，通过让AI以雷同东说念主类的逻辑规矩领路图像，在视觉识别范围终了手艺冲破。这一进展可能重塑文档科罚、图表分析等依赖复杂视觉领路的诈欺场景。

27日，DeepSeek发布了DeepSeek-OCR 2系统。该系统弃取名为DeepEncoder V2的新门径，使AI能够像东说念主类一样按照逻辑规矩“看”图像。这项手艺的中枢立异在于编削了传统AI科罚图像的表情。DeepEncoder V2让AI基于图像含义动态重新成列图照片断，而非传统的从左到右刚性扫描。这种门径师法了东说念主类奴隶场景逻辑流的表情。

左证DeepSeek公布的手艺论说，DeepSeek-OCR 2在多项弊端主见上展现出显耀上风。在OmniDocBench v1.5基准测试中，该模子取得了91.09%的得益，相较于前代DeepSeek-OCR莳植了3.73%。

值得防备的是，该模子在保执极高精度的同期，严格限定了贪图老本，其视觉Token数目被收场在256至1120之间，这一上限与Google的Gemini-3 Pro保执一致。在实质分娩环境中，该模子在科罚在线用户日记和PDF预锻真金不怕火数据时的疏通率辨别下跌了2.08%和0.81%，宗旨出极高的实用老练度。

DeepSeek-OCR 2重磅发布

模拟东说念主类视觉的“因果流”逻辑

左证DeepSeek公布的手艺论说，现存的视觉讲话模子（VLMs）频繁弃取固定的光栅扫描规矩（光栅扫描规矩）科罚图像切片，即机械地从左上角扫描至右下角。DeepSeek团队指出，这种表情引入了不消要的归纳偏差，与东说念主类视觉感知以火去蛾中。东说念主类在阅读复随笔档、表格或跟踪螺旋线条时，澳门在线赌钱娱乐网入口视野是受语义领路运行的“因果流”，后一次属目往往因果依赖于前一次属目，而非单纯的空间坐标出动。

受此贯通机制启发，DeepSeek-OCR 2的中枢组件DeepEncoder V2被想象用于赋予编码器因果推理才气。通过引入可学习的“因果流查询”（Causal Flow Queries），模子能够在插足LLM解码器进行内容讲授之前，先在编码阶段就对视觉信息进行智能重排序。这实质上构建了一个两级级联的1D因果推理结构：最初由编码器在语义上重组视觉Token，随后由解码器对有序序列进行自回来推理。这种想象不仅合适光学文本、表格和公式的非线性布局特征，还有用弥补了2D图像结构与1D讲话建模之间的鸿沟。

弃用CLIP架构，转向LLM式编码器

DeepEncoder V2在架构上试验了要紧变革，可提现游戏平台将DeepEncoder华夏有的CLIP组件替换为紧凑的LLM式架构（具体为Qwen2-0.5B）。为了终了并行科罚，新架构引入了一组可学习的查询向量，称为“因果流Token”，并将原始视觉Token手脚前缀拼接到序列中。

该架构弃取了一种定制化的防备力掩码（Attention Mask）计谋：

视觉Token部分：保留双向防备力机制，确保模子能够像CLIP一样领有全局感受野，捕捉图像的合座特征。因果流Token部分：弃取因果防备力机制（雷同Decoder-only LLM），每个查询Token只可关切之前的Token。

通过这种想象，视觉Token保执了信息的全局交互，而因果流Token则取得了重排序视觉信息的才气。DeepSeek-OCR 2弃取了多剪辑计谋（Multi-crop strategy），左证图像分辨率不同，最终输入LLM的重排序视觉Token总和在256到1120之间。这一数目级显耀低于部分竞品高达6000以上的Token浮滥，在保证高性能的同期大幅裁汰了贪图支拨。

性能显耀莳植与分娩环境考据

在OmniDocBench v1.5的详细评估中，DeepSeek-OCR 2发扬优异。数据宗旨，在相同的锻真金不怕火数据源下，新模子相较于DeepSeek-OCR基线模子取得了3.73%的性能莳植。极度是在阅读规矩（Reading Order）的编著距离（Edit Distance）主见上，DeepSeek-OCR 2从0.085显耀裁汰至0.057，这径直考据了DeepEncoder V2在逻辑重排序方面的有用性。

除了基准测试，DeepSeek还显露了该模子在实质分娩管线中的发扬。DeepSeek-OCR 2主要处事于DeepSeek-LLMs的在线OCR处事及PDF预锻真金不怕火数据科罚。在莫得真值（Ground Truth）的分娩环境中，疏通率（Repetition Rate）是算计质料的中枢主见。数据宗旨，在科罚在线用户日记图像时，DeepSeek-OCR 2将疏通率从6.25%裁汰至4.17%;在PDF数据分娩中，疏通率从3.69%降至2.88%。这标明新模子在生成高质料、低冗余的文本数据方面具备极高的实用价值。

通向原生多模态与简直的2D推理

DeepSeek-OCR 2的发布不仅是一次OCR性能的升级，更具有长远的架构探索意旨。DeepEncoder V2初步考据了使用讲话模子架构手脚视觉编码器的后劲。这种架构自然接管了LLM社区在基础要道优化方面的后果，如夹杂群众（MoE）架构和高效防备力机制。

DeepSeek团队合计，这为迈向协调的全模态编码器提供了一条有但愿的旅途。翌日，单一编码器可能通过成就特定模态的可学习查询，在并吞参数空间内终了对图像、音频和文本的特征索求与压缩。DeepSeek-OCR 2所展示的“两个级联的1D因果推理器”样式，通过将2D领路领会为“阅读逻辑推理”和“视觉任务推理”两个互补子任务，粗略代表了终了简直2D推理的一种冲破性架构门径。

澳门游戏网 DeepSeek-OCR 2重磅发布：AI学会“东说念主类视觉逻辑”，以因果流解读图片

九游官网

热点资讯

开云官网

AG官网

星空官网

米兰官网

九游官网

乐鱼官网