NLP——技术报告解读-DeepSeek-OCR

注：本文包含 AI 辅助创作

参考链接：
- 原始论文：DeepSeek-OCR: Contexts Optical Compression, 20251021, DeepSeek-AI
- GitHub 链接：github.com/deepseek-ai/DeepSeek-OCR

Paper Summary

技术报告核心内容：
- 提出了 DeepSeek-OCR，并通过该模型初步验证了上下文光学压缩的可行性，证明了模型可以从少量视觉 Token 中有效解码出数量超过其 $10$ 倍的文本 Token
- DeepSeek-OCR 是一个高度实用的模型（能够进行大规模的预训练数据生产，是 LLM 不可或缺的助手）
- 作者提到未来会做的事情：
  - 仅凭 OCR 不足以完全验证真正的上下文光学压缩，作者未来将进行数字-光学文本交错预训练、大海捞针测试等评估
  - 从另一个角度看，光学上下文压缩仍然提供了巨大的研究和改进空间，代表了一个有前途的新方向
DeepSeek-OCR 包含两个组件：DeepEncoder 和作为解码器的 DeepSeek3B-MoE-A570M
- DeepEncoder 作为核心引擎，设计目标是在高分辨率输入下保持低激活量，同时实现高压缩比以确保最佳且可管理的视觉 Token 数量
  - 当文本 Token 数量在视觉 Token 数量的 10 倍以内（即压缩比 $<$ $10\times$）时，模型可以实现 97% 的解码（OCR）精度
    - 即使在 $20\times$ 的压缩比下，OCR 准确率仍保持在约 60%
  - 这对于历史长上下文压缩和 LLM 中的记忆遗忘机制等研究领域显示出相当大的前景
DeepSeek-OCR 还展现出很高的实用价值
- 在 OmniDocBench 上，它仅使用 100 个视觉 Token 就超越了 GOT-OCR2.0（每页 256 个 Token ）
- 在使用少于 800 个视觉 Token 的同时，性能超过了 MinerU2.0（平均每页 6000+ 个 Token ）
- 在生产环境中，DeepSeek-OCR 每天可以为 LLM/VLM（视觉语言模型，Vision-Language Model）生成 20 万+页的训练数据（单张 A100-40G）

Introduction and Discussion

当前的 LLM 在处理长文本内容时，由于序列长度的二次缩放问题，面临着显著的计算挑战
论文探索了一种潜在的解决方案：利用视觉模态作为文本信息的高效压缩媒介
- 包含文档文本的单个图像可以用比等效数字文本少得多的 Token 来表示丰富的信息，这表明通过视觉 Token 进行光学压缩可以实现更高的压缩比
这一见解促使论文从以 LLM 为中心的视角重新审视视觉语言模型（VLM），重点关注视觉编码器如何提高 LLM 处理文本信息的效率 ，而不是人类擅长的基本视觉问答（Visual Question Answering, VQA）(2017; 2014; 2022; 2023; 2023)
OCR 任务作为连接视觉和语言的中间模态，为这种视觉-文本压缩范式提供了一个理想的试验台，因为它们在视觉和文本表示之间建立了自然的压缩-解压缩映射，同时提供了定量的评估指标
DeepSeek-OCR 是一个旨在为高效的视觉-文本压缩提供初步概念验证的 VLM，论文的工作做出了三个主要贡献：
- 第一，论文提供了视觉-文本 Token 压缩比的全面定量分析
  - 论文的方法在 Fox (2024) 基准测试上（包含多样化的文档布局），在 9-$10\times$ 文本压缩下实现了 96%+ 的 OCR 解码精度，在 10-$12\times$ 压缩下达到约 90%，在 $20\times$ 压缩下达到约 60%（考虑到输出和真实文本之间的格式差异，实际准确率甚至更高），如图 1(a) 所示
  - 结果表明，紧凑的语言模型可以有效地学习解码压缩的视觉表示，这表明更大的 LLM 通过适当的预训练设计可以容易地获得类似的能力
- 第二，论文介绍了 DeepEncoder，这是一种新颖的架构，即使在高分辨率输入下也能保持低激活内存和最少的视觉 Token
  - DeepEncoder 通过一个 $16\times$ 的卷积压缩器串联连接窗口注意力和全局注意力编码器组件
  - 这种设计确保了窗口注意力组件处理大量的视觉 Token ，而压缩器在视觉 Token 进入密集的全局注意力组件之前减少其数量，从而实现有效的内存和 Token 压缩
- 第三，论文基于 DeepEncoder 和 DeepSeek3B-MoE (2024; 2024) 开发了 DeepSeek-OCR
  - 如图 1(b) 所示，它在 OmniDocBench 上的端到端模型中实现了 SOTA 性能，同时使用了最少的视觉 Token
  - 论文还为模型配备了解析图表、化学公式、简单几何图形和自然图像的能力，以进一步增强其实用性
  - 在生产环境中，DeepSeek-OCR 每天可以使用 20 个节点（每个节点配备 8 张 A100-40G GPU）为 LLM 或 VLM 生成 3300 万页数据
总结：这项工作对使用视觉模态作为 LLM 中文本信息处理的高效压缩媒介进行了初步探索
- 通过 DeepSeek-OCR，论文证明了视觉-文本压缩可以为不同的历史上下文阶段实现显著的 Token 减少（7-$20\times$）
  - 为解决大语言模型中的长上下文挑战提供了一个有前景的方向
- 论文的定量分析为 VLM Token 分配优化提供了经验指导，而提出的 DeepEncoder 架构展示了实际可行性并具备现实部署能力
- 虽然作为概念验证主要关注 OCR，但这种范式为重新思考如何协同结合视觉和语言模态以增强大规模文本处理和智能体系统中的计算效率开辟了新的可能性

Typical Vision Encoders in VLMs

当前开源的 VLM 主要采用三种类型的视觉编码器，如图 2 所示
第一种是以 Vary (2024) 为代表的双塔架构，它利用并行的 SAM (2023) 编码器来增加视觉词汇参数以处理高分辨率图像
- 这种方法提供了可控的参数和激活内存
- 但存在显著缺点：需要双图像预处理，这使部署复杂化，并在训练期间使编码器流水线并行具有挑战性
第二种是以 InternVL2.0 (2024) 为例的基于分块的方法，它通过将图像分割成小块进行并行计算来处理图像，从而在高分辨率设置下减少激活内存
- 这种方法能够处理极高的分辨率，但由于其通常较低的原生编码器分辨率（低于 512x512），导致大图像被过度分割，从而产生大量的视觉 Token ，因此存在显著的局限性
第三种是以 Qwen2-VL (2024) 为代表的自适应分辨率编码，它采用 NaViT (2023) 范式，通过基于图像块的分割直接处理完整图像，而无需分块并行化
- 这种编码器可以灵活处理不同的分辨率
- 但由于大量激活内存消耗可能导致 GPU 内存溢出，它在处理大图像时面临巨大挑战，并且序列打包在训练期间需要极长的序列长度
- 长的视觉 Token 会减慢推理的预填充（prefill）和生成阶段

End-to-end OCR Models

OCR，特别是文档解析任务，一直是图像到文本领域非常活跃的话题
随着 VLM 的发展，涌现了大量的端到端 OCR 模型，从根本上改变了传统需要独立检测和识别专家模型的流水线架构，从而简化了 OCR 系统
Nougat (2023) 首次在 arXiv 上采用端到端框架进行学术论文 OCR，展示了模型在处理密集感知任务方面的潜力
GOT-OCR2.0 (2024) 将 OCR2.0 的范围扩展到包括更多合成图像解析任务，并设计了一个在性能和效率之间权衡的 OCR 模型，进一步凸显了端到端 OCR 研究的潜力
通用视觉模型如 Qwen-VL 系列 (2024)、InternVL 系列 (2024) 以及它们的许多衍生模型不断增强其文档 OCR 能力，以探索密集视觉感知的边界
然而，当前模型尚未解决的一个关键研究问题是：对于一个包含 1000 个单词的文档，解码至少需要多少个视觉 Token ？ 这个问题对于研究“一图胜千言（a picture is worth a thousand words.）”的原理具有重要意义

Methodology

Architecture

如图 3 所示，DeepSeek-OCR 采用统一的端到端 VLM 架构，由一个编码器和一个解码器组成
编码器（即 DeepEncoder）负责提取图像特征并对视觉表示进行 Token 化及压缩
- DeepEncoder 的参数约为 $380$M，主要由一个 $80$M 的 SAM-base (2023) 和一个 $300$M 的 CLIP-large (2021) 串联组成
解码器用于根据图像 Token 和提示生成所需的结果
- 解码器采用 $3$B 的 MoE (2024; 2024) 架构，激活参数约为 $570$M
在接下来的段落中，论文将深入探讨模型组件、数据工程和训练技巧

DeepEncoder

为了探索上下文光学压缩的可行性，论文需要一个具有以下特征的视觉编码器：
- 1）能够处理高分辨率；
- 2）在高分辨率下具有低激活量；
- 3）视觉 Token 数量少；
- 4）支持多分辨率输入；
- 5）参数量适中
然而，如第 2.1 节所述，当前的开源编码器不能完全满足所有这些条件
- 因此，论文自己设计了一种新颖的视觉编码器，命名为 DeepEncoder

Architecture of DeepEncoder

DeepEncoder 主要由两个组件组成：
- 一个以窗口注意力为主的视觉感知特征提取组件
- 一个具有密集全局注意力的视觉知识特征提取组件
为了受益于先前工作的预训练成果，论文分别使用 SAM-base（ Patch 大小 16）和 CLIP-large 作为这两个组件的主要架构
- 对于 CLIP，论文移除了第一个 Patch 嵌入层，因为其输入不再是图像，而是来自前一个流程的输出 Token
- 在两个组件之间，论文借鉴了 Vary (2024) 的方法，使用一个 2 层卷积模块对视觉 Token 进行 $16\times$ 下采样
每个卷积层的核大小为 3，步长为 2，填充为 1，通道数从 256 增加到 1024
- 假设论文输入一张 $1024\times1024$ 的图像，DeepEncoder 会将其分割成 $1024/16\times1024/16=4096$ 个 Patch Token
- 由于编码器的前半部分以窗口注意力为主且仅有 80M 参数，其激活量是可以接受的
在进入全局注意力之前，$4096$ 个 Token 会经过压缩模块，Token 数量变为 $4096/16=256$，从而使整体激活内存可控

Multiple resolution support（多分辨率支持）

假设论文有一张包含 1000 个光学字符的图像，论文想测试需要多少个视觉 Token 才能进行解码
- 这就要求模型支持可变数量的视觉 Token
- 也就是说，DeepEncoder 需要支持多分辨率
论文通过位置编码的动态插值来满足上述要求，并设计了若干种分辨率模式用于同步模型训练，以实现单个 DeepSeek-OCR 模型支持多分辨率的能力
如图 4 所示，DeepEncoder 主要支持两种主要的输入模式：原生分辨率和动态分辨率（每种模式都包含多个子模式）
原生分辨率支持四个子模式：Tiny、Small、Base 和 Large，对应的分辨率和 Token 数量分别为 $512\times512$ (64)、$640\times640$ (100)、$1024\times1024$ (256) 和 $1280\times1280$ (400)
- 由于 Tiny 和 Small 模式的分辨率相对较小，为了避免浪费视觉 Token ，图像通过直接调整原始形状来处理
- 对于 Base 和 Large 模式，为了保留原始图像的宽高比，图像会被填充到相应的大小
- 填充后，有效（valid）视觉 Token 的数量少于实际（real）视觉 Token 的数量，计算公式为：
  $$N_{\text{valid} }=\lceil N_{\text{real} }\times[1-((\max(w,h)-\min(w,h))/(\max(w,h)))]\rceil$$
  - 其中 $w$ 和 $h$ 代表原始输入图像的宽度和高度
动态分辨率可以由两种原生分辨率组合而成
- 例如，Gundam 模式由 n 个 $640\times640$ 的图块（局部视图）和一个 $1024\times1024$ 的全局视图组成
- 分块方法遵循 InternVL2.0 (2024)
支持动态分辨率主要是出于应用考虑，特别是针对超高分辨率输入（例如报纸图像）
- 分块是次级窗口注意力的一种形式，可以进一步有效减少激活内存
值得注意的是，由于论文的原生分辨率相对较大，在动态分辨率下图像不会被分割得过于零碎（图块数量控制在 2 到 9 的范围内）。Gundam 模式下 DeepEncoder 输出的视觉 Token 数量为：$n\times 100+256$，其中 $n$ 是图块数量
对于宽和高均小于 640 的图像，$n$ 设置为 0，即 Gundam 模式将退化为 Base 模式
Gundam 模式与四种原生分辨率模式一起训练，以达到一个模型支持多种分辨率的目标
注意，Gundam-master 模式（$1024\times1024$ 局部视图 + $1280\times1280$ 全局视图）是通过在预训练的 DeepSeek-OCR 模型上使用 6M 采样数据继续训练得到的
这主要是为了负载均衡，因为 Gundam-master 的分辨率太大，将其一起训练会降低整体训练速度

The MoE Decoder

论文的解码器使用 DeepSeekMoE (2024; 2024)，具体来说是 DeepSeek-3B-MoE
在推理过程中，模型激活 64 个路由专家中的 6 个以及 2 个共享专家，激活参数约为 570M
3B 的 DeepSeekMoE 非常适用于以领域为中心（对论文来说是 OCR）的 VLM 研究，因为它获得了 3B 模型的表达能力，同时享有 500M 小模型的推理效率
解码器从 DeepEncoder 的压缩潜在视觉 Token 中重建原始文本表示，如下所示：
$$f_{\text{dec} }:\mathbb{R}^{n\times d_{\text{latent} } }\rightarrow\mathbb{R}^{N\times d_{\text{text} } };\quad \hat{\mathbf{X} }=f_{\text{dec} }(\mathbf{Z})\quad \text{ Where }n\leq N$$
- 其中 $\mathbf{Z}\in\mathbb{R}^{n\times d_{\text{latent} } }$ 是来自 DeepEncoder 的压缩潜在（视觉） Token ，而 $\hat{\mathbf{X} }\in\mathbb{R}^{N\times d_{\text{text} } }$ 是重建的文本表示
- 函数 $f_{\text{dec} }$ 表示一种非线性映射，紧凑的语言模型可以通过 OCR 风格的训练有效地学习这种映射
- 可以合理地推测，大语言模型通过专门的预训练优化，将更自然地整合此类能力

Data Engine

论文为 DeepSeek-OCR 构建了复杂多样的训练数据，包括 OCR 1.0 数据，主要包括传统 OCR 任务，如场景图像 OCR 和文档 OCR；OCR 2.0 数据，主要包括复杂人造图像的解析任务，如常见图表、化学公式和平面几何解析数据；通用视觉数据，主要用于向 DeepSeek-OCR 注入一定的通用图像理解能力并保留通用视觉接口

OCR 1.0 data

文档数据是 DeepSeek-OCR 的重中之重
论文从互联网上收集了 30M 页多样化的 PDF 数据，覆盖约 100 种语言，其中中文和英文约占 25M，其他语言约占 5M
对于这些数据，论文创建了两种类型的真实标签：粗粒度标注和细粒度标注
- 粗粒度标注是使用 fitz 直接从全数据集中提取的，旨在教导模型识别光学文本，尤其是小语种文本
- 细粒度标注包括各 2M 页的中文和英文文档，使用先进的布局模型（如 PP-DocLayout (2025)）和 OCR 模型（如 MinuerU (2024) 和 GOT-OCR2.0 (2024)）进行标注，以构建检测和识别交错的数据
对于小语种，在检测部分，论文发现布局模型具有一定的泛化能力
在识别部分，论文使用 fitz 创建小 Patch 数据来训练一个 GOT-OCR2.0，然后使用训练好的模型对经过布局处理的小 Patch 进行标注，采用模型飞轮的方式创建了 600K 数据样本
在 DeepSeek-OCR 的训练过程中，粗标签和细标签通过不同的提示词进行区分
细粒度标注的图文对真实标签可见图 5
论文还收集了 3M Word 数据，通过直接提取内容构建没有布局的高质量图文对
- 这些数据主要给公式和 HTML 格式的表格带来好处
此外，论文选择了一些开源数据 (2025; 2024) 作为补充
对于自然场景 OCR，论文的模型主要支持中文和英文
- 图像数据来源为 LAION (2021) 和 Wukong (2022)，使用 PaddleOCR (2025) 进行标注，中文和英文各有 10M 数据样本
- 自然场景 OCR 也可以通过提示词控制是否输出检测框（与文档 OCR 类似）

OCR 2.0 data

遵循 GOT-OCR2.0 (2024)
- 论文将图表、化学公式和平面几何解析数据称为 OCR 2.0 数据
遵循 OneChart (2024)
- 对于图表数据，论文使用 pyecharts 和 matplotlib 渲染了 10M 图像
- 主要包括常用的折线图、柱状图、饼图以及复合图表
论文将图表解析定义为图像到 HTML 表格的转换任务，如图 6(a) 所示
对于化学公式，论文利用 PubChem 的 SMILES 格式作为数据源，并使用 RDKit 将它们渲染成图像，构建了 5M 图文对
- 对于平面几何图像，论文遵循 Slow Perception (2024) 进行生成
- 具体来说，论文使用感知标尺大小为 4 来建模每个线段
为了增加渲染数据的多样性，论文引入了几何平移不变的数据增强，即相同的几何图像在原图中进行平移，对应于在坐标系中心位置绘制的相同真实标签
- 基于此，论文总共构建了 1M 平面几何解析数据，如图 6(b) 所示

General vision data

DeepEncoder 可以受益于 CLIP 的预训练成果，并且有足够的参数来融合通用视觉知识
- 因此，论文也为 DeepSeek-OCR 准备了一些相应的数据
遵循 DeepSeek-VL2 (2024)，论文为描述、检测和定位等任务生成相关数据
请注意，DeepSeek-OCR 不是一个通用的 VLM 模型，这部分数据仅占总数据的 20%
论文引入此类数据主要是为了保留通用视觉接口，以便未来对论文模型和通用视觉任务感兴趣的研究人员可以方便地推进他们的工作

Text-only data

为了确保模型的语言能力，论文引入了 10% 的内部纯文本预训练数据，所有数据都处理成长度为 8192 个 Token ，这也是 DeepSeek-OCR 的序列长度
在训练 DeepSeek-OCR 时，OCR 数据占 70%，通用视觉数据占 20%，纯文本数据占 10%

Training Pipelines

论文的训练流程非常简单，主要包括两个阶段：
- a）独立训练 DeepEncoder；
- b）训练 DeepSeek-OCR
Gundam-master 模式是通过在预训练的 DeepSeek-OCR 模型上使用 6M 采样数据继续训练得到的
- 由于训练协议与其他模式相同，论文在后面省略详细描述

Training DeepEncoder

遵循 Vary (2024)，论文利用一个紧凑的语言模型 (2022) 并使用 Next Token Prediction 框架来训练 DeepEncoder
在这个阶段，论文使用前面提到的所有 OCR 1.0 和 2.0 数据，以及从 LAION (2021) 数据集中采样的 100M 通用数据
所有数据训练 2 个周期，批大小为 1280，使用 AdamW (2019) 优化器，采用余弦退火调度器 (2016)，学习率为 5e-5，训练序列长度为 4096

Training DeepSeek-OCR

在 DeepEncoder 准备好之后，论文使用第 3.4 节中提到的数据来训练 DeepSeek-OCR
整个训练过程在 HAI-LLM (2023) 平台上进行
整个模型使用流水线并行（PP），分为 4 个部分，DeepEncoder 占两部分，解码器占两部分
- 对于 DeepEncoder，论文将 SAM 和压缩器视为视觉 Token 器，将它们放在 PP0 并冻结其参数，同时将 CLIP 部分视为输入嵌入层，放在 PP1 并解冻权重进行训练
- 对于语言模型部分，由于 DeepSeek3B-MoE 有 12 层，论文将 6 层分别放在 PP2 和 PP3 上
- 论文使用 20 个节点（每个节点有 8 个 A100-40G GPU）进行训练，数据并行（DP）为 40，全局批大小为 640
- 论文使用 AdamW 优化器，采用基于步长的调度器，初始学习率为 3e-5
- 对于纯文本数据，训练速度为 90B Token /天，而对于多模态数据，训练速度为 70B Token /天

Evaluation

Vision-text Compression Study

论文选择 Fox (2024) 基准来验证 DeepSeek-OCR 对文本丰富文档的压缩-解压缩能力，以初步探索上下文光学压缩的可行性和边界
论文使用 Fox 的英文文档部分，用 DeepSeek-OCR 的分词器（词表约为 129k）对真实文本进行分词，并选择包含 600-1300 个 Token 的文档进行测试，恰好是 100 页
- 由于文本 Token 数量不大，论文只需要测试 Tiny 和 Small 模式下的性能，其中 Tiny 模式对应 64 个 Token ，Small 模式对应 100 个 Token
- 论文使用提示词 “<image>\nFree OCR.“ 来控制模型的输出格式
- 尽管如此，输出格式仍然无法完全匹配 Fox 基准，因此实际性能会略高于测试结果
如表 2 所示，在 10 倍的压缩比内，模型的解码精度可以达到约 97%，这是一个非常有希望的结果
未来，或许可以通过文本到图像的方法实现近 10 倍的无损上下文压缩
当压缩比超过 10 倍时，性能开始下降，这可能有两个原因：
- 原因一：长文档的布局变得更加复杂
  - 第一个问题可以通过将文本渲染到单一布局页面来解决
- 原因二：可能是长文本在 512×512 或 640×640 分辨率下变得模糊
  - 作者认为第二个问题将成为遗忘机制的一个特征
当以近 20 倍的比率压缩 Token 时，论文发现精度仍然可以接近 60%
这些结果表明，光学上下文压缩是一个非常值得研究的方向，并且这种方法不会带来任何开销，因为它可以利用 VLM 基础设施，因为多模态系统本身就需要额外的视觉编码器

OCR Practical Performance

DeepSeek-OCR 不仅是一个实验模型；它具有强大的实际能力，可以为 LLM/VLM 预训练构建数据
为了量化 OCR 性能，论文在 OmniDocBench (2025) 上测试了 DeepSeek-OCR，结果如表 3 所示
论文的 DeepSeek-OCR 模型在实际应用中非常强大，并且由于更高的 Token 压缩率，它具有更高的研究上限
- 仅需 100 个视觉 Token（640×640 分辨率），DeepSeek-OCR 就超越了使用 256 个 Token 的 GOT-OCR2.0 (2024)；
- 使用 400 个 Token（285 个有效 Token ，1280×1280 分辨率），它在该基准测试中达到了与最先进技术相当的性能
- 使用少于 800 个 Token（Gundam 模式），DeepSeek-OCR 的性能优于需要近 7,000 个视觉 Token 的 MinerU2.0 (2024)
如表 4 所示，某些类别的文档只需要很少的 Token 就能达到令人满意的性能，例如幻灯片只需要 64 个视觉 Token
- 对于书籍和报告文档，DeepSeek-OCR 仅需 100 个视觉 Token 即可实现良好的性能
  - 结合第 4.1 节的分析，这可能是因为这些文档类别中的大多数文本 Token 都在 1,000 个以内，意味着视觉 Token 压缩比不超过 10 倍
- 对于报纸，需要 Gundam 甚至 Gundam-master 模式才能达到可接受的编辑距离，因为报纸中的文本 Token 为 4-5,000 个，远远超过其他模式的 10 倍压缩
- 这些实验结果进一步证明了上下文光学压缩的边界，这可能为 VLM 中视觉 Token 优化以及 LLM 中上下文压缩和遗忘机制的研究提供有效的参考

Qualitative Study

Deep parsing

DeepSeek-OCR 同时具备布局和 OCR 2.0 能力，使其能够通过二次模型调用进一步解析文档中的图像，论文称此功能为”深度解析”
如图 7, 8, 9, 10 所示，论文的模型可以对图表、几何图形、化学公式甚至自然图像进行深度解析，只需要一个统一的提示词

Multilingual recognition

互联网上的 PDF 数据不仅包含中文和英文，还包含大量多语言数据，这在训练 LLM 时也至关重要
对于 PDF 文档，DeepSeek-OCR 可以处理近 100 种语言
与中英文文档一样，多语言数据也同时支持布局和非布局 OCR 格式
可视化结果如图 11 所示，论文选择了阿拉伯语和僧伽罗语来展示结果

General vision understanding

论文还为 DeepSeek-OCR 提供了一定程度的通用图像理解能力，相关的可视化结果如图 12 所示

Discussion

论文的工作代表了对视觉-文本压缩边界的初步探索，研究了需要多少视觉 Token 来解码 $N$ 个文本 Token
初步结果令人鼓舞：
- DeepSeek-OCR 在大约 10 倍的比率下实现了近乎无损的 OCR 压缩，而 20 倍的压缩仍然保持了 60% 的准确率
- 这些发现为未来的应用指明了有希望的方向，例如在多轮对话中对超过 $k$ 轮的对话历史实施光学处理，以实现 10 倍的压缩效率
对于较早的上下文，我们可以逐步缩小渲染图像的大小，以进一步减少 Token 消耗
- 这个假设的灵感来源于人类记忆随时间自然衰退与视觉感知随空间距离退化之间的自然平行关系（两者都表现出类似的渐进式信息丢失模式）如图 13 所示
- 通过结合这些机制，上下文光学压缩方法实现了一种类似于生物遗忘曲线的记忆衰退形式，其中近期信息保持高保真度，而遥远的记忆通过增加压缩比自然淡出
虽然论文的初步探索显示了可扩展的超长上下文处理的潜力，其中近期上下文保持高分辨率，而较早的上下文消耗更少的资源，但论文承认这是早期工作，需要进一步研究
该方法提出了一条通向理论上无限上下文架构的路径，该架构平衡了信息保留和计算约束，尽管这种视觉-文本压缩系统的实际意义和局限性需要在未来的研究中更深入地探讨

Introduction and Discussion

Related Works

Typical Vision Encoders in VLMs

End-to-end OCR Models

Methodology

Architecture

DeepEncoder

Architecture of DeepEncoder

Multiple resolution support（多分辨率支持）

The MoE Decoder

Data Engine

OCR 1.0 data

OCR 2.0 data

General vision data

Text-only data

Training Pipelines

Training DeepEncoder

Training DeepSeek-OCR

Evaluation

Vision-text Compression Study

OCR Practical Performance

Qualitative Study

Deep parsing

Multilingual recognition

General vision understanding

Discussion