登录
首页 > 写作技巧 > 刚刚,DeepSeek 又发新模型,小而美玩出新高度

刚刚,DeepSeek 又发新模型,小而美玩出新高度

发布时间:2025-10-20 21:26:20

就在刚刚,DeepSeek 开源了一个 3B 模型 DeepSeek-OCR。虽然 3B 体量不大,但模型思路创新的力度着实不小。

众所周知,当前所有 LLM 处理长文本时都面临一个绕不开的困境:计算复杂度是平方级增长的。序列越长,算力烧得越狠。

于是,DeepSeek 团队想到了一个好办法。既然一张图能包含大量文字信息,而且用的 Token 还少,那不如直接把文本转成图像?这就是所谓的「光学压缩」——用视觉模态来给文本信息「瘦身」。

图片

而 OCR 正好天然适合验证这个思路,因为它本身就是在做「视觉→文本」的转换,而且效果还能量化评估。

图片

论文显示,DeepSeek-OCR 的压缩率能达到 10 倍,OCR 准确率还能保持在 97% 以上。

啥意思呢?就是说,原本需要 1000 个文本 Token 才能表达的内容,现在只用 100 个视觉 Token 就搞定了。即使压缩率拉到 20 倍,准确率也还有 60% 左右,整体效果相当能打。

OmniDocBench 基准测试结果显示:

  • 只用 100 个视觉 Token,就超过了 GOT-OCR2.0(每页 256 个 Token)的表现
  • 用不到 800 个视觉 Token,干翻了 MinerU2.0(平均每页超过 6000 个 Token)

在实际生产中,一块 A100-40G 显卡就能每天生成超过 20 万页的 LLM/VLM 训练数据。20 个节点(160 块 A100)直接飙到每天 3300 万页。

Copyright 2016-2025 商媒体 版权所有  京ICP备20241218号-1