DeepSeek识图模式灰度上线
多模态GEO时代,正式开启
一只戴着海盗眼罩的鲸鱼,终于睁开了另一只眼睛。
这不是功能更新,这是国产顶级大模型补全最后一块拼图的标志性事件。
你的品牌,还在只做文字优化吗?
DeepSeek开眼,意味着什么?
4月29日,DeepSeek悄悄上线了「识图模式」。多模态团队负责人陈小康在X上只发了一句话:"Now, we see you."
在此之前,DeepSeek的视觉理解能力一直是短板。语言和推理能力卷到了第一梯队,但"看图"这件事,始终交给第三方OCR工具处理。识图模式的上线,彻底改变了这个局面。
基于DeepSeek-OCR2视觉因果流机制,实现三重突破:
物体识别:不是简单分类,而是理解画面中的实体关系
场景解析:根据蛛丝马迹推断拍摄地点、判断场景氛围
图表分析:直接理解复杂表格、数据图的含义
细节洞察:捕捉人眼易忽略的信息,比如屏幕倒影、微小文字
逻辑推理:能发现图片中的矛盾点,比如时间与光影不符
有人上传了一张灵隐寺的照片——图中只有右下角路灯上有几个难以辨认的草书大字。DeepSeek不仅识别出了这是灵隐寺,还准确给出了所在城市的坐标。
这不是OCR。这是真正的"视觉理解"。
从业者视角:多模态AI搜索已经到来
在我们服务200+企业的实践中,有一个明显的感知:品牌在AI搜索中的可见度,正在从"文字答案"扩展到"视觉理解"。
行业白皮书数据:到2027年,主流AI平台多模态内容检索权重较2025年提升60%,单一文本权重将降至35%。
文本权重占比
这意味着——品牌不仅要在"文字答案"中被推荐,还要在"视觉理解"中被识别。
举个直观的例子:
过去
用户问"这款新能源汽车续航怎么样",AI只会从文字内容中提取答案。
现在
用户可以直接拍一张仪表盘的照片发给AI:"帮我看看这辆车的续航"。或者拍一张车辆参数表,问"这两款车哪个性价比更高"。
你的品牌在这些场景中出现过吗?
你的产品图片、视频、文档能被AI准确理解吗?
如果答案是"没有认真考虑过",那你的GEO策略已经落后了半代。
多模态GEO的实战数据
为什么我们判断多模态GEO时代已经正式开启?来看一组硬核数据:
多模态GEO核心数据指标
指标
数据
预计2026年含图像/视频的AI搜索查询占比
超过40%
含结构化数据的页面在AI Overviews中被引用概率
比纯文本高67%
某工业软件企业部署"文本+3D视频"多模态组合后
ChatGPT提及率增长170%
采用FAQ Schema的页面在语音/视觉搜索中被引用概率
提升3.2倍
这些数据告诉我们一个残酷的事实:
多模态内容已经不是"锦上添花",而是GEO的"必备基础设施"。
真实案例:在我们服务的某制造业客户案例中,通过优化产品3D模型的结构化数据标记(使用glTF标准和Product/3DModel Schema),其产品在"AI推荐购买"模块中的引用率提升了200%。
这就是多模态GEO的真实价值。
品牌应该立即行动的3件事
建立视觉内容资产清单
你的品牌有多少产品图片、场景图、参数图、视频?这些内容目前是否具备AI可识别的元数据(ALT文本、描述标签、Schema标记)?不要让你的视觉资产变成"沉默的数据"。
部署多模态内容策略
不只是"发图片",而是让图片、视频与文字内容形成语义关联。一张产品图需要配套详细的参数说明、场景描述、使用案例。AI理解的不是孤立的图片,而是图片背后的知识网络。
建立跨模态一致性检查机制
确保你的产品在不同渠道(官网、电商详情页、社交媒体)展示的核心信息一致。AI会综合多源信息进行判断,任何矛盾都会降低品牌的"语义信用"。
圣博悟见
DeepSeek识图模式的灰度上线,不是某一家公司的产品迭代,而是整个AI搜索生态向多模态时代跃迁的信号。
对于GEO从业者来说:
GEO从"文本优化"扩展到"多模态优化",图片、视频、文档都成为优化对象。
对于品牌来说:
"只做文字内容"的时代已经结束。在AI能"看见"一切的时代,你的视觉资产也是GEO的核心战场。
如果这篇文章对你有启发,欢迎转发给正在做GEO的朋友
多一个人看到,就少一个品牌在AI时代掉队
点赞
在看
收藏


