





中国的大模型正在追赶之路上一路狂飙中,墙里开花墙外也香了起来。
最新数据显示,百度此前开源的文心最新多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking于近日登顶HuggingFace模型趋势榜全球第一,性能表现接近业界领先的GPT-5-High与Gemini-2.5-Pro。
其在海外引发的高热讨论与其在在多项多模态理解与推理任务的优异表现密不可分,这次的亮点主要在“图像思考”功能和高效开源策略上。
先说这个“图像思考”(Thinking with Images)功能,这次的“图像思考”能力提升主要是其具备更接近人类的认知方式——能够主动放大、缩小图像,聚焦细节,并结合上下文进行多步推理。别小看“主动放大、缩小”这几个字,这是使AI思考能匹配同步人类思考的关键一步,它能更便捷的触发视觉定位功能,更能摸透你关注的点在哪里,在需要精确空间感知的应用场景里,做到你想的是哪里他就把解决问题的点放在哪里。
另外就是老生常谈的开源这个话题,作为闭源模式的标杆,OpenAI的GPT-5一直保持闭源,Anthropic旗下的Claude Opus4.1等模型也始终坚守闭源路线,谷歌则采用闭源Gemini与开源Gemma双轨并行的策略。纯开源的大模型越来越珍贵,在降低技术门槛、加速创新迭代、提升行业透明度上都有积极意义,百度在模型开源方面是持续发力的,自6月30日开源10款文心大模型4.5系列模型以来,一直在不断的丰富其开源模型矩阵,包括这次登顶榜单的最新开源的多模态模型ERNIE-4.5-VL-28B-A3B-Thinking。
百度ERNIE-4.5-VL的成功,反映了全球AI发展在实用性与创新性的不断突破。其“图像思考”能力为多模态技术提供了新方向,而开源生态的协同效应,将进一步加速此类技术在产业端的落地,Respect!
#大厂 #互联网大厂 #HuggingFace#百度#AI大模型 #多模态人工智能 #科技前沿与未来
最新数据显示,百度此前开源的文心最新多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking于近日登顶HuggingFace模型趋势榜全球第一,性能表现接近业界领先的GPT-5-High与Gemini-2.5-Pro。
其在海外引发的高热讨论与其在在多项多模态理解与推理任务的优异表现密不可分,这次的亮点主要在“图像思考”功能和高效开源策略上。
先说这个“图像思考”(Thinking with Images)功能,这次的“图像思考”能力提升主要是其具备更接近人类的认知方式——能够主动放大、缩小图像,聚焦细节,并结合上下文进行多步推理。别小看“主动放大、缩小”这几个字,这是使AI思考能匹配同步人类思考的关键一步,它能更便捷的触发视觉定位功能,更能摸透你关注的点在哪里,在需要精确空间感知的应用场景里,做到你想的是哪里他就把解决问题的点放在哪里。
另外就是老生常谈的开源这个话题,作为闭源模式的标杆,OpenAI的GPT-5一直保持闭源,Anthropic旗下的Claude Opus4.1等模型也始终坚守闭源路线,谷歌则采用闭源Gemini与开源Gemma双轨并行的策略。纯开源的大模型越来越珍贵,在降低技术门槛、加速创新迭代、提升行业透明度上都有积极意义,百度在模型开源方面是持续发力的,自6月30日开源10款文心大模型4.5系列模型以来,一直在不断的丰富其开源模型矩阵,包括这次登顶榜单的最新开源的多模态模型ERNIE-4.5-VL-28B-A3B-Thinking。
百度ERNIE-4.5-VL的成功,反映了全球AI发展在实用性与创新性的不断突破。其“图像思考”能力为多模态技术提供了新方向,而开源生态的协同效应,将进一步加速此类技术在产业端的落地,Respect!
#大厂 #互联网大厂 #HuggingFace#百度#AI大模型 #多模态人工智能 #科技前沿与未来


