





听说百度文心5.0在全模态理解上有点东西,就想着找几个素材随便试试。
结果第一个测试就给我整不会了。?
我找了段「消失的她」的电影?片段扔进去,就是何非在监控室看回放那段,大概30多秒。问了句「谁的微表情最值得注意」,它直接给我指出何非盯着屏幕时有个0.3秒的眼神闪躲,分析说这是「试图说服自己但内心动摇」的典型表现。
我又倒回去看了遍...那个瞬间确实有点不对劲,但我第一遍还真没注意?到。
然后心血来潮又测了个音频理解,扔了段vlog进去,背景音乐?是轻快的吉他,但画面是阴天的街道。我问它「这配乐合不合适」,文心5.0先识别出音乐是明快节奏的民谣风格,接着说画面情绪偏沉闷压抑,最后结论:不太搭,建议换钢琴或弦乐。
这不就是专业剪辑师干的活儿吗...
我还查了?下数据,11月22日LMArena视觉理解榜单显示,ERNIE-5.0-Preview-1120拿了1206分,国内第一,和Claude-Sonnet-4、GPT-5-high一个水平。这排名确实对得上我的实测体验。
图片理解也试了,丢了张会议PPT的数据图表过去,密密麻麻的柱状图折线图。它不仅能帮我找到关键趋势,还能主动发现问题给出专业建议,有点东西。?
技术层面看了下,2.4万亿参数,原生全模态建模。我用了两天,最大的感受就是,终于有个工具能帮我处理那些需要反复看好几遍才能搞明白的素材了。
尤其视频和音频这块,比之前用的几个模型顺滑太多,挺值得去试一试的。
#文心5.0 #AI测评#文心大模型#视频理解AI#百度文心#AIGC工具#电影解析
结果第一个测试就给我整不会了。?
我找了段「消失的她」的电影?片段扔进去,就是何非在监控室看回放那段,大概30多秒。问了句「谁的微表情最值得注意」,它直接给我指出何非盯着屏幕时有个0.3秒的眼神闪躲,分析说这是「试图说服自己但内心动摇」的典型表现。
我又倒回去看了遍...那个瞬间确实有点不对劲,但我第一遍还真没注意?到。
然后心血来潮又测了个音频理解,扔了段vlog进去,背景音乐?是轻快的吉他,但画面是阴天的街道。我问它「这配乐合不合适」,文心5.0先识别出音乐是明快节奏的民谣风格,接着说画面情绪偏沉闷压抑,最后结论:不太搭,建议换钢琴或弦乐。
这不就是专业剪辑师干的活儿吗...
我还查了?下数据,11月22日LMArena视觉理解榜单显示,ERNIE-5.0-Preview-1120拿了1206分,国内第一,和Claude-Sonnet-4、GPT-5-high一个水平。这排名确实对得上我的实测体验。
图片理解也试了,丢了张会议PPT的数据图表过去,密密麻麻的柱状图折线图。它不仅能帮我找到关键趋势,还能主动发现问题给出专业建议,有点东西。?
技术层面看了下,2.4万亿参数,原生全模态建模。我用了两天,最大的感受就是,终于有个工具能帮我处理那些需要反复看好几遍才能搞明白的素材了。
尤其视频和音频这块,比之前用的几个模型顺滑太多,挺值得去试一试的。
#文心5.0 #AI测评#文心大模型#视频理解AI#百度文心#AIGC工具#电影解析


