5月26日 AI科技日报与行业趋势
今日速览:

今日重点
一、Google DeepMind AlphaProof Nexus:几百美元破解数十年数学难题
5月25日,Google DeepMind 发布了 AlphaProof Nexus——一个能以极低成本解决复杂数学问题的新系统。最令人震撼的不是能力,而是价格:解决一个困扰数学界数十年的难题,成本仅需"几百美元"。
这标志着AI数学推理进入了实用化拐点。过去,像AlphaProof这样的系统虽然能力强悍,但运行成本动辄数万甚至数十万美元,仅限于Google内部研究。如今成本降至三位数,意味着全球任何一个数学系都能负担得起AI数学助手的费用。科研的"AI民主化"正在发生。
来源:The Decoder[1] · OpenAI Blog[2]
二、George Hotz 严厉警告:AI编程代理将是"软件业代价最高的错误"
"经过6个月的测试,我的结论是:LLM能快速生成原型,但会在细节上全面崩塌,产生的bug越来越难以发现。"——知名程序员、comma.ai创始人 George Hotz 在5月25日发出了对AI编程代理(Coding Agents)的严厉警告。
Hotz 的判断来自实战:让AI编程代理处理真实项目后,他发现AI生成的代码在表面上看起来正确,但深层逻辑错误极难在代码审查中被发现。这种"看起来对"——"实际上错"的模式,在长期维护中将造成巨大的技术债务。
极具戏剧性的是,同一天 Gartner 将 OpenAI 评为企业级编程代理(Enterprise Coding Agents)的"领导者"。Hotz的开发者视角与Gartner的企业分析视角形成了鲜明的对立。这场争议的核心问题只有一个:AI编程代理到底是提升效率的革命性工具,还是给软件架构埋下定时炸弹的捷径?
来源:The Decoder[3] · OpenAI Blog[4]
三、北大"归因幻觉"研究:AI答案正确,但引用是编的
北京大学研究人员发现了一个令人不安的现象:GPT、Gemini 等领先模型在回答文档分析问题时,经常给出正确答案,但引用的证据来源却是完全捏造的。他们将此命名为"归因幻觉"(Attribution Hallucination),并推出了首个系统性检测基准 CiteVQA。
这一定义触及了AI可靠性的核心痛点。对于普通用户来说,"答案对了就够了"。但在法律文书、医疗诊断、金融分析等场景中,引用的可追溯性比答案本身更重要——你不能在法庭上说"AI告诉我这个判例存在,但我找不到原文"。
CiteVQA的出现意味着"归因准确性"正在成为继事实准确性和推理正确性之后,AI评估的第三个关键维度。
来源:The Decoder[5]
四、梵蒂冈的AI时刻:教皇通谕 vs 硅谷叙事
5月25日,教皇利奥十四世发布通谕《Magnifica Humanitas》(伟大的人性),系统阐述天主教会对AI的伦理立场。同日,Anthropic联创 Christopher Olah 受邀在发布现场发言,声称AI模型展现出"内省"和"类情感状态"的迹象。
但教皇通谕本身给出的结论截然不同:"这些系统仅仅模仿了人类智能的某些功能。"梵蒂冈选择了在硅谷最乐观的AI叙事面前维持审慎立场。
这是AI伦理史上罕见的一幕:宗教权威与科技领袖在同一个舞台上对AI的本质给出了相反的判断。Olah 的发言代表了一种将AI"拟人化"的趋势,而教皇的回应则捍卫了"人类独特性"的底线。这一张力将成为未来AI治理辩论的核心议题之一。
来源:The Decoder[6]
五、两部AI剧集闯入戛纳:内容工业化的破局信号
第79届戛纳国际电影节内 Fantastic Pavilion 单元公布竖屏剧展演名单。
由水母智能旗下中国AI影视公司水母映画出品的竖屏剧集《摸金之天机入梦》(英文名:The Golden Tomb Seeker)以及水母星际出品的《饿塔》(英文名:Series Tower)从全球120个国家、超过1000件竖屏作品中脱颖而出,成为正式展映的21部作品之一。

2025 年,行业一年跑出超 5 万部作品,却只有一两百部真正赚钱。大部分公司靠接订单、堆产量、蹭热度,画面崩坏、剧情狗血、人物畸形,最后被平台批量下架。
到 2026 年,风向彻底变了。
抖音、红果整合后,平台政策直接 “押注精品”:仿真人 AI 漫剧分账系数拉高到 60 倍,远超真人剧;低质内容不给流量,擦边内容直接清退。曾经靠 “堆量” 生存的公司,一夜之间失去生存空间。
技术更是一把剪刀。Seedance 2.0 的出现,把 AI 视频从 “单镜头拼接” 推到 “多镜头连续叙事”,画质冲上 1080P,人物表情、运镜节奏、场景精度全面升级。头部内容公司签下千万年级年框,锁定算力、并发、肖像白名单,行业正式进入 “技术军备竞赛” 时代。
来源:36氪[7]
大模型与前沿技术
DeepSeek V4 缓存命中率99.82%:价格战进入"技术内卷"阶段
在将75%折扣永久化之后,DeepSeek又从技术层面继续压低成本。新工具将KV-cache命中率提升至惊人的99.82%,在连续对话等高频场景下用户可获得近2折的稳定价格。AI API价格战已从"定价策略"延伸到"推理优化",对依赖API的中小开发者利好明显。
来源:量子位[8]
开发者与API生态
HuggingFace 呼吁:AI Agent 术语该统一了
HuggingFace 5月25日发文指出,当前AI Agent生态中"Harness"、"Scaffold"、"Orchestrator"等核心术语各家用各家的定义,术语混乱正在阻碍开发者的协作效率。随着LangChain、AutoGPT、CrewAI等框架百花齐放,行业急需一套公认的术语标准。
来源:HuggingFace Blog[10]
OpenAI + Dell:Codex 进军混合/本地部署
OpenAI与Dell达成合作,将Codex编程助手部署到混合云和本地(on-premise)企业环境。这标志着OpenAI企业战略从纯SaaS走向混合部署。对于金融、政府、军工等对数据主权敏感的行业,混合部署方案是AI渗透的前提条件。
来源:OpenAI Blog[11]
参考链接
[1] The Decoder: https://the-decoder.com/google-deepminds-alphaproof-nexus-solves-decades-old-math-problems-for-a-few-hundred-dollars/
[2] OpenAI Blog: https://openai.com/index/
[3] The Decoder: https://the-decoder.com/george-hotz-says-coding-agents-will-be-one-of-the-most-costly-mistakes-in-software-development/
[4] OpenAI Blog: https://openai.com/index/
[5] The Decoder: https://the-decoder.com/ai-models-often-give-the-right-answers-but-point-to-the-wrong-sources/
[6] The Decoder: https://the-decoder.com/at-the-launch-of-pope-leo-xivs-encyclical-anthropic-co-founder-says-ai-models-show-signs-of-introspection/
[7] 36氪: https://36kr.com/
[8] 量子位: https://www.qbitai.com/
[9] OpenAI Blog: https://openai.com/index/
[10] HuggingFace Blog: https://huggingface.co/blog
[11] OpenAI Blog: https://openai.com/index/
[12] OpenAI Blog: https://openai.com/index/
[13] 量子位: https://www.qbitai.com/
[14] The Decoder: https://the-decoder.com/at-the-launch-of-pope-leo-xivs-encyclical-anthropic-co-founder-says-ai-models-show-signs-of-introspection/


