推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

5月26日 AI科技日报与行业趋势

日期：2026-05-26 12:55:23 来源：网络整理作者：本站编辑评论：0

5月26日 AI科技日报与行业趋势

今日速览：

今日重点

一、Google DeepMind AlphaProof Nexus：几百美元破解数十年数学难题

5月25日，Google DeepMind 发布了 AlphaProof Nexus——一个能以极低成本解决复杂数学问题的新系统。最令人震撼的不是能力，而是价格：解决一个困扰数学界数十年的难题，成本仅需"几百美元"。

这标志着AI数学推理进入了实用化拐点。过去，像AlphaProof这样的系统虽然能力强悍，但运行成本动辄数万甚至数十万美元，仅限于Google内部研究。如今成本降至三位数，意味着全球任何一个数学系都能负担得起AI数学助手的费用。科研的"AI民主化"正在发生。

来源：The Decoder^[1] · OpenAI Blog^[2]

二、George Hotz 严厉警告：AI编程代理将是"软件业代价最高的错误"

"经过6个月的测试，我的结论是：LLM能快速生成原型，但会在细节上全面崩塌，产生的bug越来越难以发现。"——知名程序员、comma.ai创始人 George Hotz 在5月25日发出了对AI编程代理（Coding Agents）的严厉警告。

Hotz 的判断来自实战：让AI编程代理处理真实项目后，他发现AI生成的代码在表面上看起来正确，但深层逻辑错误极难在代码审查中被发现。这种"看起来对"——"实际上错"的模式，在长期维护中将造成巨大的技术债务。

极具戏剧性的是，同一天 Gartner 将 OpenAI 评为企业级编程代理（Enterprise Coding Agents）的"领导者"。Hotz的开发者视角与Gartner的企业分析视角形成了鲜明的对立。这场争议的核心问题只有一个：AI编程代理到底是提升效率的革命性工具，还是给软件架构埋下定时炸弹的捷径？

来源：The Decoder^[3] · OpenAI Blog^[4]

三、北大"归因幻觉"研究：AI答案正确，但引用是编的

北京大学研究人员发现了一个令人不安的现象：GPT、Gemini 等领先模型在回答文档分析问题时，经常给出正确答案，但引用的证据来源却是完全捏造的。他们将此命名为"归因幻觉"（Attribution Hallucination），并推出了首个系统性检测基准 CiteVQA。

这一定义触及了AI可靠性的核心痛点。对于普通用户来说，"答案对了就够了"。但在法律文书、医疗诊断、金融分析等场景中，引用的可追溯性比答案本身更重要——你不能在法庭上说"AI告诉我这个判例存在，但我找不到原文"。

CiteVQA的出现意味着"归因准确性"正在成为继事实准确性和推理正确性之后，AI评估的第三个关键维度。

来源：The Decoder^[5]

四、梵蒂冈的AI时刻：教皇通谕 vs 硅谷叙事

5月25日，教皇利奥十四世发布通谕《Magnifica Humanitas》（伟大的人性），系统阐述天主教会对AI的伦理立场。同日，Anthropic联创 Christopher Olah 受邀在发布现场发言，声称AI模型展现出"内省"和"类情感状态"的迹象。

但教皇通谕本身给出的结论截然不同："这些系统仅仅模仿了人类智能的某些功能。"梵蒂冈选择了在硅谷最乐观的AI叙事面前维持审慎立场。

这是AI伦理史上罕见的一幕：宗教权威与科技领袖在同一个舞台上对AI的本质给出了相反的判断。Olah 的发言代表了一种将AI"拟人化"的趋势，而教皇的回应则捍卫了"人类独特性"的底线。这一张力将成为未来AI治理辩论的核心议题之一。

来源：The Decoder^[6]

五、两部AI剧集闯入戛纳：内容工业化的破局信号

第79届戛纳国际电影节内 Fantastic Pavilion 单元公布竖屏剧展演名单。

由水母智能旗下中国AI影视公司水母映画出品的竖屏剧集《摸金之天机入梦》（英文名：The Golden Tomb Seeker）以及水母星际出品的《饿塔》（英文名：Series Tower）从全球120个国家、超过1000件竖屏作品中脱颖而出，成为正式展映的21部作品之一。

2025 年，行业一年跑出超 5 万部作品，却只有一两百部真正赚钱。大部分公司靠接订单、堆产量、蹭热度，画面崩坏、剧情狗血、人物畸形，最后被平台批量下架。

到 2026 年，风向彻底变了。

抖音、红果整合后，平台政策直接 “押注精品”：仿真人 AI 漫剧分账系数拉高到 60 倍，远超真人剧；低质内容不给流量，擦边内容直接清退。曾经靠 “堆量” 生存的公司，一夜之间失去生存空间。

技术更是一把剪刀。Seedance 2.0 的出现，把 AI 视频从 “单镜头拼接” 推到 “多镜头连续叙事”，画质冲上 1080P，人物表情、运镜节奏、场景精度全面升级。头部内容公司签下千万年级年框，锁定算力、并发、肖像白名单，行业正式进入 “技术军备竞赛” 时代。

来源：36氪^[7]

大模型与前沿技术

DeepSeek V4 缓存命中率99.82%：价格战进入"技术内卷"阶段

在将75%折扣永久化之后，DeepSeek又从技术层面继续压低成本。新工具将KV-cache命中率提升至惊人的99.82%，在连续对话等高频场景下用户可获得近2折的稳定价格。AI API价格战已从"定价策略"延伸到"推理优化"，对依赖API的中小开发者利好明显。

来源：量子位^[8]

开发者与API生态

HuggingFace 呼吁：AI Agent 术语该统一了

HuggingFace 5月25日发文指出，当前AI Agent生态中"Harness"、"Scaffold"、"Orchestrator"等核心术语各家用各家的定义，术语混乱正在阻碍开发者的协作效率。随着LangChain、AutoGPT、CrewAI等框架百花齐放，行业急需一套公认的术语标准。

来源：HuggingFace Blog^[10]

OpenAI + Dell：Codex 进军混合/本地部署

OpenAI与Dell达成合作，将Codex编程助手部署到混合云和本地（on-premise）企业环境。这标志着OpenAI企业战略从纯SaaS走向混合部署。对于金融、政府、军工等对数据主权敏感的行业，混合部署方案是AI渗透的前提条件。

来源：OpenAI Blog^[11]

参考链接

[1] The Decoder: https://the-decoder.com/google-deepminds-alphaproof-nexus-solves-decades-old-math-problems-for-a-few-hundred-dollars/

[2] OpenAI Blog: https://openai.com/index/

[3] The Decoder: https://the-decoder.com/george-hotz-says-coding-agents-will-be-one-of-the-most-costly-mistakes-in-software-development/

[4] OpenAI Blog: https://openai.com/index/

[5] The Decoder: https://the-decoder.com/ai-models-often-give-the-right-answers-but-point-to-the-wrong-sources/

[6] The Decoder: https://the-decoder.com/at-the-launch-of-pope-leo-xivs-encyclical-anthropic-co-founder-says-ai-models-show-signs-of-introspection/

[7] 36氪: https://36kr.com/

[8] 量子位: https://www.qbitai.com/

[9] OpenAI Blog: https://openai.com/index/

[10] HuggingFace Blog: https://huggingface.co/blog

[11] OpenAI Blog: https://openai.com/index/

[12] OpenAI Blog: https://openai.com/index/

[13] 量子位: https://www.qbitai.com/

[14] The Decoder: https://the-decoder.com/at-the-launch-of-pope-leo-xivs-encyclical-anthropic-co-founder-says-ai-models-show-signs-of-introspection/

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行