展会资讯
行业报告 | 通用人工智能预测与情景分析:领域现状、方法论缺口与战略影响
2026-04-03 10:40
行业报告 | 通用人工智能预测与情景分析:领域现状、方法论缺口与战略影响

点击蓝字 关注我们

报告信息

Artificial General Intelligence Forecasting and Scenario Analysis:State of the Field, Methodological Gaps, and Strategic Implications

通用人工智能预测与情景分析:领域现状、方法论缺口与战略影响

来源:RAND

时间:2026年3月

摘要

在过去五年里,关于通用人工智能(AGI)何时实现的专家预测——在人工智能领域通常称为“时间线”——明显提前了。无论是专家调查、预测市场,还是以算力为核心的模型,都越来越倾向于认为AGI可能会在更近的未来出现。预测市场和算力驱动模型目前大多将核心时间点放在2030年代;而截至本文写作时(2026年初)最新的大规模专家调查,则将“高水平机器智能”(HLMI)的中位预测时间定为2047年。与仅一年前的同类调查相比,这一时间点提前了13年。同一项调查中,“劳动的全面自动化”这一预测时间也从2164年提前到2116年(Grace 等,2025)。

本文对AGI的界定,主要是指:系统能够在广泛领域内完成大多数具有经济价值的工作,且其表现达到或超过人类水平。这一界定与 OpenAI 创始章程中的表述较为接近,也与专家调查中使用的 HLMI 概念相关,但两者并不完全相同。HLMI通常指机器在所有任务上的表现都超过人类。本文采用的AGI定义强调的是可衡量的任务表现,而不是自主追求目标的能力,或更广泛的经济社会转型。不过,第二章也会说明:不同的定义框架会带来不同的预测结果和战略含义。对于使用其他定义的预测,本文会专门加以区分。

本报告综合梳理了多种AGI预测方法,包括专家调查、预测市场、算力驱动模型和情景分析,目的是评估这些方法的可靠性,识别专家意见分歧的来源,并在先进人工智能能力何时出现、以何种形式出现都存在高度不确定性的情况下,为决策者提供一套分析和决策框架。

关键发现:

1.数字化成熟不同方法下的AGI时间线估计均呈现提前趋势度和障碍

专家调查、预测市场和算力驱动模型等多种相互独立的预测方法,都显示出AGI到来时间正在前移。尽管个别预测者有时会把判断修正为更晚的时间点,但不同方法同时出现这一趋势,本身说明这一信号值得重视。不过,这些方法都存在明显局限。

2.AGI预测所依赖的基础设施仍很不成熟

目前,这一领域缺少可用于校准的、已经得到验证的预测结果;缺少不容易迅速失效、也不容易被“刷分”或操纵的评估基准;缺少对模型能力的持续、实时观测;也缺少对重要预测模型的独立验证。也就是说,决策者目前所依赖的预测方法,本身还处在相当初期的发展阶段。

3.分歧的一部分来自定义不一致,但并不只是定义问题

表面上的许多分歧,实际上源于对AGI的定义不同,以及预测目标不同(技术能力、实际部署,还是社会转型)。然而,即便在定义和信息保持不变的情况下,实质性分歧依然存在:受过相似训练、身处同一机构、面对同样数据的人,往往仍会对时间线和风险作出截然不同的判断。

4.AGI预测具有两类价值

一方面,有些预测依据确实具有一定的预判能力,能够为近期决策提供参考。例如,算力趋势受到硬件经济规律的推动,资本投入反映了利益相关方的真实判断,而规模定律也表现出一定的经验稳定性。另一方面,预测过程本身也有价值,因为它能把分散的信息整合起来,帮助决策者更清楚地思考长期准备问题。从这个意义上说,AGI预测与传统国家安全分析中的情景推演类似。国防规划者即使对某种突发事件的概率看法不一,也不会等到大家对概率完全达成一致后才开始做准备;只要某种情景既有现实可能、后果又足够重大,而且需要提前准备,他们就会据此制定应对方案

5.真正的政策问题,不是“AGI何时到来”,而是“如何为多种可能的AI未来做好准备”

在高度不确定的条件下,有效的战略需要具备三种特征:一是灵活,能够随着形势变化调整目标;二是适应性强,能够应对意料之外的发展;三是具有韧性,能够承受冲击。考虑到相关时间线既可能压缩、又难以准确判断,灵活性和适应性尤其重要。单靠静态投入,即使方向正确,也可能跟不上技术发展的实际速度。

6.预测只是战略决策的一个输入,而不是唯一依据

决策者在作出判断时,不仅会参考预测结果,还会考虑自身的价值取向和目标、可采取的行动空间、财政与政治等现实约束,以及对风险的承受能力。因此,即便两位决策者接受完全相同的预测,他们也可能得出不同结论。比如,政府官员和风险投资人,对安全风险与创新收益的权衡方式就可能不同;前沿实验室负责人和科研资助者,面临的行动约束也并不一样。

7.本报告的目标,是提升预测作为决策依据的质量

为此,报告重点说明现有方法能告诉我们什么、不能告诉我们什么,识别关键不确定性,并提出能够加强证据基础的投入方向。报告并不试图规定应优先追求哪些价值,也不直接主张应采取哪些政策,而是希望推动更充分、更有依据的讨论。

8.需要特别重视一种可能性:AGI也许会在未来一到四年内出现

一些有公信力的预测者——其中也包括前沿AI实验室的负责人——认为,AGI可能会在未来一到四年内到来。如果这一判断成立,那么报告中所讨论的很多制度性准备工作,就必须大幅压缩时间,甚至可能根本来不及完成。这并不是反对准备工作的理由,恰恰说明了为什么现在就需要提高紧迫感。

建议:

上述关键发现表明:围绕AGI的很多不确定性,未必会在重大决策作出之前得到澄清。基于此,以下建议面向多类行为主体。

前3项建议主要讨论决策者应如何使用预测结果,重点面向美国政府政策制定者,包括行政部门、国会以及国家安全体系,但也不限于这些主体。后5项建议则聚焦于如何完善支撑决策的预测基础设施,涉及更广泛的参与方。

其中,研究资助机构——如美国国家科学基金会(NSF)、国防高级研究计划局(DARPA)、情报高级研究计划局(IARPA)以及私人慈善基金——可以支持方法创新、多元化探索和验证体系建设;学术界可以开展独立的压力测试,并提出新的研究方法;前沿AI实验室可以在能力评估以及AI辅助研发的内部监测方面发挥作用;预测平台和研究机构,如 Epoch AI、模型评估与威胁研究组织(METR)和 Metaculus,则可以进一步完善跟踪与监测基础设施。

有些投入可以建立在现有平台之上,例如扩展 Epoch AI 的实证跟踪工作,或支持围绕中间里程碑开展预测竞赛;另一些投入则应着眼于提升政府内部的技术能力,使其能够更准确地评估技术进展,并与产业界开展有效合作。

1.应将预测视为构建情景的工具,而非可据以进行精确优化的点估计规划者不应过度争论精确概率,而应聚焦于那些具有可信性、后果重大且应对难度高的情景——尤其是那些尚未得到充分准备的情景。鉴于其潜在后果,即便某类事件被认为发生概率较低,例如台湾突发事态或类似“9·11”的袭击,也仍然需要进行全面规划。AGI预测也应发挥类似作用。将问题表述为“我们应如何为一系列可能的人工智能未来作准备?”有助于将关注重点从预测准确性转向与决策相关的准备工作。具体而言,战略规划与应急规划流程应将人工智能相关情景纳入其中,包括那些时间线较短的发展路径,并将其列入各机构需要制定响应方案的突发情景范围。

2.应建立具备明确重新评估触发条件的适应性能力决策者应针对短期内出现AGI的情景制定应急预案,设立明确的重新评估触发机制,并使行动时点与各领域最相关的证据类型相匹配。例如,安全与安保措施应依据能力发展情况加以调整,并结合这些能力是否实质性改变现有风险格局来进行评估,例如其是否改变了网络安全中的攻防平衡,或削弱了生物安全领域现有防护措施的有效性。创新投资则应不受时间线判断影响,持续推进。劳动力调整可以根据已观察到的市场效应作出响应,例如劳动替代和生产率变化。触发条件应当具体,并与可观察指标挂钩。例如,当人工智能系统展现出自主完成持续数周的软件工程项目的能力,或者当由人工智能系统实现实质性自动化的人工智能研究比例超过50%时,支撑较长期时间线情景的基本假设就应被重新审视。成功的关键在于,使自身处于能够对多种未来情景作出有效应对的位置;而经验表明,为那些更具挑战性或更令人不适的情景做准备,往往也能形成同样适用于较低强度情景的工具和应对机制。这种方法要求防止规划工作被锚定在那些令人安心、看似更有可能发生的未来之上。

3.应通过将预测与战略选择相联系,使预测真正服务于决策历史上,决策者对预测的利用一直不足,部分原因在于预测往往无法说明不同决策将如何影响结果。某一预测若仅表明某事件有20%的发生概率,对决策者而言,并不能说明采取某一特定行动方案是否会改变这一概率。为提高预测的实际采用度,应围绕条件性问题来组织预测:在不同的投资、战略或外交情景下,预期时间线或能力发展轨迹将如何变化?将预测与情景规划方法加以整合,有助于揭示这些关键条件。要使这种整合制度化,通常需要高层主导的定向协调;经验表明,依靠临时性、零散性的流程,往往难以自然形成以预测为依据的规划机制。

以下建议重点聚焦于加强支撑上述决策的预测基础设施。

1.应投资于方法多样性与新型方法当前预测工作在很大程度上依赖于较为狭窄的一组方法和学科视角。引入计量经济学家、认知科学家、技术史学者以及复杂系统研究者,有助于发现盲点并挑战共同假设。相较于达成共识,更重要的是形成结构化分歧。决策者真正需要的是弄清:专家之间的分歧究竟源于经验事实、理论模型,还是规范性价值判断。美国国家科学基金会、DARPA 和 IARPA 等机构具备良好条件来支持此类工作。

2.应将对有影响力模型的独立验证与压力测试制度化那些日益影响人工智能领域预期与投资决策的以算力为核心的模型和“起飞”分析,应当接受与气候建模、情报预测或宏观经济预测相当程度的对抗性审查——这些领域的利害关系同样重大,因此也都要求系统性的验证。这意味着要对核心假设开展红队测试,进行透明的敏感性分析,并随着证据积累,系统性地将模型预测与实际结果进行对照。预测机构应独立于其所预测未来的组织。为了确保这种验证能力在时间上的连续性与独立性,应在多个制度载体中建设长期稳定的验证体系——包括学术界、公民社会、政府以及国际合作机制。

3.应投资于独立、持续的能力评估当前的基准测试会迅速失效——其原因包括数据污染、任务饱和以及针对性优化压力。这并非假设性担忧:领先基准往往在发布两年内即趋于饱和,而关于训练数据污染的证据,也已在广泛使用的评估套件中被记录在案。决策者不应寻求某种“终局性”基准,而应支持一种评估基础设施:它能够持续开发新的评估方式,维护保留测试集,并长期跟踪现实任务中的表现。值得关注的路径包括:每月以新问题更新的基准、在运行时动态生成评估实例的测试机制,以及在严格访问控制下维护的保留评估集。对此类能力的持续投入应设置在前沿实验室之外。METR、Epoch AI、Apollo Research 和 RAND 等机构已在一定程度上承担此类工作;一些政府机构亦参与其中,包括英国人工智能安全研究所和美国人工智能标准与创新中心。扩大这一能力规模,应成为政府资助方(包括美国国家科学基金会和国家标准与技术研究院〔NIST〕)以及慈善资助方的共同优先事项。

4.应发展适应压缩时间线的监测基础设施如果具有变革性的能力在2020年代后期出现,那么年度评估的频率将不足以支撑决策。短时间线情景要求采用更高频率、更加异质化的方法——其特征更接近量化金融,而非传统技术预测。这意味着要实时跟踪多个领先指标,在证据出现时迅速更新判断,并建立能够识别非连续性变化、而不只是外推趋势的监测系统。相关指标可能包括:衡量人工智能代理能够自主完成任务持续时长的“时间跨度”指标、在私有基准上的表现轨迹,以及人工智能研究人员对其工作中人工智能辅助程度的定性评估。相比依赖某一个决定性指标,对多个不完美信号进行交叉印证更为重要。

5.应加强对人工智能自动化人工智能研发过程的内部监测人工智能系统在多大程度上正在加速人工智能研究,本身就是最重要的领先指标之一,它与能力快速提升以及潜在的非连续性变化最为密切相关。前沿实验室最有条件在内部跟踪这一情况;它们应立即开发并改进标准化监测系统,采用在必要时可支持更广泛信息共享的格式。这类监测面临典型的集体行动困境:在竞争压力以及对监管和声誉后果的顾虑下,单个实验室可能不愿独自开发或共享此类指标。因此,可能有必要开展行业协调,并可通过类似于“负责任扩展政策”的自愿承诺机制,或通过政府促成的信息共享协议,将这种协调正式化,以建立基础性的测量实践。否则,只能由外部观察者通过间接信号去推测自动化水平,而这种做法的可靠性将低得多。

如何获取报告?

关注本公众号:图灵财经

点击“阅读原文”直达链接

来源:RAND

编辑:常虹

精彩推荐

研究速递 | 数据共享的战略价值——来自跨市场互动的新证据

研究速递|数字贸易规则对国际联合专利申请的影响

国际劳工组织:生成式人工智能、职业隔离与性别平等

Anthropic:AI对劳动力市场的影响报告

研究速递|人工智能会取代专家吗?关系性专长的解释

更多精彩内容

发表评论
0评