Highlights
Artificial Analysis已成为AI领域的独立“守门人”,提供清晰的质量与吞吐量权衡数据。
商业模式双轨并行:一方面为企业提供AI数据洞察订阅,另一方面为AI公司进行私有化基准测试。
评估成本因追求高置信度(95%区间)而显著上升,采用“神秘购物”策略防止模型操纵测试结果。
警惕“Goodhart定律”:模型倾向于针对特定评估指标优化,而非真正提升通用智能。
推出Omniscience指数:测试模型知识边界,鼓励模型在不知道时诚实回答,以此解决幻觉问题。
Micah是AI分析平台Artificial Analysis创始人之一,本次交流讨论了该平台的创立背景、商业模式、技术挑战及行业影响。内容涵盖独立AI基准测试的重要性、评估方法的演进、成本考量、行业竞争格局以及新型评估体系(如Omniscience指数)的开发,反映了2024年AI模型快速迭代与评估标准演进的关键动态。
AI领域的“新守门人”与商业模式
主持人:这对你们来说像是一个完整的循环时刻吧?第一次在播客中提到AI分析是2024年1月的事。
Micah:是的,那对我影响很大。当时我看到AI新闻,提到了一个模型和托管对比网站刚上线,我分享说它是独立第三方,清晰展示了质量与吞吐量的权衡,并按模型和托管提供商分类。
我们最初免费运营网站,提供大量数据帮助开发者和公司做AI决策。现在我们有20多人,两个主要客户群体:一是为企业提供AI数据洞察,二是为AI公司做私有基准测试。没人付费上榜网站,我们坚持独立性。但很多公司发现我们的工作有用。
我们有Benchmark Insider订阅服务,提供标准化报告,覆盖企业面临的关键挑战,比如模型部署选择(无服务器推理、托管解决方案或自建芯片)。我们还做定制私有基准测试,这与公开测试不同,没有商业利益关联。
从悉尼副业到行业标杆
主持人:回溯到起点,你们为什么在悉尼启动这个项目?
Micah:故事始于2022-2023年。我和George都深耕AI领域;2023年我尝试构建法律AI助手时,发现每个环节都涉及基准测试问题——需要权衡准确性、性能和成本。当时没有独立评估所有模型的平台,所以我们建了这个工具,最初只是副业。我们买了域名、发推文,很快获得关注,尤其是随着模型数量激增(如Mixture、Light等开源模型),它变得更有用。技术挑战:成本、操纵与真实性
这不仅仅是关于目前的收入。目前的收入其实已经相当可观了,这与2000年互联网泡沫时期不同,那时很多公司只有眼球没有收入。现在的AI公司,无论是基础设施层还是应用层,都有真实的收入在快速增长。对于顶级模型公司来说,虽然训练成本高昂,但只要这种智能的单位经济效益是正向的,这种大规模投入就是合理的。
技术挑战:成本、操纵与真实性
主持人:技术层面,你们如何处理评估中的成本问题?比如解析响应或控制变量。
Micah:起初成本不高,仅几百美元,因为模型少、评估简单(如直接问答)。但现在成本大幅上升,因为增加了重复测试以确保95%置信区间。我们自付费用,没有实验室折扣,但通过“神秘购物”策略防止操纵——用匿名账户测试端点,确保公平。
这其中最大问题是“测量什么就优化什么”——模型会针对特定评估优化,而不一定提升通用智能。例如,模型在数学竞赛问题上表现优异,但这不直接转化为实际用户价值。所以我们必须不断开发新评估,关注真实用户需求,如智能体能力或长上下文推理。
评估演进:Omniscience指数与未来
主持人:评估指数如何演进?
Micah:V1指数现已饱和(当前模型都能轻松解决),我们升级到V2、V3,覆盖更广用例(如编码智能体),更贴近开发者需求。新方向包括Omniscience指数,测试模型知识边界和幻觉问题——鼓励“我不知道”而非错误回答,以改变行业 incentive。
当前基准图表Gemini 3 Pro领先,其次是Claude Opus、Kimi K2等。竞争非常激烈;回溯一年前,OpenAI独大,但现在多模型竞争加剧。图表可自定义,方便用户查看。
以上内容由AI基于公开内容整理
本文编译自海外播客,不代表Dig.AI立场。
如果您对本文有任何想法或见解
欢迎在评论区留言互动探讨



