
行业资讯:
助力园区企业精准卡位全球新赛道
歌研究团队最新发现,一项极其简单的策略——将用户的输入提示词重复一遍(例如 <QUERY><QUERY>),能在不增加延迟和输出长度的前提下,显著提升主流大模型在多项任务上的表现。
核心原理在于弥补了大语言模型作为因果模型的固有缺陷。传统的因果注意力机制导致模型在处理输入时“看头忘尾”:序列前端的Token无法看到后续信息,这使得信息的编码缺乏针对性。而重复输入巧妙地模拟了双向注意力,让模型在第二次处理时,每个Token都能回顾整个完整输入,从而提取更精准的特征。
实验效果惊人:在 Gemini 2.0 Flash、GPT-4o、Claude 3、DeepSeek-V3 等7个主流模型的广泛测试中,该策略在70个模型-基准组合中取得了47次显著胜利,且无一次性能倒退。在专门测试长上下文精确索引能力的NameIndex任务中,Gemini 2.0 Flash-Lite的准确率从21.33%飙升至97.33%。
关键优势在于其高效性。增加的计算量仅发生在可高度并行化的预填充阶段,对端到端延迟影响甚微,且输出格式不变,可无缝集成。该策略为开发者提供了一种无需重新训练或复杂工程,即可低成本提升模型性能的通用手段,尤其适用于处理需精确索引的长文本任务。
Anthropic最新发布的《经济指数报告》揭示了一个反直觉的职场真相:越是按教育年限衡量更复杂的高知任务,AI带来的效率加速反而越惊人。报告指出,AI能将在需要大学学历的复杂任务上的工作速度提升12倍,远超高中难度的9倍。
核心洞察在于一个全新的生存策略:人机协作。基准测试显示AI独立处理2小时任务成功率就会跌破50%,但在真实人机协作场景下,这一时长被推高至19小时,人类通过拆解任务、不断反馈引导AI,将任务处理上限提升了近10倍。这定义了未来工作的新范式。
全球差异与隐忧:报告同时揭示了技术代差,高GDP国家用AI“搞生产”,低GDP国家主要用其“学知识”。更值得警惕的是“去技能化”风险——AI正系统性地接管工作中需要高智力的部分,导致岗位“含金量”被抽空,人类可能只剩下枯燥的收尾工作。
最终出路:在算力过剩的时代,人类最稀缺的能力已不再是寻找答案,而是定义问题和驾驭协作。懂得如何与AI高效协作,将成为区分未来职场胜败的关键能力,其带来的效率提升潜力是巨大的。
由中国AI医疗公司“未来医生”协同北京协和医院、中国医学科学院肿瘤医院等7家顶尖医疗机构、23个核心专科的32位一线临床专家制定的医疗大模型评估标准CSEDB,近日被顶级期刊《npj Digital Medicine》(Nature体系旗下,影响因子15.1)正式收录。这标志着医疗AI的竞争,正从能力展示阶段,进入责任定义与临床验证阶段。
核心创新在于其首次提出了 “临床安全性与有效性双轨基准” 。该基准颠覆了过往仅算总分的评测方式,将安全性与有效性分开考量,并引入1至5级的风险权重机制。模型必须同时通过两道门槛才被认为具备临床部署资格,涉及误诊、禁忌用药等高风险的指标对总分影响更大,真正将 “安全优先” 原则嵌入评估体系。
实际评估应用这套包含2069个高度贴近真实临床病例的开放式问答数据集,对DeepSeek-R1、OpenAI o3、Gemini-2.5等全球主流模型进行了测试。结果显示,未来医生团队的MedGPT模型在总体、安全性与有效性三个核心维度上均位列第一,是唯一安全性评分超过有效性的模型。
MedGPT的技术内核解释了其表现。它设计了“快慢双系统” 推理架构:“快系统”处理路径清晰、风险可控的常规场景,实现百毫秒级响应;“慢系统”则针对高风险复杂场景,主动拉长推理链,进行多阶段临床演绎与交叉验证。两套系统通过风险调和与控制机制动态协同,优先保障安全。
行业意义:CSEDB的建立与验证,为全球医疗AI的标准化、可信赖、可监管提供了关键方法论。它推动行业从追求榜单智能,转向兑现诊疗信任,其部署导向和监管友好的特性,有望成为不同医疗体系采纳的统一标尺。
视频生成平台Runway近日发布全新模型Gen 4.5,其在图生视频方面的真实感与叙事能力引发广泛关注。一项由Runway发起的千人测试显示,面对Gen 4.5生成的视频与真实视频,参与者仅能分辨出57.1% 的AI生成内容,其逼真程度已达到与人类肉眼辨别能力相抗衡的水平。
模型核心突破主要体现在对物理细节的精确刻画与镜头语言的成熟运用上。新模型能细腻呈现人物的皮肤纹理、面部雀斑、湿漉头发等细节,并在复杂动态(如骑行、大雪纷飞)中保持高度一致性。更重要的是,其在镜头控制与故事叙事上取得显著进步:能在短时间内流畅切换近、中、远景,保持主体稳定;并能生成长达两分多钟、具备连贯情节逻辑的短片,场景衔接与空间关系处理得当,已接近可用短片水准。
行业趋势:Gen 4.5的发布是近期视频模型能力集中升级的缩影。当前主流趋势包括:真实度与物理一致性被整体抬高;声画同步精度显著提升,支持带台词内容创作;支持更长生成时长(10-60秒);局部精细化编辑能力成为重点。这些进步共同推动AI视频从技术演示向可商业化、具备普适性的应用阶段迈进。
影响与展望:Gen 4.5为代表的模型正迅速模糊真实与生成的边界,不仅对影视、广告等内容创作行业带来变革,也引发了关于内容真实性认证的新挑战。未来,利用AI鉴别AI生成内容或将成为新的需求。
华东师范大学团队提出APEX框架,用自然语言指令精准编辑学术海报。它能直接理解如“放大图表”、“移动章节”等指令,对现有海报进行局部、可控的修改,避免传统“重绘式”方法导致的错乱。
核心突破在于:
多层级API操作:通过预定义API进行原子化精确编辑,不破坏无关内容。
“审查-调整”机制:编辑后自动对比检查,修正不符之处,提升可靠性。
领域专用设计:内置论文理解工具,可从PDF提取真实数据补充内容。
在首个学术海报编辑基准APEX-Bench测试中,该框架在指令遵循、修改控制、视觉一致性上均显著领先。它填补了从海报生成到交互式精细编辑的空白,是实用的科研自动化助手。



