量子位
谷歌新论文把内存股价干崩了!KV cache压缩96倍,网友:硅谷成真了
摘要:
谷歌研究院发布TurboQuant压缩算法论文,解决 AI 推理KV cache内存占用过高的瓶颈。该算法实现3-bit 量化,精度零损失、无需训练微调,将KV cache 内存占用至少压缩 6 倍。英伟达 H100 上注意力计算速度较 32-bit 原版提升 8 倍,长上下文任务(问答、代码生成、大海捞针)Benchmark 表现优异,向量搜索召回率超越现有最优方法。
该项突破被评价为 “谷歌的 DeepSeek 时刻”,可降低长上下文推理成本、提升万亿级向量搜索效率。该算法仅优化推理阶段内存,对 AI 训练环节无影响。
阿里QoderWork打通钉钉、微信、飞书 手机端可直接召唤桌面AI助手 AI大模型
摘要:
阿里桌面Agent应用QoderWork全面打通钉钉、微信和飞书三大主流IM,用户可直接在手机上与QoderWork对话,随时随地调度桌面AI助手的全部能力,远程完成文件整理、数据处理、文档生成等任务。
苹果想靠Siri 再造一个App Store:谁赞成,谁反对?
摘要:
苹果计划在iOS 27推出Siri Extensions系统,将 Siri 打造成 AI 服务分发平台,复刻 App Store 商业模式;同时以每年约 10 亿美元与 Google 合作,用 Gemini 模型重建 Siri 底层智能。
新系统采用三层 AI 体系:底层 Gemini 驱动的苹果基础模型、中层 Siri 交互能力、外层 Extensions 接入第三方 AI。
CCF与淘天这个基金,单项资助30万,支持你研究「龙虾」
摘要:
2026 年 3 月 26 日,CCF 联合淘天集团发布CCF - 淘天集团科技袋基金第三期,前两期分别聚焦大模型、多模态智能方向,本期聚焦Agentic AI。
本期涵盖3个方向10个课题,单项资助30 万元,项目周期1 年,淘天集团提供学生实习机会。
Agentic AI 电商算法:含个性化广告 Agent、智能审核、可解释推荐等 5 项课题;
Agentic AI 基础模型:含 GUI Agent、长程记忆机制、幻觉问题等 4 项课题;
Agentic AI 工程技术:面向复杂营销决策的上下文工程优化 1 项课题
糟糕,大佬45年前论文,被判AI生成
摘要:
大量人类原创、早于 AI 时代的文本被错误判定为 AI 生成。如:阿伯丁罗伯特戈登大学教授45 年前的论文被标 77% 为 AI 生成;爱丁堡大学教授旧文被判定 90% 为 AI 生成;2008 年 AI 相关论文被误判 100% AI 生成。
Show HN: I put an AI agent on a $7/month VPS with IRC as its transport layer
Show HN:我在每月 7 美元的 VPS 上放置了一个 AI 代理,并以 IRC 作为其传输层
摘要:
帖子讨论了一种双智能体分离部署的安全部署 claw 智能体的方案:
公开智能体(nullclaw):678KB Zig 二进制程序,内存占用≈1MB。部署在每月 7 美元的 VPS 上,通过 Ergo IRC 服务器 + 网页端 gamja 客户端对外开放交互。
私密智能体(ironclaw):部署在自己的电脑上,负责邮件、日程管理。除通过 Tailscale+Google A2A 协议(一种点对点的安全通信)与 nllclaw 通信外,不对外暴露任何端口,保障隐私安全。
We rewrote JSONata with AI in a day, saved $500k/year
我们用 AI 重写了 JSONata,一天之内节省了 50 万美元/年
摘要:
该企业业务核心为 Go 语言 pipeline,却依赖 JavaScript 版 JSONata 做表达式解析; 用 K8s 部署大量 Node.js Pod,Go 服务通过 RPC 调用,需频繁序列化 / 网络传输; 年计算成本约30 万美元,且随业务增长持续上升。
用 Claude(Opus 4.6)进行重构,将 JSONata 从 JS 重写为 Go(项目名 gnata),以改为进程内调用,消除网络开销; 整个重构耗时约 7 小时,Token 成本仅400 美元,生成 1.3 万行 Go 代码,通过 1778 个官方测试用例 + 2107 个集成测试;
重构后性能大幅提升,年省约 50 万美元。
来源:Hacker News· https://news.ycombinator.com/item?id=47536712arXiv
[论文] DeepFAN, a transformer-based deep learning model for human-artificial intelligence collaborative assessment of incidental pulmonary nodules in CT scans: a multi-reader, multi-case trial
[论文] DeepFAN,一种基于 Transformer 的深度学习模型,用于 CT 扫描中偶发肺结节的人人工智能协作评估:一项多读者、多病例试验
摘要:
这是一篇发表于Nature Cancer的顶级临床 AI 研究,核设计了一种基于 Transformer 的肺结节 AI 模型 DeepFAN。该模型是ViT (抓全局特征)、CAL-ADL 3D ResNet(抓精细局部特征)、 GCN 图卷积(融合全局 + 局部特征) 三模块融合的 Transformer 模型,突破传统 CNN 只看局部的局限,已获中国 NMPA 三类证。是中国首个完成注册的肺结节 AI 多读者多病例(MRMC)临床试验,证据等级最高。
来源:arXiv· http://arxiv.org/abs/2603.25607v1[论文] MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination
[论文] MARCH:LLM幻觉的多智能体强化自检
摘要:
阿里巴巴通义千问应用团队提出的MARCH(Multi-Agent Reinforced self-Check for Hallucination) 框架, 通过 “三智能体协作 + 信息不对称 + 强化学习”,让大模型自主完成 “生成 - 拆解 - 盲验” 的闭环事实校验, 解决大语言模型(LLM)在检索增强生成(RAG)中的幻觉问题。
三智能体包括:基于同一基础模型实例化 Solver(生成初始 RAG 响应)、Proposer(拆解响应为可验证的原子事实 QA 对,聚焦数值等易幻觉信息)、Checker(仅靠检索文档独立验证 Proposer 拆解出来的QA,避免 Solver 的干扰)。
用 “零容忍奖励”(所有事实主张必须与 Checker 结果完全匹配才给奖励,否则惩罚)驱动,通过 PPO 联合优化三智能体的共享策略,让模型同时提升生成准确性和事实审计能力,无需额外人工标注或外部工具。
来源:arXiv· http://arxiv.org/abs/2603.24579v1


