推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  减速机型号  履带  带式称重给煤机  无级变速机  链式给煤机 

美团&北理:首个本地生活多跳智能搜索基准

   日期:2025-12-19 03:27:36     来源:网络整理    作者:本站编辑    评论:0    
美团&北理:首个本地生活多跳智能搜索基准

美团&北理:首个本地生活多跳智能搜索基准

美团&北理:首个本地生活多跳智能搜索基准

美团&北理:首个本地生活多跳智能搜索基准

美团&北理:首个本地生活多跳智能搜索基准

美团&北理:首个本地生活多跳智能搜索基准

美团&北理:首个本地生活多跳智能搜索基准

美团&北理:首个本地生活多跳智能搜索基准

本地生活场景搜索长期依赖单轮、浅层检索,难以处理真实用户查询中常见的多约束、多场景、多地点链式需求。LocalSearchBench 是首个面向本地生活服务的 多跳推理+智能搜索基准,结合150k 商户数据、300 多跳任务与 LocalPlayground 智能体框架,为评估大型推理模型(LRMs)在真实生活服务里的智能检索能力提供标准化测试平台。
核心亮点
1. 行业内首个本地生活多跳智能检索基准
覆盖 餐饮、购物、住宿、生活、医疗、旅游 6 大场景,真实反映用户如“展览结束后去喝咖啡+买零食”等复杂链式需求。基准包括 150,031 条高质量商户数据 + 300 复杂多跳问题。
2. 数据构建系统化、可控、安全
论文提出三阶段流程:
Data Augmentation:将12个字段扩展为29个字段(营业时间、设施、价格区段、地标等)。
Privacy Rewriting:替换真实地址、店名、联系方式确保隐私安全。
LLM-as-a-Judge 多维验证:完整性、逻辑一致性、地理准确性等六大指标。
3. 创建本地生活专用 RAG 工具 LocalRAG
包括向量表示、密集检索、重排序,用于支持智能体跨地点、跨服务的推理搜索。与多跳问题深度结合,模拟真实应用。
4. 300 道真实多跳任务,难度来自真实业务
任务覆盖:
多约束商户组合
多地点链路规划
服务捆绑 + 事件触发式搜索 并按 L3–L4 智能等级设计
5. LocalPlayground:可复现的智能体评测框架
包含 Search Agent(LocalRAG + Web Search) 与 Validation Agent,基于7项指标全方位评估大型模型表现(图10)。
6. 全面评测10大主流模型,结果揭示行业现状
最佳模型(DeepSeek-V3.1)正确率仅 34.34%,说明本地生活多跳推理仍具巨大挑战。引入 Web Search 时:
正确率 +4.37pp
完整性 +3.95pp
忠实度 -3.64pp(噪声干扰)
7. 关键发现:最佳推理轮次为 N = 5
回合数过少 → 信息不足 回合数过多 → 反而降低正确率

arXiv:2512.07436

#AI工具 #智能体 #多跳推理 #本地生活 #RAG #大模型评测 #美团 #搜索增强 #Agent #LLM
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON