推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

文科生也能做的LLM研究方向1️⃣:大模型评测

日期：2025-12-02 12:08:36 来源：网络整理作者：本站编辑评论：0

在学科交叉的大背景下，不少学校开设了文学和人工智能的交叉专业。如果你或具有一定的编程能力，会批量调用模型API，必要时需要部署本地模型，并有一定的数据分析能力，大模型研究的评测方向非常值得推荐。

大模型评测，是通过定义新任务或改进现有任务，系统地比较不同模型的性能并总结一些普适性的规律，或指出现阶段LLM的不足。

基础能力评测
1️⃣LMentry （2023）构建25个基础任务，包括根据所给的词造句、比较单词的字母数量、比较数字大小、比较单词的字典序、返回单词的第n个字母…
2️⃣WildBench（2024）：基于真实用户对话构建LLM-as-a-judge自动评测框架，通过高难度任务（如逻辑推理、多轮对话）评估LLM的鲁棒性，分别用pair-wise和individual方法，让参考模型给被测试模型的输出打分。
3️⃣SuperGPQA（2025）评测基准覆盖285个学科（含哲学、文学、历史等），通过26,529道高难度题目评估模型在长尾学科中的推理能力。

特定任务与领域应用评测
1️⃣NATURAL PLAN（2024）：针对自然语言规划任务（如旅行、会议安排）的评测基准，揭示LLM在长上下文规划和工具调用中的局限性：复杂的旅行规划解决率低、约束理解与遵守困难、自我纠错能力不足等问题。
2️⃣MedFuzz（2024）：采用两个LLM，一个是attacker，一个是target，做对抗性的测试。在医学问答中，attacker加入反常识的语义扰动，考察target LLM在假设被违反时的表现，量化LLM在临床环境中的泛化能力。

多模态与具身智能评测类
1️⃣Embodied Agent Interface（2025）：斯坦福李飞飞团队，系统地评估 LLMs 在具身决策制定中的性能，包括①目标解释②子目标分解③动作排序④转换建模四个关键能力模块。
2️⃣LoTbench（2025）：用于评估多模态LLM的跳跃式思维（Leap-of-Thought）能力。这种能力在看到双关meme时更容易更容易像人一样“接梗”。这个评测标准用了很多冷笑话meme，评测出英文和中文界的最佳“接梗王”分别是Gemini 1.5 Pro和Qwen-VL-max。

#文科转码 #NLP #交叉学科

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行