
在学科交叉的大背景下,不少学校开设了文学和人工智能的交叉专业。如果你或具有一定的编程能力,会批量调用模型API,必要时需要部署本地模型,并有一定的数据分析能力,大模型研究的评测方向非常值得推荐。
大模型评测,是通过定义新任务或改进现有任务,系统地比较不同模型的性能并总结一些普适性的规律,或指出现阶段LLM的不足。
基础能力评测
1️⃣LMentry (2023)构建25个基础任务,包括根据所给的词造句、比较单词的字母数量、比较数字大小、比较单词的字典序、返回单词的第n个字母…
2️⃣WildBench(2024):基于真实用户对话构建LLM-as-a-judge自动评测框架,通过高难度任务(如逻辑推理、多轮对话)评估LLM的鲁棒性,分别用pair-wise和individual方法,让参考模型给被测试模型的输出打分。
3️⃣SuperGPQA(2025)评测基准覆盖285个学科(含哲学、文学、历史等),通过26,529道高难度题目评估模型在长尾学科中的推理能力。
特定任务与领域应用评测
1️⃣NATURAL PLAN(2024):针对自然语言规划任务(如旅行、会议安排)的评测基准,揭示LLM在长上下文规划和工具调用中的局限性:复杂的旅行规划解决率低、约束理解与遵守困难、自我纠错能力不足等问题。
2️⃣MedFuzz(2024):采用两个LLM,一个是attacker,一个是target,做对抗性的测试。在医学问答中,attacker加入反常识的语义扰动,考察target LLM在假设被违反时的表现,量化LLM在临床环境中的泛化能力。
多模态与具身智能评测类
1️⃣Embodied Agent Interface(2025):斯坦福李飞飞团队,系统地评估 LLMs 在具身决策制定中的性能,包括①目标解释②子目标分解③动作排序④转换建模 四个关键能力模块。
2️⃣LoTbench(2025):用于评估多模态LLM的跳跃式思维(Leap-of-Thought)能力。这种能力在看到双关meme时更容易更容易像人一样“接梗”。这个评测标准用了很多冷笑话meme,评测出英文和中文界的最佳“接梗王”分别是Gemini 1.5 Pro和Qwen-VL-max。
#文科转码 #NLP #交叉学科
大模型评测,是通过定义新任务或改进现有任务,系统地比较不同模型的性能并总结一些普适性的规律,或指出现阶段LLM的不足。
基础能力评测
1️⃣LMentry (2023)构建25个基础任务,包括根据所给的词造句、比较单词的字母数量、比较数字大小、比较单词的字典序、返回单词的第n个字母…
2️⃣WildBench(2024):基于真实用户对话构建LLM-as-a-judge自动评测框架,通过高难度任务(如逻辑推理、多轮对话)评估LLM的鲁棒性,分别用pair-wise和individual方法,让参考模型给被测试模型的输出打分。
3️⃣SuperGPQA(2025)评测基准覆盖285个学科(含哲学、文学、历史等),通过26,529道高难度题目评估模型在长尾学科中的推理能力。
特定任务与领域应用评测
1️⃣NATURAL PLAN(2024):针对自然语言规划任务(如旅行、会议安排)的评测基准,揭示LLM在长上下文规划和工具调用中的局限性:复杂的旅行规划解决率低、约束理解与遵守困难、自我纠错能力不足等问题。
2️⃣MedFuzz(2024):采用两个LLM,一个是attacker,一个是target,做对抗性的测试。在医学问答中,attacker加入反常识的语义扰动,考察target LLM在假设被违反时的表现,量化LLM在临床环境中的泛化能力。
多模态与具身智能评测类
1️⃣Embodied Agent Interface(2025):斯坦福李飞飞团队,系统地评估 LLMs 在具身决策制定中的性能,包括①目标解释②子目标分解③动作排序④转换建模 四个关键能力模块。
2️⃣LoTbench(2025):用于评估多模态LLM的跳跃式思维(Leap-of-Thought)能力。这种能力在看到双关meme时更容易更容易像人一样“接梗”。这个评测标准用了很多冷笑话meme,评测出英文和中文界的最佳“接梗王”分别是Gemini 1.5 Pro和Qwen-VL-max。
#文科转码 #NLP #交叉学科


