









现在大模型产品的岗位越来越细分了,评测产品甚至已经成立了专门的产品组&部门!
我从SuperClue&SuperBench的报告中总结了9大维度的评测任务,及其对应的评测指标、评测流程
? 相信不管是学习模型评估,还是设计自己的测评题,这张表都是隐藏神器!
综合而言:
SuperCLUE 更适合中文环境通用能力快速测评,尤其关注小模型发展
SuperBench 更擅长深度学术化评估,为产业落地提供精细能力图谱
具体评测示例可以看对应报告!获取方式如尾图
关注我一起每天学习一点点!大模型 #AI人工智能 #人工智能发展 #产品经理 #算法 #AI入门指南 #大模型评测
我从SuperClue&SuperBench的报告中总结了9大维度的评测任务,及其对应的评测指标、评测流程
? 相信不管是学习模型评估,还是设计自己的测评题,这张表都是隐藏神器!
综合而言:
SuperCLUE 更适合中文环境通用能力快速测评,尤其关注小模型发展
SuperBench 更擅长深度学术化评估,为产业落地提供精细能力图谱
具体评测示例可以看对应报告!获取方式如尾图
关注我一起每天学习一点点!大模型 #AI人工智能 #人工智能发展 #产品经理 #算法 #AI入门指南 #大模型评测


