推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

【大模型入门】大模型训练数据白皮书——阿里研究院(上)

日期：2026-01-08 06:55:00 来源：网络整理作者：本站编辑评论：0

原文链接：https://pan.quark.cn/s/06b719a16a5f

本文阅读了书中的1-4章，主要讲述了训练数据的重要性，不同模型上训练数据的差别，同时定义了什么是高质量数据，以及详细描述了合成数据的方法和重要性。

01 训练数据对大模型发展的重要性

GPT的进化过程，主要是基于数据集的数量和质量上的提升，自身的模型架构非常相似。

02 模型训练所需数据类型

1. 训练LLM的数据

LLM训练过程一般分为预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)，后两个部分统称为“对齐(Alignment)”阶段。

预训练训练集：各种类型的世界知识。通过大量学习世界知识，构建模型基础能力。
SFT训练集：通过标注人员设计问答，将带有正确答案的例题供模型学习，并提升模型的泛化能力。
RLHF训练集：训练目标是让模型的价值观与人类对齐，通过对模型的回答进行监督学习（例如打分、排序等），让模型知道“怎么做更好”。
专项训练数据：如果将模型部署后用于特定行业，则需要特定领域知识进行预训练和对齐，例如行业数据库、专业文档、专业网站等。

2. 训练多模态模型的数据

多模态一般包含图像、视频、音频等。以以 Mid-journey 和 Sora 为例来看，训练阶段需要大量图像-文本对，视频-文本对等带标注的数据集进行训练。

图像-文本对：包含一张图像和一段描述该图像内容的文本的数据，供模型学习图像像素、文字和图像的关联。
视频-文本对：包括一个短视频和一段描述视频中发生事件的文本，让模型不仅学习单个画面，还需要理解视频中的时间序列和动态变化。

3. 训练数据常见疑问和误解

3.1 大模型训练并不依赖用户个人信息

传统的决策类人工智能在需求侧通过分析海量的用户行为数据，判断用户的偏好和需求；在供给侧通过学习内容的特征，借助推荐、排序等机制实现内容匹配，根据用户行为反馈进行优化，提升算法准确性。
大模型模拟人类思维比生成人类可以理解和使用的内容。在训练阶段依赖世界知识、专业知识库等，不依赖个人信息等原始数据。也可以通过人工标注等机制优化表达，使模型生成内容接近人类认知。
大模型推理过程不依赖用户个人数据，同时国内主流大模型也提供用户隐私保护，同时不过度收集和使用用户个人信息。但是在推理阶段的用户恶意诱导，目前仍无法完全避免个人信息泄露。

3.2 中文语料短缺不是制约我国大模型发展的重要因素

实践表明，语料规模并不是大模型发展的决定性因素。主要原因如下：

部分世界知识是通用的，使用不同的语言表达并不影响模型的理解。
使用新方法进行模型训练，可以弥补语料不足的问题。

但是，目前中式价值观类语料极为重要且十分短缺。大量来自知识和价值观层的数据，可以更好的帮助模型理解客观世界和掌握规律。因此加入更多中式价值观的语料，有助于更好的理解和反应中国使用者的文化背景和价值取向，保持文化的多样性和独特性。高质量的中式价值观语料包括文言文、古汉语、电子书(包含传统文化内容)、流媒体上的本土价值观的内容。存在问题：古籍数字化差、开发共享和开发利用率低、机器算法和编码系统建设缺乏。

03 什么是高质量数据

1. 高质量数据的重要性

什么是高质量的训练数据？满足“真实性”、“准确性”、“客观性”、“多样性”的要求。

技术层面：使用损失函数来量化模型预测输入和实际目标直接的不匹配程度。当模型在训练集上的损失函数越小，模型预测的概率越逼近实际数据的真实分布。
从模型能力表现，高质量数据有以下作用：

提升模型的准确性和稳定性

数据通常包含更准确和丰富的信息。

数据清洗是提高数据质量的重要环节，包括去重、删除个人隐私内容、纠正错误、填补缺失值等。

具有数据多样性，提升鲁棒性和泛化能力

数据来源丰富，通过调试配比，提升模型的泛化能力。
利用数据增强提升多样性。比如通过旋转、缩放、亮度调整等手段进行数据变换或扩充。

此外，如果训练数据中出现较多错误、有毒、重复的低质量数据，则会对模型能力产生破坏性影响。

错误数据：导致模型记忆偏差，发生事实性错误。
重复语料：导致模型对特定类型的示例产生偏见，降低结果多样性。

2. 高质量数据的标准

2.1 数据类型的三重不确定性

第一重是所需的语料种类。针对不同模型能力需求，定义什么是高质量数据的类型是完全不一样的，下面列举了大模型发展过程中高质量模型的发展历程：

第二重是语料形态的演化，高质量数据的形态会不断增加。

领域知识生成：对于大模型难以使用的原始数据，经过加工、改造、泛化等可以形成有效知识数据。
自动驾驶等领域：通过仿真数据生成多样化、多视角的物理世界用于模型训练，增加特定场景的数据收集。
代码和教材：代码扩展到仓库级，从单一任务模块扩展到整体框架；教材也从中小学扩展到大学，增加了复杂场景的推理能力。

第三重是不同数据类型的有效搭配，通过对不同来源的数据混合，提升数据集多样性。包含两个重要环节：

调整不同来源数据的配比（数据混合）。下面介绍常用策略：

增加数据源的多样性。
根据模型的执行目标，选择产生积极影响的数据。

调整不同来源数据的训练顺序（数据课程）。主要用于

让大模型更好学习某项技能，探索语料学习顺序的影响。一般来说，按照技能集合的顺序组织语料会更为有效。

此外，“少而精”的数据在模型对齐能力上可能会取得更好的效果。

2.2 同类数据的评估标准并不完全一致

对同类语料的质量评估，往往从质量、规模、多样性三个维度出发。

质量上：通过了有用性和质量筛查，一般通过数据来源和模型打分等方式进行判断。数据来源判断有以下几种：

语言模型训练中，新闻、科研论文、开源项目代码是已审查的数据。
常识性内容中，维基百科是高质量数据。
对话内容：通过用户的积极互动，例如点赞等。
多模态训练：视觉中国网站提供大量图片和视频，并且有图像的光照、构图、艺术性、美观性等专业标注。
对于无法判断的，可以使用评估模型打分。

公开网页：首先通过少量样本人工评估获得可读性、帮助性、安全性等指标，然后通过这些样本进行评估模型训练。

规模上：当模型的参数或计算量按比例扩大时，模型性能也与之成比例提升。此外，模型参数和训练语料也成正比例关系。注意并不是语料规模越大越好，而是高信息密度的语料规模越大越好。
多样性：

数据集公平性。网络数据可能存在弱势群体不公平现象，可能会加剧偏见或系统性不平等。增加数据集审查确保分布广度和均衡性，可以缓解公平性问题。
同类语料的多样性。在安全能力结社方面，可以通过打安全标签的方式提升模型对安全风险的识别。

高质量更多是一种主观判断，取决于模型的应用目的，可以参考模型的发展阶段、开发人员的判断、模型的训练效果等多个维度评估。

04 合成数据

1. 训练数据不足的思考

风险：据Epoch AI估算，书籍、科研论文等高质量数据集会在2024年前耗尽。那么如何解决数据集的问题呢？

将未数字化的知识数字化。
利用机器感知数据。例如增加无人车、无人机、其他智能设备等生成大量真实数据。
利用模型和算法，批量生产新数据。例如数据合成。数据合成能作为真实数据的补充，扩展模型学习范围和能力；但是生成的数据存在偏差和噪声，和真实数据存在误差。

2. 合成数据的定义

通过算法和数据模型创建的。主要流程为建模真实数据分布，然后采样并创建新数据集，模拟真实数据中的统计模式和关系。

3. 合成数据的必要性

什么情况用到合成数据？本质是因为真实世界获取困难，例如：

真实世界难以观测。例如罕见病、极端天气、特殊路况等。
真实世界获取成本高。例如大模型所需的高质量反馈，利用合成数据实现对齐流程自动化，免去人类标注，提高获取效率。
数据敏感。尤其是医疗健康和金融领域

4. 合成数据的生产方法和分类

一种分类是根据是否基于真实数据集进行构造。

基于真实数据集构建：通过模型获取真实数据的分布特征和结构特征，然后从该模型中抽取或生成合成数据。
不基于真实数据集构建：通过使用现有模型或人类专业背景知识构建。例如Sora就使用了游戏引起合成的视频作为训练集。

另一种分类方法是根据训练的AI类型进行分类。

应用于生成式AI模型

媒体合成数据：即由模型和算法合成的视频、图像或声音。
文本合成数据：在自然语言处理中由模型生成的文本。

应用于判别式AI模型

表格合成数据，类似真实的数据记录或表格的合成数据。

5. 合成数据的作用

5.1 补充预训练语料

应用于多模态数据生成。广泛应用于具身智能机器人、自动驾驶、AI for Serience等场景的训练。合成数据可以更好满足训练数据差异化的需求，例如通过有效的“过采样”罕见、灾难事件，确保模型的鲁棒性。
应用于高价值领域知识生成。通过对现有数据的加工，转化不能训练的数据。例如转化工业制造数据：将生产、制造等工艺流程和知识图谱结合，转换成可用的工业语料。通常分为三步：

原始数据（Data）转变为信息（Information），将数据结构化。
信息提炼为知识：将结构化信息和行业知识图谱、专家经验结合，产生有价值的行业知识。
知识泛化：将单一的知识通过大模型推理进行多样性扩展。

5.2 提升对齐数据的获取效率

目前在对齐阶段（包括微调和强化学习阶段）存在的问题包括：1.数据获取成本高；2.人类评估准确性和一致性；3.模型避免回答敏感问题和争议问题。使用合成数据可以大幅度提升对齐数据的获取效率。

通常使用合成数据进行以下操作，可以大幅度降低标注成本：

用一个较大的模型产出合成数据
生成指令及输入和输出样本，并过滤无效、重复信息
自动化微调出性能较好的小模型

下面举几个示例利用合成数据的示例：

自我指导（Self-instruct）：Alpaca通过OpenAI 的 API 自动生成指令数据进行微调。
自我对局（Self-play）：利用合成数据进行自我对抗微调（t+1 代的模型尝试将 t 代模型的输出与真人的输出区分开）。
宪法式 AI：让AI在遵循预先设定的原则下，使用模型自身生成反馈和修正意见并进行自我改进，例如Claude3。

6 解决训练数据供给不足的新方案

当前训练数据侧重于构建开放、包容的高质量数据源，包括建立公共(准公共)属性的高质量数据集、鼓励行业数据共享、放开对训练数据的权属保护等。使用合成数据可以解决以下问题：

解决部分类型的真实数据无法观测的问题，提升数据多样性。生成“边缘情况”或“潜在隐患”可以弥补样本分布不均衡的问题，提高数据分布合理性和客观性。未来，仿真数据、大模型加工后的新型数据都可以提升模型的推理和泛化能力。
和真实数据的配合，提高模型的安全性和可靠性。

LLM方面：解决RLHF过程中人类回答标准不统一、问答准确性不足的问题。
图像领域：弥补对抗样本稀疏的缺陷，通过合成数据和普通数据进行混合，可以提高模型对图片的判断能力。

替代个人特征数据，有助于隐私保护。例如推荐系统中降低对个人信息的依赖，具体操作如下

利用生成器自动产出个性化提示词（即合成数据）用于模型优化
进行大模型推理，预测用户实际需求
通过用户反馈，由模型进行推荐，降低对个人特征数据依赖

7 在发展中治理的合成数据

合成数据不能堆量，更要重质。训练阶段过多的引入合成数据，可能导致模型对世界知识理解产生偏差。可以通过一定比例将合成数据和真实数据混合，提升模型准确性、鲁棒性和安全性。此外，更重要的是关注生成合成数据对客观世界模拟的准确性，更好满足模型对训练数据差异化的需求，以及拓展模型对训练数据利用的可能性。
合成数据要具有安全性。尽量保证合成数据安全性和真实性不低于真实世界的数据。
设置相应的安全管控策略，确保模型安全性。主要有以下几种方式：

加强对合成数据质量的评估检测；
设置备用数据集；需要验证不同类型、模态和配比的合成数据对模型性能带来的影响，同时准备备用的真实世界数据集。
对用于模型优化、对齐的合成数据，适当引入人类参与。

原创不易，转载请注明出处。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行