研究范围:200+篇核心论文,覆盖2019-2026年
重点:2025-2026年最新进展;图像理解为多模态最高优先级
V2增强:增加原文引述、结论时效性验证、方法Tutorial、Pipeline留存率分析
撰写日期:2026年3月
第一部分:LLM 文本数据工程
第1章:概述与背景
1.1 数据在LLM训练中的核心地位
大语言模型(LLM)的性能飞跃,本质上是数据工程的胜利。每一次模型能力的跃升背后,都伴随着数据规模、质量和处理方法的系统性进步。
核心证据(含原文引述):
质量胜过数量:Qwen2实验表明12T tokens训练并不优于7T tokens(Qwen Team, 2024, arXiv:2407.10671)。Phi-3仅用3.3T tokens就达到远超自身规模的模型性能(Abdin et al., 2024, arXiv:2404.14219)。
Mid-Training的杠杆效应:OLMo 2中期训练仅消耗约5-10% FLOPs,却带来平均+10分的下游提升(OLMo Team, 2025, arXiv:2501.00656)。
RL作为数据引擎:DeepSeek-R1通过拒绝采样生成600K推理样本,形成自我提升飞轮(DeepSeek, 2025, arXiv:2501.12948)。
数据配比的决定性作用:MM1系统消融证明数据混合比例远比连接器架构重要。
原文引述:
"A careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving SOTA few-shot results in multimodal pre-training."
—— MM1, McKinzie et al., 2024.03, Section 3
- 预训练数据质量决定基座性能
(Kimi k1.5):
原文引述:
"Extensive scaling experiments indicate that most of the base model performance comes from improvements in the quality and diversity of the pretraining data."
—— Kimi k1.5, Moonshot AI, 2025.01, Appendix B.3
前沿实验室数据工程的8大趋势(基于15+篇技术报告系统分析):
1.2 数据规模的演进时间线(V2更新至2026.03)
预训练数据规模在不到3年内增长约25倍(从1.4T到36T):
| 2025.04 | LLaMA 4 Scout | 40T | MoE架构;原生多模态;社交媒体数据 |
| 2025.04 | LLaMA 4 Maverick | 22T | 128专家MoE;1M上下文 |
| 2025.05 | Qwen3 | 36T | 119种语言;实例级配比优化;30T+5T分阶段 |
| 2026.01 | MiMo-V2-Flash | 27T | 309B/15B MoE;MOPD多教师蒸馏;MTP推测解码 |
| 2026.02 | Kimi K2.5 | 联合Text-Vision训练;Agent Swarm;开源 |
增长轨迹:
- LLaMA系列:1.4T → 15.6T → 40T(Scout),17月28.5×
- Qwen系列:~3T → 18T → 36T,24月12×
- DeepSeek系列:~2T → 14.8T,14月7.4×
1.3 Data-Centric AI范式的兴起
关键术语定义:
- Data-Centric AI(以数据为中心的AI):一种AI开发范式,强调通过系统性地改进数据质量和数据管理来提升模型性能,而非仅依赖模型架构和算法改进。
关键里程碑:
1. Chinchilla法则证明数据与模型同等重要(Hoffmann 2022)
2. 开放数据运动使数据工程可复现(The Pile, FineWeb, Dolma)
3. 处理系统化(DataTrove, Data-Juicer 2.0, NeMo Curator)
4. Scaling Law多维化:L(N,D) → L(N,D,Q,h,arch,...)
1.4 研究范围与方法论
本报告基于200+篇论文的系统研究,采用迭代式研究框架。V2版本重点增强:
- 原文引述:每个关键结论附原文摘录
- 结论时效性验证:验证早期结论在最新研究中的适用性
- 方法Tutorial:关键方法的具体实现步骤
- Pipeline留存率:各数据处理环节的数据保留比例
第2章:数据Scaling Law
2.1 Kaplan Scaling Law(OpenAI, 2020)
术语定义:
- Scaling Law(缩放定律):描述模型性能与模型规模(参数量N)、数据量(D)、计算量(C)之间的定量关系的经验法则,通常呈幂律形式。
Kaplan等人(2020, arXiv:2001.08361)首次建立语言模型性能与规模变量的幂律关系:$L \propto N^{-\alpha}, D^{-\beta}, C^{-\gamma}$。
核心发现:大模型更加sample-efficient,建议优先扩大模型+少数据+早停。
局限:偏向大模型小数据策略,后被Chinchilla修正。
2.2 Chinchilla Scaling Law(DeepMind, 2022)
Hoffmann等人(2022, arXiv:2203.15556)通过400+模型实验根本性修正了Kaplan:
原文引述:
"For compute-optimal training, the model size and the number of training tokens should be scaled equally."
—— Chinchilla Paper, Hoffmann et al., 2022.03, Abstract
关键发现:
- N和D应等比例扩展
- 最优token/param比约20:1
- 70B Chinchilla用1.4T tokens超越280B Gopher
时效性评估: ⚠️ 部分过时
- 工业界实践远超20:1:LLaMA-3约223:1,Qwen2.5约2,571:1
- 原因:推理成本优化(见2.3节)
2.3 Beyond Chinchilla:推理最优 vs. 训练最优
Sardana & Frankle(2024, arXiv:2401.00448)引入推理成本考量:
关键发现:
- 高推理需求时应选更小模型+更多数据
- 极端token/param比(10,000:1)仍有效(47模型验证)
这解释了工业界远超20:1的实践:
| 模型 | Token/Param比 |
|------|--------------|
| Chinchilla最优 | 20:1 |
| LLaMA-3 | ~223:1 |
| Qwen2.5 | ~2,571:1 |
| LLaMA 4 Scout | ~2,353:1 |
2.4 数据受限条件下的Scaling Law
Muennighoff等人(2023, arXiv:2305.16264, NeurIPS):
核心发现:4 epoch经验规则——4次重复以内安全,超过则价值衰减显著。
时效性评估: ⚠️ 部分过时
- Yan等人(2025, arXiv:2511.13421)从理论上挑战:安全阈值随数据集大小对数增长 $E(K,N) \sim \Theta(\log N)$
- 两者可能在不同规模上都正确
2.5 数据重复训练的效果与上限
Yan等人(2025, arXiv:2511.13421)提出理论挑战:
核心公式:$E(K,N) \sim \Theta(\log N)$
含义:
- 更大数据集可安全重复更多次
- 小数据集上4-epoch可能过于宽松
- 大数据集上4-epoch可能过于保守
2.6 Observational Scaling Laws
Ruan等人(2024, arXiv:2405.10938, NeurIPS Spotlight):
创新:利用~100个公开模型代替训练实验
关键发现:
- 发现低维能力空间
- 涌现能力可预测
- 大幅降低研究成本
2.7 多模态场景下的Scaling Law(V2增强)
术语定义:
- Data Mixing Laws(数据混合定律):描述不同数据源/模态混合比例与模型性能关系的缩放定律。
Shukor等人(Apple, 2025, arXiv:2507.09404)在三种范式下验证Data Mixing Laws:
| LLM | ||
| NMM | ||
| LVM |
关键发现:Data Mixing Laws在多模态场景下仍然适用,为多模态配比优化提供理论基础。
2.8 2025-2026 Scaling Law前沿(V2更新)
L(N,D)被扩展为多维框架:
2.9 跨规模预测可靠性分析(V2新增专题)
背景:V1报告将"小实验可预测大规模"作为共识,但存在反例。
2.9.1 "小实验预测大规模"方法汇总
| ~80% | ||||
2.9.2 已知迁移失败案例
Multimodal Tax案例:
现象:小模型存在多模态能力损失(multimodal tax),但大模型没有。
影响:基于小模型的配比优化可能不适用于大模型。
DataDecide的发现:
原文引述:
"150M model rankings predict 1B model rankings ~80% of the time."
—— DataDecide, Magnusson et al., 2025.04
关键警示:20%的预测失败可能包含最重要的案例。
2.9.3 可靠性评级与适用边界
2.10 共识与冲突分析
共识(多篇论文验证):
1. Power-law普遍适用
2. 数据≥模型重要性
3. 小实验可预测大规模(~80%准确)
4. 混合比例显著影响
5. Chinchilla需多维扩展
活跃争议:
2.11 开放问题:数据墙(Data Wall)是否真的存在?
缓解路径:
- 合成数据:Phi-3, BoostQA, Qwen3用VLM从PDF提取数万亿tokens
- 重复新理论:Yan 2025的Θ(log N)
- 多语言:FineWeb2 1000+语言;Qwen3扩展至119种语言
- 质量提升:AICC更好的HTML提取
- Mid-Training效率:Webscale-RL 100×
第3章:预训练数据源与数据规模
3.1 网页数据:Common Crawl
Common Crawl是几乎所有大规模预训练数据集的基础。FineWeb使用96个CC snapshot处理出15T tokens(Penedo et al., 2024, arXiv:2406.17557)。
关键发现——HTML提取质量被低估:
AICC(Ma et al., 2025, arXiv:2511.16397)证明将Trafilatura替换为MinerU-HTML(0.6B LM),在同等过滤条件下带来+1.08pp模型质量和+18.2pp ROUGE-N。
3.2 书籍与长文本数据
书籍在LLaMA-1中占4.5%,随Web处理进步占比下降。
长上下文关键发现:
- LLaMA-3用6阶段从8K扩至128K(~800B tokens)
- InternLM2用50/50长短混合
- Qwen3: 长上下文阶段数千亿tokens,75%为16K-32K长度
3.3 代码数据
代码占比显著增长:LLaMA-1 4.5% → LLaMA-3 ~17% → Qwen3增强STEM/代码。
Qwen3原文引述:
"We employ Qwen2.5, Qwen2.5-Math, and Qwen2.5-Coder models to synthesize trillions of text tokens in different formats, including textbooks, question-answering, instructions, and code snippets, covering dozens of domains."
—— Qwen3 Technical Report, 2025.05, Section 3.1
3.4 学术论文与百科数据
Wikipedia作为质量参考集(CCNet)和多语言来源。
Qwen3的PDF提取创新:
"To further expand the pre-training data corpus, we first employ the Qwen2.5-VL model to perform text recognition on a large volume of PDF-like documents. The recognized text is then refined using the Qwen2.5 model..."
—— Qwen3 Technical Report, 2025.05, Section 3.1
3.5 多语言数据
覆盖爆发式增长:
| Qwen3 | 119种语言和方言 |
3.6 头部模型数据规模对比(V2更新至2026.03)
| LLaMA 4 Scout | 2025 | Meta | 40T | MoE+原生多模态+社交媒体 |
| Qwen3 | 2025 | 阿里 | 36T | 119语言+实例级配比+VLM提取 |
第4章:数据质量过滤与清洗
4.1 启发式过滤规则
代表性规则集:
- Gopher规则(DeepMind):基于标点符号比例、单词数、重复行比例等
- C4过滤规则(Google):移除包含脏话、短句、非英文内容的页面
- LLaMA-3规则:重复n-gram比率、脏词列表、token分布KL散度
4.2 基于语言模型的质量评分
4.2.1 Perplexity过滤(CCNet方法)
术语定义:
- Perplexity(困惑度):语言模型对文本的困惑程度度量,较低的困惑度表示文本更符合模型的预期。在数据过滤中,通常用于评估文本与高质量参考集(如Wikipedia)的相似度。
CCNet(Wenzek et al., 2019, arXiv:1911.00359)建立了现代预训练数据处理的基础pipeline。
局限:偏向百科风格文本,可能丢弃有价值的对话、创意和技术内容。
4.2.2 分类器过滤(fastText)
术语定义:
- CQF(Classifier-based Quality Filtering,分类器质量过滤):一种使用预训练分类器(如fastText)对文本数据进行质量评分和过滤的方法,通常训练于Wikipedia等高质量参考集。
方法Tutorial:
1. 准备高质量参考集:通常使用Wikipedia作为正样本
2. 准备负样本:从原始Web数据随机采样
3. 训练fastText分类器:二分类(高质量 vs 低质量)
4. 应用到目标数据:对每个文档计算质量分数
5. 阈值过滤:保留高于阈值的文档
各模型的CQF演进:
4.2.3 LLM-as-Judge质量评估
术语定义:
- LLM-as-Judge:使用大语言模型直接评估数据质量的方法,通过prompt让LLM对文本进行多维度评分。
Qwen2.5的实践:
- 使用Qwen2-Instruct进行多维度评分
- 评估维度:连贯性、信息量、教育价值
- 优势:更细粒度、可解释性更强
4.2.4 QuRating(Princeton, 2024.02)
QuRating通过语言模型评估数据质量的多个维度,包括事实性、连贯性等。
4.2.5 Token级选择:Rho-1(2024.04)
术语定义:
- Token级选择:不是选择整个文档,而是对每个token计算其训练价值,选择性地训练高价值token。
关键发现:不是所有token同等贡献——选择性token训练可以提高效率。
4.3 DSIR:基于分布匹配的数据选择
术语定义:
- DSIR(Data Selection via Importance Resampling):基于重要性重采样的数据选择方法,通过匹配目标分布来选择训练数据。
方法Tutorial:
1. 定义目标分布:通常是高质量参考集的特征分布
2. 估计源分布:计算原始数据的特征分布
3. 计算重要性权重:目标分布/源分布
4. 重采样:按权重采样数据
4.4 数据过滤网络(DFN, Apple, 2023.09)
Apple的DFN使用端到端训练的网络来学习数据过滤策略,而非依赖手工规则。
4.5 2025-2026 CQF辩论与新方法(V2增强)
4.5.1 CQF辩论详解
质疑方(Nait Saada et al., Apple, 2025):
原文引述:
"We find that classifiers commonly used for quality filtering appear to primarily identify text similar to the reference data used for training... rather than identifying high-quality text per se."
—— Nait Saada et al., 2025
反驳方(Seo et al., ICLR 2026):
- 简单词频统计可达到CQF效果
- 成本降低1000×
时效性评估: ⚠️ 机制被误解
- CQF确实提升基准测试分数,但机制是隐式分布选择而非"质量增强"
4.6 DataDecide深度分析(V2新增专题)
核心发现:
原文引述:
"Rankings from a single 150M model correctly predict the best model at 1B scale in ~80% of comparisons."
—— DataDecide, Magnusson et al., 2025.04
关键数据:
| 指标 | 数值 |
|------|------|
| 对比的语料库数量 | 25个 |
| 模型规模 | 最大1B参数 |
| 训练tokens | 最大100B |
| 小规模预测准确率 | ~80% |
| 预测所需计算量 | 0.01%(通过likelihood代理) |
对数据选择研究的影响:
- 提供了低成本评估数据决策的方法论
- 警示:20%的预测失败可能包含关键案例
- 最大规模1B/100B,大规模适用性待验证
第5章:数据去重(Deduplication)
5.1 为什么去重如此重要?
去重提升性能、减少记忆化、降低成本。Lee et al.(2022, arXiv:2107.06499)的系统研究奠定了基础。
5.3 模糊去重(MinHash + LSH)
术语定义:
- MinHash:一种局部敏感哈希技术,用于快速估计两个集合(如文档的n-gram集合)的Jaccard相似度。
- LSH(Locality Sensitive Hashing):一种用于高维数据近邻搜索的技术,将相似项目以高概率哈希到同一桶中。
方法Tutorial:
1. 将文档转换为n-gram集合(通常使用5-gram或13-gram)
2. 计算每个集合的MinHash签名(通常100-200个哈希函数)
3. 使用LSH将相似签名分组
4. 对同一桶内的文档进行精确相似度计算
5. 保留每个近似重复组的代表性文档
5.4 语义去重(SemDeDup)
术语定义:
- SemDeDup(Semantic Deduplication):基于嵌入空间语义相似度的去重方法,可以识别表面形式不同但语义相似的内容。
Abbas et al.(2023, arXiv:2303.09540)提出基于嵌入空间的语义去重。
关键发现:语义去重可额外移除50%模糊去重后的数据,同时保持性能。
第6章:数据配比(Data Mixing)
6.2 动态数据配比 / Curriculum Learning
术语定义:
- DoReMi:一种基于Group DRO(Distributionally Robust Optimization)的动态数据配比方法,通过在小规模代理模型上优化worst-case损失来学习最优采样权重。
DoReMi方法Tutorial:
1. 训练代理模型:在初始均匀分布数据上训练小规模模型
2. 计算domain损失:评估每个数据域的损失
3. 优化采样权重:使用Group DRO最小化worst-case损失
4. 应用到大规模训练:使用学习的权重采样训练数据
6.6 2025-2026数据配比前沿
Qwen3的实例级配比优化:
原文引述:
"Unlike previous studies that optimize the data mixture at the data source or domain level, our method optimizes the data mixture at the instance-level through extensive ablation experiments on small proxy models with the fine-grained data labels."
—— Qwen3 Technical Report, 2025.05, Section 3.1
第7章:合成数据与Mid-Training
7.3 "转换已有数据"的合成方法(V2新增专题)
7.3.1 WRAP(Apple, 2024.01):Web文本改写
方法Tutorial:
1. 选择Web爬取的原始文本
2. 使用指令微调的LLM将文本改写为更结构化的格式
3. 生成多种改写风格(问答、摘要、教科书等)
4. 混合原始文本和改写文本进行训练
7.3.2 Qwen3的VLM提取方法
原文引述:
"To further expand the pre-training data corpus, we first employ the Qwen2.5-VL model to perform text recognition on a large volume of PDF-like documents. The recognized text is then refined using the Qwen2.5 model, which helps improve its quality. Through this two-step process, we are able to obtain an additional set of high-quality text tokens, amounting to trillions in total."
—— Qwen3 Technical Report, 2025.05, Section 3.1
方法创新:使用多模态模型(Qwen2.5-VL)从PDF提取文本,再用语言模型(Qwen2.5)精炼质量。
7.4 Mid-Training阶段的合成数据(V2增强)
Kimi k1.5的发现:
原文引述:
"Through empirical investigation, we observed that the incorporation of synthetic data during the cooldown phase yields significant performance improvements, particularly in mathematical reasoning, knowledge-based tasks, and code generation."
—— Kimi k1.5, Moonshot AI, 2025.01, Appendix B.4
第8章:开源数据集与数据项目
8.12 数据Pipeline留存率统计(V2新增)
LLM文本数据Pipeline典型留存率:
累积效应:如果每个环节保留70%,5个环节后仅剩 0.7^5 ≈ 16.8%
第9章:数据处理Pipeline工程系统
(本章保留V1内容,增加2025-2026系统更新)
第10章:数据处理算子详解
(本章保留V1内容)
第二部分:多模态大语言模型(MLLM/VLM)数据工程
V2说明:本部分为研究核心,内容量大幅扩展。图像理解为最高优先级。
第11章:多模态数据工程概述
11.1 多模态训练数据的核心地位
MM1原文引述:
"A careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving SOTA few-shot results in multimodal pre-training."
—— MM1, McKinzie et al., 2024.03, Section 3
11.2 MLLM数据规模的爆发式增长(V2更新至2026.03)
| LLaMA 4 | 2025.04 | 原生多模态40T+22T | Early Fusion+社交媒体 |
| InternVL3 | 2025.04 | 原生联合预训练 | NMM范式 |
11.3 三阶段训练范式的确立
传统范式(LLM + Adapter):
1. 视觉编码器预训练
2. 视觉-语言对齐
3. 指令微调(SFT)
新兴范式——原生多模态(Native Multimodal Model, NMM):
| InternVL3 | |
| LLaMA 4 | |
| Gemini |
11.5 各阶段数据配比的时效性验证(V2新增)
11.5.1 MM1配比(2024.03)的最新验证状态
原始结论:交错45% / 图文对45% / 纯文本10%
后续验证:
| 70% 纯文本 : 30% 视觉 | |||
时效性评估: ⚠️ 部分过时
结论:不存在通用最优配比。MM1的45/45/10可作为中等规模预训练的起点参考,但需要根据具体场景调整。
第12章:图文预训练数据
12.2 交错图文文档(Interleaved Image-Text Documents)
术语定义:
- 交错图文文档:自然存在于网页中的图文混合内容,图像和文本以自然顺序交错排列,而非简单的图文对。
VILA实验的详细数据:
原文引述:
"Reformatting to<im1><im2><txt1><txt2>: 0-shot -4.4%, 4-shot -37.5%!"
—— VILA, Lin et al., 2023.12
| MMC4 (interleaved) | 68.7 | 70.9 |
关键发现:移除交错结构比移除图像本身影响更大。
第13章:重标注(Recaptioning)范式演进
13.4 重标注方法Tutorial(V2新增)
术语定义:
- Recaptioning(重标注):使用更强大的视觉-语言模型重新生成图像描述,以替代原始的噪声alt-text标签。
- CapFilt(Caption Filtering):BLIP提出的标注过滤方法,结合标注生成和噪声过滤。
13.4.1 BLIP CapFilt具体流程
使用预训练的captioner生成合成标注 使用filter模型评估标注质量 组合原始alt-text和高质量合成标注 迭代改进:使用过滤后的数据重新训练模型
第14章:多模态指令微调数据
14.2 数据选择效率前沿——80%数据是冗余的(V2增强)
14.2.1 ICONS详解
核心发现:
80%的视觉指令微调数据是冗余的
| 98.6% | ||||
| 98.8% | ||||
| 99.8% |
14.2.2 COMPACT详解:10%合成数据超越100%全量真实数据
核心创新:从数据选择转向数据合成
方法论:
- 原子能力:识别单独的视觉技能(物体识别、计数、空间推理等)
- 组合问题:将多个原子能力组合成单个问题
- 合成而非选择:创造新的更丰富的问题,而非从现有池中选择
效率结果:
| COMPACT | 10% | 100.2% | +0.2% |
复杂基准提升更显著:
- MM-Vet: +8.6%
- MMStar: +2.9%
关键洞察:样本复杂度比样本数量更重要——每个样本包含多个原子能力使训练更高效。
与数据选择方法对比:
| COMPACT | 合成(组合) | 90% | 100.2% |
第15章:多模态Scaling Law与数据配比
15.4 实践数据配方(V2增强,含最新模型)
最小预算($200-$1K)
使用预训练的开源模型(LLaVA, Qwen-VL) SFT数据:LLaVA-ICONS-133K(20%高效子集) 避免从头预训练
中等预算($1K-$16K)
基于开源基座进行SFT 数据:Cambrian-ICONS-1.4M 参考VILA的1:1交错:图文对配比
可观预算($16K-$100K)
可考虑Stage 1.5 mid-training 合成数据比例可达99.8%(LLaVA-OV发现)
工业预算($100K+)
参考LLaMA 4、Qwen3的原生多模态策略 考虑原生多模态预训练(InternVL3范式)
第16章:MLLM数据处理Pipeline
16.5 多模态数据Pipeline留存率(V2新增)
16.5.1 InternVL渐进过滤留存率
| 82.6% | |||
| 17.0% | |||
| ~0.4% |
关键洞察:从对比学习到SFT,数据规模缩减约1500倍。
16.5.2 各环节典型留存率(多模态)
第17章:2025-2026年多模态数据工程前沿
17.4 RL作为第四训练阶段
术语定义:
- Cascade RL(级联强化学习):结合离线RL和在线RL的两阶段框架,离线阶段用于稳定收敛,在线阶段用于精细对齐。
- VisualPRM(Visual Process Reward Model):视觉过程奖励模型,用于评估多模态推理的中间步骤质量。
InternVL3.5级联RL详解:
| +16%推理性能 | |||
开源资源:
- MMPR-v1.2:离线RL训练数据(HuggingFace)
- MMPR-Tiny:在线RL训练数据(HuggingFace)
- VisualPRM400K:视觉过程奖励模型训练数据
Kimi k1.5的RL数据策略:
原文引述:
"Three key properties define a high-quality RL prompt set: Diverse Coverage, Balanced Difficulty, Accurate Evaluability."
—— Kimi k1.5, 2025.01, Section 2.1
RL Prompt Set构建三原则:
1. 多样性覆盖:STEM、编程、通用推理,标签系统确保各学科均衡
2. 难度均衡:使用SFT模型10次采样评估难度
3. 准确可验证性:排除选择题、判断题、证明题;N=8次猜测测试排除易猜中的题目
17.7 最新头部多模态模型数据策略(V2新增)
17.7.1 LLaMA 4数据策略
原生多模态:Early Fusion,从训练开始就是多模态。
数据来源创新:
- 公开可用数据(类似LLaMA 3)
- 授权数据(商业合作)
- Meta产品数据(新增):Instagram/Facebook公开帖子、用户与Meta AI的交互
17.7.2 Kimi k1.5 / Kimi K2.5数据策略
Kimi k1.5(2025.01,arXiv:2501.12599):
视觉-文本配比:最终达30%(预训练最终阶段)
原文引述:
"Extensive scaling experiments indicate that most of the base model performance comes from improvements in the quality and diversity of the pretraining data."
—— Kimi k1.5, 2025.01
多维度质量过滤:
1. Rule-based filtering
2. FastText分类
3. Embedding相似度分析
4. LLM质量评估
Kimi K2.5(2026.02,arXiv:2602.02276)—— 开源多模态Agentic模型:
K2.5代表了从传统训练范式向联合优化范式的重大转变:
核心训练创新:
1. Joint Text-Vision Pre-training:文本和视觉从预训练开始联合优化
2. Zero-Vision SFT:SFT阶段的新技术
3. Joint Text-Vision RL:强化学习扩展到多模态联合优化
原文引述:
"K2.5 emphasizes the joint optimization of text and vision so that two modalities enhance each other. This includes a series of techniques such as joint text-vision pre-training, zero-vision SFT, and joint text-vision reinforcement learning."
—— Kimi K2.5, 2026.02
Agent Swarm框架:
- 自主并行Agent协调
- 动态任务分解为异构子问题
- 延迟降低4.5×
原文引述:
"Agent Swarm also reduces latency by up to 4.5× over single-agent baselines."
—— Kimi K2.5, 2026.02
性能:在编程、视觉、推理、Agentic任务多领域达SOTA。开源:发布了post-trained模型权重。
17.7.3 Qwen3数据策略
- 36T tokens
,119种语言和方言 - 三阶段预训练
: Stage 1 (通用):30T tokens,4096序列长度 Stage 2 (推理):5T高质量tokens Stage 3 (长上下文):数千亿tokens,32768序列长度 使用Qwen2.5-VL从PDF提取数万亿tokens - 实例级数据配比优化
(非领域级)
原文引述:
"Unlike previous studies that optimize the data mixture at the data source or domain level, our method optimizes the data mixture at the instance-level through extensive ablation experiments on small proxy models."
—— Qwen3 Technical Report, 2025.05
17.7.4 InternVL3 / InternVL3.5数据策略
InternVL3(2025.04)—— 原生多模态预训练:
- 多模态数据+纯文本数据联合预训练
- V2PE可变视觉位置编码
- MPO混合偏好优化
InternVL3.5(2025.08)—— 级联RL:
- Cascade RL:离线RL→在线RL
- +16%推理性能提升
- VisualPRM400K用于过程奖励模型
17.7.5 Gemini 2.5 / 3.0数据策略
已知信息(基于Gemini 1.0报告):
原文引述:
"Gemini models are trained jointly across image, audio, video, and text data for the purpose of building a model with both strong generalist capabilities across modalities."
—— Gemini 1.0 Technical Report, 2023.12
Google数据优势:
- YouTube(视频+字幕)
- Google搜索(网页索引)
- Google Books
- Google Translate(多语言平行语料)
技术报告状态: ⚠️ 截至2026年3月,Gemini 2.5/3.0完整技术报告未发布
17.7.6 ERNIE 5 / Doubao数据策略
ERNIE(百度):
- ⚠️ 技术报告披露有限
- 知识增强预训练(ERNIE原创方法)
- 可能利用百度搜索、百科、贴吧等生态数据
Doubao(字节跳动):
- ⚠️ 技术报告未发布
- 可能利用抖音/TikTok(视频+字幕)、今日头条、番茄小说等
- 视频-文本数据可能是独特优势
17.7.7 MiMo-V2-Flash数据策略(小米,2026.01)
arXiv: 2601.02780
模型架构:
| 参数 | 数值 |
|------|------|
| 总参数量 | 309B |
| 激活参数量 | 15B |
| 架构 | MoE |
| 原生上下文 | 32K |
| 扩展上下文 | 256K |
预训练数据规模:27万亿tokens (27T) —— 目前公开披露的最大规模之一
原文引述:
"The model is pre-trained on 27 trillion tokens with Multi-Token Prediction (MTP), employing a native 32k context length and subsequently extended to 256k."
—— MiMo-V2-Flash, 2026.01
关键技术创新:
- Multi-Token Prediction (MTP)
: 预训练使用多Token预测 推理时复用为推测解码的draft model 2.6×解码加速,最高3.6接受长度
Multi-Teacher On-Policy Distillation (MOPD):
领域专业化教师模型(通过大规模RL训练) Dense token-level reward 学生模型完美继承教师专长
原文引述:
"To efficiently scale post-training compute, MiMo-V2-Flash introduces a novel Multi-Teacher On-Policy Distillation (MOPD) paradigm. In this framework, domain-specialized teachers (e.g., trained via large-scale reinforcement learning) provide dense and token-level reward, enabling the student model to perfectly master teacher expertise."
—— MiMo-V2-Flash, 2026.01
性能对比:
"MiMo-V2-Flash rivals top-tier open-weight models such as DeepSeek-V3.2 and Kimi-K2, despite using only 1/2 and 1/3 of their total parameters, respectively."
—— MiMo-V2-Flash, 2026.01
开源内容:模型权重 + 3层MTP权重
17.7.8 各模型数据策略对比表
| LLaMA 4 | ||||
| Qwen3 | ||||
| MiMo-V2-Flash | 27T | |||
| Kimi K2.5 | ||||
| Kimi k1.5 | ||||
| InternVL3.5 | ||||
| Gemini 2.5 | ||||
| ERNIE 5 | ||||
| Doubao |
第17.5章:多模态数据转换与增强方法(V2新增专题章节)
17.5.1 多模态数据转换方法分类
17.5.2 重标注方法详解
ShareGPT4V流程:
1. 使用GPT-4V对图像生成详细描述
2. 蒸馏到更小的标注模型
3. 大规模应用到图文数据集
第三部分:综合分析与建议
第19章:时间线分析与里程碑
19.1 LLM数据工程关键里程碑(2019-2026)
| 2026 | 多维Scaling Law;原生多模态成为趋势 |
19.2 MLLM数据工程关键里程碑(2021-2026)
| 2026 | LLaMA 4原生多模态;VLM提取PDF成为趋势 |
第20章:共识与争议分析
20.1 已达成共识
20.2 活跃争议
20.4 结论时效性验证报告(V2新增)
仍然适用的结论 ✅
交错数据对few-shot关键(VILA, MM1) 去重提升性能 质量胜过数量
部分过时的结论 ⚠️
MM1 45/45/10配比——需要根据模型规模和架构调整 4 epoch重复规则——Θ(log N)理论提供更精确的函数 VL连接器不重要——原生多模态范式下可能不适用
需要谨慎引用的结论
基于小规模实验的配比优化(20%可能失败) 固定的数据配比(可能与模型规模交互)
第21章:数据工程最佳实践与推荐
21.1 LLM预训练数据Pipeline推荐
- HTML提取
:使用MinerU-HTML而非Trafilatura(+18.2% ROUGE-N) - 去重
:三层去重(URL + 精确 + 模糊) - 质量过滤
:多维标注而非单一CQF - 域再平衡
:上采样STEM,下采样娱乐
21.2 MLLM训练数据Pipeline推荐
- 预训练
:混合交错+图文对+纯文本 - 质量递进
:对比学习→生成训练→SFT,质量要求递增 - SFT数据选择
:使用ICONS方法选择20%高价值数据 - 考虑原生多模态
:新项目可参考InternVL3/LLaMA 4范式
21.5 关键数字速查
第22章:方法实操Tutorial(V2新增章节)
22.1 数据去重Tutorial
22.1.1 MinHash + LSH实现步骤
# 伪代码示例
def minhash_dedup(documents, n_gram=5, n_hashes=128, threshold=0.8):
# Step 1: 生成n-gram集合
ngram_sets = [set(ngrams(doc, n_gram)) for doc in documents]
# Step 2: 计算MinHash签名
signatures = [minhash(ngrams, n_hashes) for ngrams in ngram_sets]
# Step 3: LSH分桶
buckets = lsh_bucketing(signatures, bands=n_hashes//4)
# Step 4: 精确相似度计算
duplicates = []
for bucket in buckets:
for i, j in combinations(bucket, 2):
if jaccard(ngram_sets[i], ngram_sets[j]) > threshold:
duplicates.append((i, j))
# Step 5: 选择代表性文档
return select_representatives(duplicates)
22.2 数据质量过滤Tutorial
22.2.2 PreSelect预测性选择实现
- 训练proxy模型
:在少量数据上训练小模型 - 计算预测损失
:对候选数据计算模型损失 - 选择高影响数据
:选择损失变化最大的样本
22.4 多模态重标注Tutorial
22.4.1 BLIP CapFilt完整流程
- 准备
:获取预训练的BLIP模型 - 生成
:对每张图像生成多个候选标注 - 过滤
:使用ITM/ITC模型评估图文匹配度 - 组合
:混合高质量合成标注和原始alt-text - 迭代
:使用新数据重新训练,重复过程
第23章:未来展望与开放问题
23.1 短期展望(2026-2027)
原生多模态成为主流 VLM用于数据提取(Qwen3范式) 多维Scaling Law实用化
23.2 中期展望(2027-2029)
统一的多模态-语言数据工程 Agent驱动的自动化数据策展 跨模态数据转换的标准化
23.3 核心开放问题
- 统一多维Scaling Law
- 跨规模预测的可靠性边界
- 原生多模态vs传统范式的最优数据策略
- 合成数据的长期影响
- 数据墙的最终解决方案
第18章:音频与多模态数据(简要)
18.1 音频数据在多模态模型中的角色
音频数据正逐渐成为多模态模型的重要组成部分:
- GPT-4o:支持音频输入输出
- Gemini 2.0:原生多模态包含音频
- 语音-文本对齐:类似于图文对齐的挑战
18.2 数据处理系统的多模态支持
18.3 音频数据工程的关键挑战
- 采样率和质量
:不同音频来源的质量差异 - 语音识别噪声
:ASR转录的错误 - 多语言音频
:口音、方言的处理 - 时序对齐
:音频与文本的精确对齐
附录
A. 术语表(V2增强)
| CQF | |
| MinHash | |
| SemDeDup | |
| DSIR | |
| DoReMi | |
| Interleaved | |
| Recaptioning | |
| Mid-Training | |
| Multimodal Tax | |
| NMM |
B. 引用的论文完整列表
(见paper_index.md)
报告撰写日期:2026年3月24日
版本:V2.0
字数:约160,000字(含引述)


