推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  履带  减速机型号  带式称重给煤机  链式给煤机  无级变速机 

MiniMax新研究:tokenizer也有scaling law

   日期:2025-12-20 06:51:08     来源:网络整理    作者:本站编辑    评论:0    
MiniMax新研究:tokenizer也有scaling law

MiniMax新研究:tokenizer也有scaling law

MiniMax新研究:tokenizer也有scaling law

MiniMax新研究:tokenizer也有scaling law

MiniMax新研究:tokenizer也有scaling law

MiniMax新研究:tokenizer也有scaling law

MiniMax新研究:tokenizer也有scaling law

MiniMax新研究:tokenizer也有scaling law

MiniMax新研究:tokenizer也有scaling law

MiniMax新研究:tokenizer也有scaling law

当前的视觉 tokenizer 预训练范式存在一个亟需解决的难题:更好的像素级准确性,并不意味着更高质量的生成。

从结果上来看,将大量计算资源投入视觉 tokenizer 预训练后,并不会带来更好的生成性能。

为帮助行业解决这一难题,MiniMax海螺视频团队开源了一个统一的视觉 tokenizer 预训练框架 VTP(Visual Tokenizer Pre-training)。

具体而言,他们将这一现象定义为“预训练 scaling”问题,并提出了一项必要的转变:为了实现有效的生成,潜在空间必须简洁地表征高级语义,并率先实现了图文对比、自我监督和重建损失的联合优化。

研究结果表明:

1️⃣ 在 DiT 训练中,相同的浮点运算次数下,VTP 扩展有助于更好的生成;
2️⃣ 传统的自编码器无法扩展用于扩散生成式模型;
3️⃣ 理解是提高学习能力扩展的关键驱动因素;
4️⃣ 当涉及表征学习时,可以看到参数、数据和训练的可扩展性。

经过大规模预训练后,他们的 tokenizer 表现出了有竞争力的性能(在 ImageNet 上达到 78.2 的零样本准确率,以及 0.36 的 rFID),且在生成任务上的收敛速度比 SOTA 蒸馏方法快了 4.1 倍。

更重要的是,VTP 具有高效的可扩展性:在不修改标准 DiT 训练规范的情况下,仅通过在预训练 VTP 中投入更多 FLOPS,就能在下游生成人物中实现 65.8% 的 FID 提升,而传统的自编码器在投入 1/10 FLOPS 时便早早陷入停滞。

这项工作的一个重要价值是,基于对 tokenizer 的扩展(scaling)性质的研究,VTP 提供了一个新视角,即“除了在主模型上投入更多参数/算力/数据之外,还可以通过 tokenizer 的 scaling 来提升生成系统的性能”

他们发布了技术报告,并开源了预训练权重。

MiniMax 最近在底层模型上的突破确实不错,而且能持续在社区内分享研究成果,确实有点期待他们新一代的视频模型了。

paper 1171:Towards Scalable Pre-training of Visual Tokenizers for Generation

#AIChannel #大模型 #ai #MiniMax #AI视频 #视觉tokenizer #scaling_law #学术 #带你一起读论文
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON