推广 热搜: 采购方式  滤芯  带式称重给煤机  甲带  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

Grokking 动力学与相图分析报告 (codex直出)

   日期:2026-06-26 23:58:54     来源:网络整理    作者:本站编辑    评论:0    
Grokking 动力学与相图分析报告 (codex直出)

摘要

本报告整理了我们在 modular division 任务上完成的 grokking 复现实验和相图分析。第一部分复现 arXiv:2201.02177v1 Figure 1 的核心现象:模型先快速记忆训练集,随后在长时间训练后突然获得验证集泛化能力。第二部分借鉴 arXiv:2205.10343v2 Figure 6 的相图方法,在同一 mod_division, p=97 体系上扫描 decoder learning rate 和 decoder weight decay,把每个超参数格点归入 memorizationgrokkingcomprehension 或 confusion 四类 phase。

核心结论是:在无 weight decay 或弱正则区域,模型多表现为先记忆而不及时泛化;中等 decoder weight decay 形成宽的 grokking 带;过强 weight decay 会让训练本身也无法达标,进入 confusion;在 decoder_weight_decay=1, decoder_lr=3e-3 处出现一个 comprehension 格点,即训练和验证几乎同步达标。

研究问题

我们关心两个层次的问题:

  1. 在真实训练日志中,modular division transformer 是否能复现经典 grokking 动力学。

  2. 在同一体系上,学习率和 weight decay 如何改变模型最终落入的 phase。

第一张关键图回答时间动力学问题,第二张关键图回答超参数空间结构问题。

实验体系

任务为模 97 除法:

x / y mod 97, 其中 0 <= x < 97, 0 < y < 97

总样本数为 97 * 96 = 9312,训练集比例为 0.5。输入 token 为 [x, op, y, =],模型预测 x / y mod 97

模型为 2 层 decoder-only causal transformer:

参数
d_model128
n_heads4
n_layers2
d_mlp512
train_fraction0.5
seed0

Figure 1 复现实验使用 Adam,lr=1e-3,无 weight decay,训练到 1_000_000 steps。相图实验使用分组优化器:embedding 作为 representation,decoder 部分扫描 learning rate 和 weight decay。

关键图 1:完整 grokking 动力学

左图是本报告后续相图分析的基础。它显示在 mod_division, p=97 上,训练准确率先快速上升,验证准确率长时间停留在随机附近,随后在约 10^5 steps 附近跃升。这正是 grokking 的典型时间结构:模型先记忆训练集,再经过很长延迟后学到可泛化规则。

从真实日志的关键数值如下:

指标stepaccuracy
训练准确率首次超过 90%3930.9296
验证准确率首次超过 90%1008930.9302
训练准确率首次超过 99%4610.9953
验证准确率首次超过 99%1630630.9903
最终训练准确率10000001.0000
最终验证准确率10000000.9923

按 90% 阈值计算,训练达标和验证达标之间相隔 100500 steps。这个延迟说明模型的“记忆阶段”和“泛化阶段”在时间上明显分离。

相图判据

相图采用 arXiv:2205.10343v2 Figure 6 的口径。阈值、截止步数和延迟线为:

threshold = 0.9
deadline_steps = 100000
delay_steps = 1000

phase 定义如下:

phase判据
comprehension训练和验证都在 deadline 内超过阈值,且验证达标比训练达标晚不到 delay_steps
grokking训练和验证都在 deadline 内超过阈值,但验证明显滞后
memorization训练在 deadline 内超过阈值,验证没有
confusion训练在 deadline 内也没有超过阈值

我们扫描的范围为:

decoder learning rate: 1e-5, 3e-5, 1e-4, 3e-4, 1e-3, 3e-3, 1e-2
decoder weight decay: 0, 0.03, 0.1, 0.3, 1, 3, 10, 20

关键图 2:扩展相图

这张图来自完整相图输出,56 个格点的 phase 计数为:

phasecount
grokking19
confusion19
memorization17
comprehension1

完整网格如下,其中 Co 表示 comprehension,G 表示 grokking,M 表示 memorization,Cf 表示 confusion。

decoder weight decay \ decoder lr1e-53e-51e-43e-41e-33e-31e-2
0MMMMMGM
0.03MMMMGGG
0.1MMMMGGG
0.3MMGGGGCf
1GGGGGCoCf
3GMGGCfCfCf
10CfCfCfCfCfCfCf
20CfCfCfCfCfCfCf

唯一的 comprehension 格点为:

decoder lrdecoder weight decaytrain 90% stepval 90% stepdelayfinal val acc
3e-3134211468040.9759

结果解释

1. Grokking 是中等正则区域的主导现象

在 decoder_weight_decay=0.3 和 1 附近,很多 learning rate 都进入 grokking 或 comprehension。这个区域的共同点是,正则强度足以抑制纯记忆解,但又没有强到破坏训练集拟合。模型仍会先学会训练集,但验证集泛化会在之后补上。

这和 Figure 1 的长时间动力学一致:同一任务可以在某些超参数下表现为延迟泛化,而不是训练失败或单纯记忆。

2. 低 weight decay 更容易停在 memorization

在 weight_decay=0, 0.03, 0.1 的低 learning rate 区域,大多数格点是 memorization。模型能在 deadline 内把训练集拟合到 90% 以上,但验证集没有同步达到 90%。这说明无正则或弱正则时,训练动力学优先找到记忆训练集的解。

一个重要例子是 weight_decay=0, lr=1e-3。它在 100000 step 的相图 deadline 内被判为 memorization,但在 100 万步长实验中最终会 grok。这说明 phase 分类依赖观测窗口:同一训练轨迹在较短窗口中看起来是 memorization,在更长窗口中则显示为 grokking。

3. 过强 weight decay 导致 confusion

当 decoder_weight_decay=10 或 20 时,所有 learning rate 都进入 confusion。此时训练准确率本身也无法在 100000 步内超过 90%。这说明正则不是单调有益的:它可以帮助从记忆解走向泛化解,但过强时会压制模型对训练数据的基本拟合。

4. Learning rate 改变 phase 边界,且不是简单单调

learning rate 提高通常能缩短训练和验证达标时间,但过高时会把系统推入 confusion。例如在 weight_decay=1 下,lr=3e-3 是唯一 comprehension,而 lr=1e-2 直接进入 confusion。相图中的边界因此是二维的,不应只用单个超参数解释。

与论文图的关系

我们的 Figure 1 复现实验对应 arXiv:2201.02177v1 中 grokking 的经典观察:训练准确率先到达高水平,验证准确率在长时间后突然上升。

我们的相图分析借鉴 arXiv:2205.10343v2 Figure 6 的分类框架,但没有照搬其 toy model 设置,而是把同样判据移植到已经复现过 grokking 的 modular division transformer 上。因此,报告中的相图不是论文 Figure 6 的逐像素复刻,而是“在前一篇 Figure 1 体系上的同类 phase 分析”。

局限与后续方向

当前相图是 seed=0 的单 seed 结果。phase 边界附近可能存在随机种子敏感性,后续应对关键边界格点做多 seed 重复,尤其是 weight_decay=0.3 到 3lr=1e-4 到 1e-2 之间的区域。

第二,phase 分类依赖 deadline_steps=100000。Figure 1 长轨迹已经说明,有些格点如果给到更长预算,会从 memorization 转成 grokking。因此,严格说相图描述的是“在给定观察窗口内的 phase”,不是无限时间极限。

第三,本报告使用 modular division transformer 体系,而 arXiv:2205.10343v2 的 Figure 6 来自其有效理论和相关 toy 设置。要进一步对齐论文,可在 mod_addition 任务上重复同样相图扫描,并比较两种任务的 phase 边界。

结论

我们完成了从单条 grokking 训练曲线到二维 phase diagram 的连贯分析。Figure 1 的长轨迹证明该 modular division transformer 存在典型延迟泛化;扩展相图进一步显示,这种延迟泛化不是孤立现象,而是在中等正则和合适 learning rate 区域形成稳定带状结构。弱正则偏向 memorization,强正则导致 confusion,中间区域则支持 grokking,局部甚至达到 comprehension。

这说明 grokking 在该体系中不仅是时间轴上的突然跃迁,也是超参数空间中可定位、可扫描、可比较的 phase 现象。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON