
base: 北京&上海
岗位职责:
1. 面向MATH、Coding&SWE、Agent等场景,探索大规模的RL scaling问题,提升模型Reasoning能力。
2. 利用强化学习算法进行偏好对齐,主要研究没有明确的GroundTruth Signal 下的Scalable RLHF问题,构建Verifier、Model、Tool为一体化的Feedback System,为RL提供准确、鲁棒、可泛化的信号,最大程度延缓RM hacking问题,对齐human values。
3. 探索当AI超越人类时, 实现Scalable Oversight的潜在观察研究方法,并进一步应用于 AI-Alignment;探索High Order的递归自我增强方案。
职位要求:
1. 硕士/博士及以上学历(或在读),计算机/数学等相关专业优先;
2 熟悉LLM、RL、NLP领域的技术,有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先;
3. 对大模型 RL 技术有极大热情的优先,熟悉任意一种RLHF框架(包括不限于openRLHF、Trlx、Verl等);
4. 具备卓越的实验分析与问题解决能力,有创新思维,能够良好沟通、与团队成员高效协作;有 AI Alignment 相关研究或大模型应用项目经历的优先;
有兴趣的同学私聊 #小红书大模型 #实习生 #rlhf强化学习 #点点
岗位职责:
1. 面向MATH、Coding&SWE、Agent等场景,探索大规模的RL scaling问题,提升模型Reasoning能力。
2. 利用强化学习算法进行偏好对齐,主要研究没有明确的GroundTruth Signal 下的Scalable RLHF问题,构建Verifier、Model、Tool为一体化的Feedback System,为RL提供准确、鲁棒、可泛化的信号,最大程度延缓RM hacking问题,对齐human values。
3. 探索当AI超越人类时, 实现Scalable Oversight的潜在观察研究方法,并进一步应用于 AI-Alignment;探索High Order的递归自我增强方案。
职位要求:
1. 硕士/博士及以上学历(或在读),计算机/数学等相关专业优先;
2 熟悉LLM、RL、NLP领域的技术,有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先;
3. 对大模型 RL 技术有极大热情的优先,熟悉任意一种RLHF框架(包括不限于openRLHF、Trlx、Verl等);
4. 具备卓越的实验分析与问题解决能力,有创新思维,能够良好沟通、与团队成员高效协作;有 AI Alignment 相关研究或大模型应用项目经历的优先;
有兴趣的同学私聊 #小红书大模型 #实习生 #rlhf强化学习 #点点


