推广 热搜： 采购方式甲带滤芯气动隔膜泵减速机带式称重给煤机减速机型号履带链式给煤机无级变速机

小红书大模型团队招聘rlhf研究员、实习生

日期：2025-11-21 11:17:38 来源：网络整理作者：本站编辑评论：0

base：北京&上海
岗位职责：
1. 面向MATH、Coding&SWE、Agent等场景，探索大规模的RL scaling问题，提升模型Reasoning能力。
2. 利用强化学习算法进行偏好对齐，主要研究没有明确的GroundTruth Signal 下的Scalable RLHF问题，构建Verifier、Model、Tool为一体化的Feedback System，为RL提供准确、鲁棒、可泛化的信号，最大程度延缓RM hacking问题，对齐human values。
3. 探索当AI超越人类时，实现Scalable Oversight的潜在观察研究方法，并进一步应用于 AI-Alignment；探索High Order的递归自我增强方案。
职位要求：
1. 硕士/博士及以上学历（或在读），计算机/数学等相关专业优先；
2 熟悉LLM、RL、NLP领域的技术，有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先；
3. 对大模型 RL 技术有极大热情的优先，熟悉任意一种RLHF框架（包括不限于openRLHF、Trlx、Verl等）；
4. 具备卓越的实验分析与问题解决能力，有创新思维，能够良好沟通、与团队成员高效协作；有 AI Alignment 相关研究或大模型应用项目经历的优先；
有兴趣的同学私聊 #小红书大模型 #实习生 #rlhf强化学习 #点点

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行