推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  带式称重给煤机  减速机型号  履带  链式给煤机  无级变速机 

小红书大模型团队招聘rlhf研究员、实习生

   日期:2025-11-21 11:17:38     来源:网络整理    作者:本站编辑    评论:0    
小红书大模型团队招聘rlhf研究员、实习生

小红书大模型团队招聘rlhf研究员、实习生

base: 北京&上海
岗位职责:
1. 面向MATH、Coding&SWE、Agent等场景,探索大规模的RL scaling问题,提升模型Reasoning能力。
2. 利用强化学习算法进行偏好对齐,主要研究没有明确的GroundTruth Signal 下的Scalable RLHF问题,构建Verifier、Model、Tool为一体化的Feedback System,为RL提供准确、鲁棒、可泛化的信号,最大程度延缓RM hacking问题,对齐human values。
3. 探索当AI超越人类时, 实现Scalable Oversight的潜在观察研究方法,并进一步应用于 AI-Alignment;探索High Order的递归自我增强方案。
职位要求:
1. 硕士/博士及以上学历(或在读),计算机/数学等相关专业优先;
2 熟悉LLM、RL、NLP领域的技术,有 ICML、ICLR、NeurIPS、ACL、CVPR、AAAI 等顶级学术会议发表过有影响力研究成果的优先;
3. 对大模型 RL 技术有极大热情的优先,熟悉任意一种RLHF框架(包括不限于openRLHF、Trlx、Verl等);
4. 具备卓越的实验分析与问题解决能力,有创新思维,能够良好沟通、与团队成员高效协作;有 AI Alignment 相关研究或大模型应用项目经历的优先;
有兴趣的同学私聊
#小红书大模型 #实习生 #rlhf强化学习 #点点
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON