推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  减速机型号  带式称重给煤机  履带  无级变速机  链式给煤机 

阿里云高性能网络团队招聘

   日期:2025-11-03 13:28:30     来源:网络整理    作者:本站编辑    评论:0    
阿里云高性能网络团队招聘

阿里云高性能网络团队招聘

面向对象:社招、应届生、实习生
团队介绍:阿里云高网团队为阿里内部所有业务提供高性能通信服务保障和性能优化。提供从网卡、高性能网络协议、通信库、性能分析/仿真、稳定性运维等全套的AI Infra通信产品及解决方案。
团队优势:和通义算法及框架团队背靠背合作,可以参与到业界最顶尖的模型设计、训练、推理优化的过程。团队整体较年轻化,整体氛围好,年轻人成长空间大,入职有师兄悉心辅导,帮助landiing,无老登倚老卖老。鼓励创新、实事求是、长期主义。兼顾工程和学术,25年siggcom8篇论文。
岗位1:通信与框架协同优化
职责:
1、为通义的训练的和推理业务提供高性能通信保障,包括问题定位,性能分析,性能优化等。
要求:
1、对主流通信库软件如NCCL、DeepEP有深入理解,有过相关开发或者调优经验的优先;
2、对Megatron、sglang等训练和推理引擎比较熟悉、深入理解各种并行以及通信和计算overlap的原理,有相关分布式训练和推理性能分析、优化经验的优先;
岗位2:AI高网架构师
职责:
1、负责调研AI大模型训练及推理的前沿技术变化,分析前沿技术变化对网络的影响以及技术选型方向;
2、负责对接客户,分析客户需求,发现和分析客户性能问题,帮忙客户进行性能优化;
3、负责阿里云AI高网方向的产品和方案的整体架构设计和创新,并推动落地和交付;
要求:
1、熟悉AI网络关键技术,对网卡、高性能网络协议、通信库至少有一项有深入理解,并且有相关工作经验,有相关开发、测试、调优经验者优先;
2、对Megatron、sglang等训练和推理引擎比较熟悉、深入理解各种并行以及通信和计算overlap的原理,有相关分布式训练和推理性能分析、优化经验的优先;
岗位3:AI Infra SRE工程师
职责:
1、负责定位阿里云线上AI训练和推理业务的各种故障,包括hang故障以及性能问题定位;
2、基于运维经验设计和优化各种定位工具,包括目前阿里云上的C4D、Perftracker等hang和slow定位工具。
要求:
1、熟悉AI网络关键技术,对交换机、网卡、容器网络、NCCL至少有一项有深入理解,并且有相关的运维经验;
2、对pytorch、Megatron、sglang等训练和推理引擎比较熟悉,有关大规模训练故障定位经验者优先;
#大厂 #找工作别走弯
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON