团队氛围nice,薪资有竞争力,总体不算卷,公司前景很好,大牛很多,能真正学到东西的地方
内推简历发送:634672575@qq.com
## 大模型训练框架系统工程师
职责:
1.负责大语言模型、多模态模型的预训练和后训练框架研究与开发
2.与公司算法团队深度合作,为大模型进行算法与系统的联合优化
3.进行前瞻性技术调研且进行自主创新,保持公司在大模型系统方面的技术领先地位
要求:
1.熟练掌握Linux环境下的C/C++与Python语言;
2.有以下至少一项的背景知识或经验:分布式训练、CUDA算子优化、通信算子、训练或推理框架、在线推理服务、RDMA通信
3.具有独立解决问题的能力,良好的团队合作精神;
4.有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项
-深入研究过至少一种机器学习框架(Tensorflow / PyTorch 或其他框架)或分布式训练框架(Megatron/DeepSpeed/VeRL等)的底层架构和机制;
-有研究生或博士阶段的计算机系统方向(包含分布式系统,并行计算,网络,存储等)研究背景
-训练过深度学习模型并进行过算法调优,熟悉强化学习训练过程
-在顶级会议上发表过论文者优先;深入了解大语言模型相关技术及应用,有 AI 工程落地经验者优先
## 大模型推理优化系统工程师
岗位描述
1.参与分布式大模型推理框架的开发与优化,提升推理性能与吞吐量;
2.针对不同场景的 LLM 请求特点,优化 GPU 计算流程,打造业内领先的高效 LLM 推理引擎;
3.调研并引入前沿机器学习系统技术,推动系统架构的持续优化升级;
4.与算法团队深度合作,探索算法
-系统协同优化方案,提升整体推理效率。
任职要求
1.计算机、电子、自动化、软件等相关专业;
2.具备操作系统、计算机体系结构等基础知识,对底层性能优化有浓厚兴趣;
3.熟悉SGLang、vLLM、Megatron 等框架,有开源项目贡献或相关经验者优先;
4.熟悉CUDA编程和GPU上性能优化,有Triton、CUTLASS等开发经验者优先;
5.具备良好的沟通能力和团队协作精神。
岗位亮点
1.团队技术氛围浓厚,提供充足的GPU计算资源和极具挑战的技术场景,能够快速成长;
2.深入大模型推理优化,有机会参与前沿技术研究。
## AI网络系统平台研发工程师
岗位职责:构建AGI超大规模训练集群自研网络系统。
1.超大规模高性能网络研发,负责分布式大模型训练/推理任务的通信优化;
2.基础网络服务系统和管控平台研发,不断提升大规模集群网络自动化水平和稳定性;
3.持续探索AIDC网络领域的新技术,持续保持在技术上的竞争力。
岗位要求
1.计算机相关专业本科及以上学历;
2.优秀的代码功底,编程能力和数据结构基础扎实,精通C++/C/Python语言;
3.有极强的自驱力和责任心,对网络性能和可用性问题有强烈的好奇心;
4.良好的技术沟通及协作能力。
加分项
1.有RDMA/NCCL/MPI/RPC等相关领域开发的经验者;
2.有高性能框架如DPDK和eBPF等相关领域相关开发经验者;
3.有网络无人值守平台和自动化建设交付平台等相关领域开发经验者。