职位描述
1.主导大模型推理引擎的架构设计与核心模块开发,支撑千亿参数模型的高效分布式推理。
2.研发面向GPU/NPU等异构计算平台的高性能算子,提升硬件利用效率。
3.参与模型低精度量化,图优化,编译优化等性能优化工作。
4.攻克分布式推理中的动态负载均衡、通信优化、显存管理等核心技术难题。
5.跟踪学术界与工业界前沿技术(如vLLM、TGI、TensorRT
-LLM等),推进框架迭代。
任职要求
1.计算机、数学、电子工程、通信等相关专业本科及以上学历.
2.熟练掌握C++/Python,具备大型项目代码架构设计能力.
3.熟悉Transformer架构及大模型推理相关技术(如FlashAttention、PagedAttention、Continuous Batching).
4.有实际大模型部署及调优经验,熟悉量化(INT8/FP8)等优化手段.