感兴趣的发送简历:zhangxuesen@xiaohongshu.com
## 岗位名称
-搜索广告算法召回实习生(CUDA算子/模型量化/MFU优化)
## 岗位亮点
-面向大规模广告检索与召回场景,直面高并发、低延迟的线上挑战
-深度参与 CUDA 自定义算子、模型量化(INT8/FP8/Weight
-only 等)、算子融合与调度优化,显著提升 GPU MFU(Machine FLOPs Utilization,算力利用率)
-使用前沿工具链(PyTorch/CUTLASS/Triton/Nsight),在 H800/L20/H20 等集群上做真实生产优化
##
岗位职责
-参与搜索广告召回模型的高性能实现与优化,设计并编写自定义 CUDA 算子(如 embedding/MLP/相似度计算/top
-k/量化 matmul 等)
-推进模型量化方案(PTQ/QAT/Weight
-only/INT8/FP8),搭建校准管线,控制精度损失并完成线上评估与回归监控
-进行 GPU 性能分析与优化:访存合并、共享内存与寄存器使用、warp 级并行、向量化加载、占用率调优、异步拷贝与流水线并行、减少 kernel launch 开销
-衡量与提升 MFU,构建标准化基准与压测体系,使用 Nsight Compute/Systems 做瓶颈定位并给出改进方案
--※ 修改:
·acd 于 Nov 19 11:43:10 2025 修改本文
·[FROM:
114.1
18.3
1.*]※ 来源:
·[FROM:
114.1
18.3
1.*]