岗位职责
岗位职责:1. 设计并开发基于云原生架构的AI算力平台,构建高可用、可扩展的分布式训练/推理系统2. 优化GPU/CPU集群资源调度策略,提升算力利用率,支持大规模模型训练任务(如千卡级GPU集群管理)3. 实现MLOps工具链(如Kubeflow/MLflow)与云原生组件的深度集成,完善模型开发、部署、监控全生命周期管理4. 解决分布式训练中的网络通信(RoCE v2/InfiniBand)、存储性能瓶颈及多框架(PyTorch/TensorFlow)兼容性问题任职要求:1. 计算机相关专业本科及以上学历,3年以上云原生领域开发经验精通Golang开发,熟悉Python/C++等语言,具有Kubernetes Operator开发经验者优先(需熟悉Kubebuilder/Client-go)2. 深入理解Kubernetes核心组件及生态工具(如Istio、Knative),具备生产环境容器化平台建设经验3. 熟悉主流机器学习框架(PyTorch/TensorFlow)及大模型训练优化技术,了解Horovod/Volcano/Ray等分布式调度组件4. 具备大模型微调、训练经验或千卡级集群运维经验者优先
