岗位职责
岗位职责:欢迎加入摩尔线程KuaESW组,我们专注于大模型在KuaEGPU集群的分布式训练稳定性及可观测性,通过构建领先的分布式训练体系,支持万卡规模大模型训练,为国产大模型的发展助力。加入我们,一起探索技术的无限可能!1.大规模分布式训练稳定性策略开发及调试。2.大规模分布式训练可观测体系的开发及优化。3.大模型训练的接入及开发。4.提供远程或现场的技术支持,解决客户在进行大规模分布式训练中遇到的技术问题。5.编写和维护技术文档,包括故障排除指南、用户手册和***实践。6.调研业界最新的分布式训练技术及方案。7.深度参与研发产品特性开发,为研发产品支持新特性。任职要求:1、计算机科学、电子工程或相关领域的本科及以上学历。2、良好的逻辑思维能力,精通计算机数据结构和算法;3、熟悉至少一种编程语言,如GoLang、Python等。4、熟悉云原生体系,对Kubernetes,Docker,Containerd有一定的了解及使用经验。5、熟悉大模型训练,对当前最新大模型如Llama、Qwen、ChatGLM等有一定的了解,***是做过大模型相关的训练。6、至少有一种机器学习框架使用或者开发经验,如PyTorch、Megatron-LM、DeepSpeed、PaddlePadde、Colossal-AI等。7、对大规模分布式训练技术感兴趣,期待做有挑战性的事情;有owner意识,具备团队合作的能力。职能类别:管理培训生
工作地址
成都-温江区 (成都-高新区天府软件园) 查看地图
