华苏科技
1000人以上 | 民营 | IT服务/系统集成
一、岗位职责 a. 负责产品需求的需求分析、架构设计以及平台关键代码开发; b. 负责系统技术架构、架构模式前瞻以及关键技术选型; c. 负责业务上关键技术问题攻关; 二、任职资格 a. Go语言基础扎实,精通并发、goroutine、channel、内存管理等基础知识。 b. 熟悉Go语言运行机制及性能调优,有实际优化经验者优先。 c. 技术栈:熟悉Gin框架、Gorm、MySQL、Redis、Kafka等。 d. 熟悉MySQL,有数据库设计经验,具备数据库调优能力。 e. 熟悉Jenkins、Git、Gerrit等CI/CD工具,有DevOps经验者加分。 f. 对分布式系统有一定程度的...
重庆长安科技有限责任公司
50人以下 | 民营 | 软件
工作职责1. 设计并开发基于云原生架构的AI算力平台,构建高可用、可扩展的分布式训练/推理系统。2. 优化GPU/CPU集群资源调度策略,提升算力利用率,支持大规模模型训练任务(如千卡级GPU集群管理)。3. 实现MLOps工具链(如Kubeflow/MLflow)与云原生组件的深度集成,完善模型开发、部署、监控全生命周期管理。4. 解决分布式训练中的网络通信(RoCE v2/InfiniBand)、存储性能瓶颈及多框架(PyTorch/TensorFlow)兼容性问题。任职资格1. 学历要求:大学本科及以上学历。2. 专业要求:计算机相关专业本科及以上学历。3. 工作经验:3年以上云原...
岗位职责:1. 设计并开发基于云原生架构的AI算力平台,构建高可用、可扩展的分布式训练/推理系统2. 优化GPU/CPU集群资源调度策略,提升算力利用率,支持大规模模型训练任务(如千卡级GPU集群管理)3. 实现MLOps工具链(如Kubeflow/MLflow)与云原生组件的深度集成,完善模型开发、部署、监控全生命周期管理4. 解决分布式训练中的网络通信(RoCE v2/InfiniBand)、存储性能瓶颈及多框架(PyTorch/TensorFlow)兼容性问题任职要求:1. 计算机相关专业本科及以上学历,3年以上云原生领域开发经验精通Golang开发,熟悉Python/C++...