We use cookies to enhance your experience on our website. Please read and confirm your agreement to our Privacy Policy and Terms and Conditions before continue to browse our website.

Data Center Engineer (GPU)

Report
Print

Data Center Engineer (GPU)

2050 Research, Skywork AI
Apply Now

岗位职责:

机房设备运维保障

  • 负责机房内GPU算力卡(包括NVIDIA A800、A100等)的日常监控、维护及性能优化,确保设备稳定运行。
  • 实时监控算力卡健康状态(如温度、功耗、负载等),及时发现并处理异常告警。

故障诊断与修复

  • 快速响应算力卡“掉卡”问题,排查硬件连接(PCIe接口、电源供电)、驱动兼容性、固件版本等潜在故障点。
  • 分析算力卡损坏原因(如硬件老化、散热不良、供电不稳等),制定修复或替换方案,降低设备宕机时间。
  • 配合厂商进行硬件级故障处理,推动RMA流程并跟踪解决进度。

预防性维护与优化

  • 制定算力卡定期巡检计划,执行硬件清洁、散热系统检查、固件升级等预防性维护操作。
  • 优化算力卡集群的资源配置策略,提升GPU利用率并延长硬件生命周期。
  • 编写运维手册及故障处理SOP,沉淀技术经验。

跨团队协作

  • 与算法团队、开发团队协同定位GPU使用问题(如CUDA报错、显存溢出等),提供运维侧支持。
  • 参与机房扩容规划,设计高可用GPU集群架构,规避单点故障风险。


任职要求:

专业技能

  • 熟悉NVIDIA GPU架构(如Ampere系列),了解A800/A100特性及常见故障模式。
  • 具备 RDMA 网络运维能力,熟悉 IB 网卡 / IB 交换机 / RoCE 组网 等硬件细节,能快速分析网络通信问题
  • 掌握Linux系统操作及GPU驱动管理(如NVIDIA Driver、CUDA Toolkit),熟练使用nvidia-smi、dcgmi等工具。
  • 具备硬件排障能力,能独立更换算力卡、电源模块、散热组件等硬件。
  • 熟悉监控工具(如Prometheus+Grafana、Zabbix)及日志分析系统。

经验背景

  • 3年以上机房运维经验,至少1年GPU服务器或高性能计算(HPC)集群运维经验。
  • 有处理大规模GPU集群故障(如批量掉卡、硬件兼容性问题)的实战案例。

软性能力

  • 逻辑清晰,能通过数据分析定位复杂问题根本原因。
  • 具备较强抗压能力,能适应7×24小时应急响应。

All applications applied through our system will be delivered directly to the advertiser and privacy of personal data of the applicant will be ensured with security.

More Information

SalaryN/A (Search your salary info in SalaryCheck)
Job Function
Location
  • Hong Kong > Others
Work Model
  • On-site / At the workplace
Industry
Employment Term
  • Full-time
Experience
  • N/A
Career Level
  • Entry level
Education
  • N/A

Get lastest jobs, career news and
job invitations on-the-go.

Download the CTgoodjobs app

Download the CTgoodjobs app