Mô tả công việc:
Nhiệm vụ:
– Kiến trúc hệ thống phân tán, bảo đảm hiệu năng, độ tin cậy
– Thiết kế, triển khai và tối ưu cụm GPU/Accelerator quy mô lớn bao gồm NVLink / NVSwitch fabric và InfiniBand phục vụ training & inference mô hình AI (LLM, CV, HPC).
Mô tả công việc:
– Thiết kế & triển khai cụm GPU (H100/H200, MI300…) với NVLink/NVSwitch & InfiniBand/NDR, đạt hiệu năng ≥ 400 GB/s/GPU.
– Quản trị đa- tenant qua Slurm/Kubernetes GPU Operator, tự động scale & reclaim tài nguyên, đảm bảo fairness & quota.
– Tối ưu throughput huấn luyện & suy luận (Tensor Parallel, FSDP, vLLM) bằng CUDA, NCCL, GPUDirect- RDMA, TensorRT- LLM.
– Bảo mật & tuân thủ: firmware, secure boot, segmentation mạng, audit vật lý & logical.
– Giám sát: xây dựng DCGM + Prometheus dashboards, phát hiện lỗi ECC, quá nhiệt, network congestion; MTTR
– Capacity planning & FinOps: dự báo nhu cầu GPU, đề xuất liquid/immersion cooling, tối ưu PUE
Yêu cầu kinh nghiệm:
– Tốt nghiệp Đại học chuyên ngành Khoa học Máy tính, HPC, hoặc lĩnh vực liên quan.
– Có từ 02 năm kinh nghiệm vận hành hoặc kiến trúc cụm GPU/HPC > 1000 GPU.
– Hiểu sâu về điện – lạnh Data- center (PDU, airflow, liquid cooling) & tiêu chuẩn an toàn.
– Ưu tiên có kinh nghiệm triển khai composable GPU fabric- over- Ethernet, góp phần open- source (Kube- GPU, DCGM exporter) là một lợi thế
– Có kinh nghiệm tối ưu BIOS/firmware, NVLink topology và benchmark MLPerf hoặc tương đương
– Thành thạo CUDA, NCCL, Slurm, Kubernetes, Ansible/Terraform và protocol InfiniBand/RoCEv2.
Tech Stack:
– Security: OPA/Kyverno, Sigstore / Cosign, HashiCorp Vault, mTLS.
– Software: CUDA, NCCL, cuDNN, TensorRT, DCGM, Slurm, Kubernetes GPU Operator, Volcano.
– Automation: Ansible, Terraform, CI/CD firmware (GitHub Actions), Packer.
– Hardware: NVIDIA H100/H200, AMD MI300, IB NDR 400 Gbps, NVSwitch 4e.
– Observability: Prometheus, Grafana, Loki, Alertmanager, NetQ.
Quyền lợi:
Đãi ngộ (lương, thưởng, review lương):
– Các ngày nghỉ lễ Tết theo quy định của nhà nước và có thưởng theo quy định của công ty
– Xét thưởng và xét tăng lương 2 lần/ năm
– Ký Hợp đồng lao động, đóng bảo hiểm đầy đủ, nghỉ 13 ngày phép năm, các ngày Lễ, Tết theo quy định Nhà nước
– Được tham gia các khóa huấn luyện, đào tạo nâng cao kỹ năng, nghiệp vụ của CMC cũng như các hãng công nghệ lớn như Microsoft, IBM, Google …
– Bảo hiểm chăm sóc sức khỏe Aon Care (điều trị nội trú và ngoại trú) dành cho nhân viên
– Mức lương: Thỏa thuận theo năng lực + KPIs năm + phúc lợi Lễ tết;
– Cơ chế lương 3 vòng thu nhập, có thưởng KPI tháng và KPI năm. Công thức lương gói thu nhập năm (Trung bình thu nhập 14 – 15 tháng lương/năm)
Cơ hội thử thách và phát triển:
– Được dẫn dắt, hỗ trợ bởi team lead/chuyên gia ưu tú, đầu ngành trong các lĩnh vực
– Được ủng hộ, trao quyền cho những ý kiến sáng tạo và đột phá
– Cơ hội làm việc với tập khách hàng viễn thông hàng đầu thế giới
– Cơ hội được tiếp cận, đào sâu những công nghệ mới nhất, tiên tiến nhất với tập khách hàng đa ngành và những dự án siêu khủng
– Cơ hội được làm việc tại công ty công nghệ viễn thông hàng đầu Việt Nam (Top 4)
Văn hoá môi trường làm việc:
– Chế độ chăm sóc y tế đặc biệt cho CBNV
– Làm việc 5 ngày/tuần, nghỉ thứ 7, Chủ Nhật;
– Môi trường làm việc trẻ, năng động, sáng tạo, công bằng, kỷ luật;
– Tham gia gắn kết với tập thể, tổ chức với các hoạt động team building thú vị, các clb chạy và đá bóng, Esport,…các party liên hoan của Công ty (sinh nhật, lễ Tết,…)
– Văn phòng xanh, đạt tiêu chuẩn quốc tế;