Senior Site Reliability Engineer GenAI, Python, Java

TECHCOMBANK
Mức lương
Đang cập nhật
Địa điểm làm việc
Quận 1, Hồ Chí Minh
Kinh nghiệm yêu cầu
Cập nhật
Thông tin cơ bản

Mô tả công việc

Mô tả công việc

About the Role:
We are seeking a highly skilled Site Reliability Engineer with experience applying GenAI to automate and enhance the reliability of complex data platforms in Data Division. You will be responsible for building self- healing infrastructure, AI- powered observability, and automating incident response across data pipelines (e.g., Databricks, Glue, Kafka, Flink). This is a high- impact role where you will shape the future of data reliability at Techcombank, mentor engineers, and lead initiatives that span multiple teams and domains.
Key Responsibilities:
Platform Reliability & Automation
• Automate incident triage, remediation, and postmortems using GenAI- powered tools.
• Design, implement, and operate reliable, scalable, and observable data platforms.
• Develop intelligent runbooks and self- healing workflows using LLMs.
GenAI- Enabled SRE Practices
• Build and integrate GenAI copilots for on- call support, anomaly detection, and RCA (root cause analysis).
• Fine- tune or prompt engineer LLMs for specific use cases like summarizing logs, interpreting metrics, or generating remediation steps.
• Leverage vector databases (e.g., FAISS, Weaviate) to retrieve telemetry and incident history for GenAI prompts.
Observability & Anomaly Detection
• Integrate GenAI with observability tools (e.g., Datadog, Prometheus, Grafana, OpenTelemetry).
• Build systems for natural language querying of platform health and pipeline performance.
• Collaborate with data engineers to monitor SLIs/SLOs across ingestion, transformation, and delivery layers.
CI/CD & Risk Management
• Use LLMs to assess the risk of configuration or schema changes before production rollout.
• Automate validation and rollback strategies based on historical outcomes.
• Integrate GenAI into CI/CD pipelines to generate blast radius analyses and deployment guardrails.

Yêu cầu công việc

Yêu cầu công việc

• Good at English
• Bachelor&039;s degree in computer science, software engineering or information technology

• Solid experience in cloud- native data platforms (e.g., Databricks, Glue, Kafka, Flink, S3, Lambda).
• Proven experience using or integrating GenAI tools (OpenAI, Claude, HuggingFace Transformers).
• 5+ years in SRE, DevOps, or Data Engineering roles with strong focus on automation and observability.

• Proficiency in Python or Scala; experience with Spark and Airflow a plus.
• Familiarity with LLM techniques: prompt engineering, embeddings, retrieval- augmented generation (RAG).
• Experience with Infrastructure as Code (e.g., Terraform, CloudFormation).
• Hands- on experience with monitoring and alerting tools (e.g., Prometheus, Grafana, Datadog).
Preferred:
• Understanding of ITIL/incident management frameworks.
• Strong communication and documentation skills, especially in on- call and postmortem environments.
• Knowledge of data quality frameworks and lineage tools (e.g., DeeQu, Great Expectations, Amundsen, Unity Catalog).
• Experience fine- tuning LLMs or integrating GenAI agents into production systems.
• Familiarity with vector databases (e.g., Pinecone, Qdrant, FAISS).

Quyền lợi

Tại sao bạn sẽ yêu thích làm việc tại đây

WHY BECOME IT/DATA EXPERTS AT TECHCOMBANK?

Investing over 500 million USD to develop large- scale IT projects, Techcombank is one of the leading bank in Technology trends in Vietnam
You will grow with Techcombank by having the opportunity to learn from top experts from across the world
Techcombank provides a rewarding remuneration structure that commensurate with your achievement and contribution
Techcombank is the Top 2 Best place to work in the banking industry where you can experience various exciting activities throughout the year: Company anniversary, Team building, Active Saturday , Year End Party, etc.

Cập nhật gần nhất lúc: 2025-10-15 18:25:03

Xem thêm

Đặc điểm công việc

Hạn nộp hồ sơ
18/11/2025
Hình thức làm việc
Đang cập nhật
Cấp bậc
Nhân Viên
Số lượng cần tuyển
Đang Cập Nhật
Ngành nghề
IT phần mềm
Khu vực
Quận 1, Hồ Chí Minh
Xem thêm
Xem thêm
Người tìm việc lưu ý:
Bạn đang xem tin Senior Site Reliability Engineer GenAI, Python, Java - Mã tin đăng: 5332603. Mọi thông tin liên quan tới tin tuyển dụng này là do người đăng tin đăng tải và chịu trách nhiệm. Chúng tôi luôn cố gắng để có chất lượng thông tin tốt nhất, nhưng chúng tôi không đảm bảo và không chịu trách nhiệm về bất kỳ nội dung nào liên quan tới tin việc làm này. Nếu người tìm việc phát hiện có sai sót hay vấn đề gì xin hãy báo cáo cho chúng tôi

TECHCOMBANK

Quy mô: 200 - 500
Trụ sở: 191 Bà Triệu, Hai Ba Trung, Ha Noi

Bí kíp tìm việc an toàn

Dưới đây là những dấu hiệu của các tổ chức, cá nhân tuyển dụng không minh bạch:
1. Dấu hiệu phổ biến:
Hình ảnh 1
Nội dung mô tả công việc sơ sài, không đồng nhất với công việc thực tế
Hình ảnh 2
Hứa hẹn "việc nhẹ lương cao", không cần bỏ nhiều công sức dễ dàng lấy tiền "khủng"
Hình ảnh 3
Yêu cầu tải app, nạp tiền, làm nhiệm vụ
Hình ảnh 4
Yêu cầu nộp phí phỏng vấn, phí giữ chỗ...
Hình ảnh 5
Yêu cầu ký kết giấy tờ không rõ ràng hoặc nộp giấy tờ gốc
Hình ảnh 6
Địa điểm phỏng vấn bất bình thường
2. Cần làm gì khi gặp việc làm, công ty không minh bạch:
- Kiểm tra thông tin về công ty, việc làm trước khi ứng tuyển
- Báo cáo tin tuyển dụng với 123job thông qua nút "Báo cáo tin tuyển dụng" để được hỗ trợ và giúp các ứng viên khác tránh được rủi ro
- Hoặc liên hệ với 123job thông qua kênh hỗ trợ ứng viên của 123job:
Hotline: 0961.469.398

Việc làm đề xuất liên quan

Việc làm đã xem gần đây

Từ khóa tìm việc làm tại 123Job
Site reliability engineer tại tỉnh/thành