Kỹ thuật độ tin cậy liên tục, không phải là xử lý sự cố theo kiểu chữa cháy.
Giới thiệu
Vận hành một hệ thống sản xuất khác với việc xây dựng nó. Khi một hệ thống đã đi vào vận hành, cần có người chịu trách nhiệm xử lý lúc 2 giờ sáng ngày lễ, phân loại cảnh báo trước khi khách hàng nhận ra, và khắc phục tận gốc vấn đề để nó không tái diễn. Hầu hết các đội ngũ kỹ thuật không được tổ chức để làm việc đó. Họ được tổ chức để triển khai sản phẩm.
Dịch vụ Vận hành Quản lý của Gradion lấp đầy khoảng trống đó. Chúng tôi đảm nhận gánh nặng vận hành các hệ thống sản xuất của bạn thông qua mô hình "follow-the-sun" với các trung tâm tại Đức và Việt Nam, mang lại sự hỗ trợ liên tục mà không yêu cầu bạn phải xây dựng đội ngũ trực ban chuyên trách nội bộ. Các kỹ sư của chúng tôi hoạt động như một phần mở rộng của đội ngũ bạn, không phải là một cấp hỗ trợ riêng biệt mà bạn phải chuyển giao vấn đề.
Mô hình này được định hướng bởi SRE: tư duy ưu tiên SLO, quản lý sự cố có cấu trúc, và công việc cải thiện độ tin cậy chủ động giữa các sự cố. Chúng tôi đo lường những gì quan trọng, cảnh báo về những gì cần hành động, và đầu tư thời gian yên tĩnh để giảm tần suất các sự cố lớn.
Những Gì Chúng Tôi Cung Cấp
Hỗ Trợ Theo Mô Hình Follow-the-Sun
Các trung tâm kỹ thuật tại Đức và Việt Nam cung cấp phạm vi hỗ trợ chồng chéo, bao phủ giờ làm việc tại Châu Âu và Châu Á – Thái Bình Dương. Các ca trực được đảm nhiệm bởi các kỹ sư am hiểu hệ thống của bạn, không phải là một bộ phận hỗ trợ chung chung chỉ đọc theo tài liệu hướng dẫn. Việc bàn giao được cấu trúc, ghi lại và theo dõi chặt chẽ để đảm bảo không mất mát thông tin giữa các múi giờ.
Thiết Kế và Quản Lý SLO
Trước khi giám sát bất cứ điều gì, chúng tôi xác định rõ độ tin cậy có ý nghĩa gì đối với dịch vụ của bạn. Chúng tôi hợp tác với đội ngũ của bạn để thiết lập các Mục tiêu Mức độ Dịch vụ (SLO) gắn liền với trải nghiệm người dùng thực tế, xây dựng khung ngân sách lỗi xung quanh các SLO đó, và trang bị công cụ cho hệ thống của bạn một cách phù hợp. Cảnh báo được điều chỉnh theo tốc độ tiêu hao SLO, không phải các chỉ số thô gây nhiễu loạn.
Phản Ứng Sự Cố và Phân Tích Sau Sự Cố
Khi có sự cố xảy ra, chúng tôi tuân thủ quy trình phản ứng có cấu trúc: phân loại, khoanh vùng, giảm thiểu, khôi phục. Sau sự cố, chúng tôi thực hiện phân tích sau sự cố không đổ lỗi và lập biên bản ghi lại các hành động cụ thể. Chúng tôi theo dõi các hành động này cho đến khi hoàn thành. Mục tiêu là một hệ thống ít gặp lỗi hơn theo thời gian, chứ không phải một đội ngũ giỏi hơn trong việc "chữa cháy".
Kỹ Thuật Độ Tin Cậy Chủ Động
Thời gian vận hành không chỉ dành cho việc phản ứng. Giữa các sự cố, các kỹ sư của chúng tôi tập trung vào việc cải thiện độ tin cậy: lập kế hoạch năng lực, củng cố các phụ thuộc, tự động hóa runbook, kiểm thử hỗn loạn trên các đường dẫn không quan trọng. Chúng tôi phân bổ một phần thời gian làm việc cụ thể cho công việc này trong mỗi sprint.
Thiết Lập Khả Năng Quan Sát và Giám Sát
Chúng tôi xây dựng và duy trì hệ thống giám sát giúp vận hành hiệu quả: các chỉ số (metrics), nhật ký (logs), theo dõi phân tán (distributed tracing), bảng điều khiển (dashboards), và định tuyến cảnh báo (alert routing). Các công cụ được lựa chọn dựa trên môi trường của bạn, thường là từ hệ sinh thái Prometheus, Grafana, OpenTelemetry và PagerDuty, nhưng chúng tôi sẽ điều chỉnh để phù hợp với những gì bạn đang sử dụng.
Phát Triển Runbook Trực Ban
Chúng tôi ghi lại tài liệu cho mọi hệ thống mà chúng tôi vận hành. Runbook bao gồm các chế độ lỗi tiêu chuẩn, quy trình leo thang, thủ tục khôi phục và cây liên hệ. Các kỹ sư mới có thể làm việc hiệu quả chỉ trong vài ngày, không phải vài tháng. Runbook được duy trì và cập nhật sau mỗi sự cố.
Minh Chứng Trong Thực Tế Vận Hành
DataFlow Group (nền tảng xác minh thông tin toàn cầu) vận hành các hệ thống kiểm tra lý lịch và xác minh tài liệu yêu cầu tính sẵn sàng cao trên nhiều khu vực pháp lý quốc tế. Các thao tác thủ công đã gây ra sự chậm trễ trong triển khai và lỗi do con người. Gradion đã cải tổ cơ sở hạ tầng, giới thiệu tính năng tự động mở rộng (autoscaling) và triển khai tự động, đồng thời loại bỏ lỗi thủ công bằng cách sử dụng hạ tầng dưới dạng mã (infrastructure as code). Việc triển khai trở nên nhanh hơn năm lần, công sức thủ công giảm 30 phần trăm, và nền tảng đạt 99 phần trăm vận hành tự động.
commercetools - với định giá 1,9 tỷ USD, GMV hàng năm hơn 75 tỷ USD và 500 triệu đơn hàng mỗi năm - vận hành hạ tầng đám mây toàn cầu theo mô hình "follow-the-sun" với ba đội ngũ. Gradion đảm nhiệm vai trò tại Việt Nam: chịu trách nhiệm hoàn toàn về nền tảng sản xuất trong ca làm việc ban ngày, quản lý cùng một hạ tầng mà các đội ngũ tại Mỹ và Đức vận hành trong ca của họ. Đây không phải là một hàng đợi giám sát hay kênh leo thang sự cố. Đây là một phần ba trong cách nền tảng thương mại có khả năng kết hợp hàng đầu thế giới duy trì hoạt động 24/7 mà không yêu cầu bất kỳ đội ngũ nào phải làm việc liên tục.
Ngăn xếp Công nghệ
Giám sát và khả năng quan sát: Prometheus, Grafana, OpenTelemetry, Jaeger
Cảnh báo và trực ban: PagerDuty, OpsGenie, VictorOps
Ghi nhật ký: Loki, ELK stack, CloudWatch
Quản lý sự cố: quy trình phân tích sau sự cố có cấu trúc, Confluence hoặc Notion để lập tài liệu
Hạ tầng: môi trường cloud-native (AWS, GCP, Azure) và Kubernetes-native
Kêu gọi hành động
Mô tả hệ thống của bạn. Chúng tôi sẽ đánh giá rủi ro vận hành và xây dựng mô hình hỗ trợ phù hợp.
GMV 75 tỷ USD, vận hành theo mô hình follow-the-sun
commercetools xử lý hơn 75 tỷ USD GMV hàng năm và 500 triệu đơn hàng mỗi năm. Gradion đảm nhiệm vai trò tại khu vực APAC trong mô hình vận hành đám mây "follow-the-sun" của họ: chịu trách nhiệm hoàn toàn về nền tảng sản xuất toàn cầu trong ca làm việc ban ngày.
Bạn cần đảm bảo hạ tầng hoạt động 24/7 mà không muốn xây dự…
Chúng tôi vận hành hạ tầng của bạn liên tục 24/7 với thời gian phản hồi được đảm bảo bằng SLA. Hãy cho chúng tôi biết yêu cầu về thời gian hoạt động của bạn.