วิศวกรรมความน่าเชื่อถือตลอด 24 ชั่วโมง ไม่ใช่การแก้ปัญหาเฉพาะหน้าแบบตั้งรับ
บทนำ
การดูแลระบบที่ใช้งานจริงนั้นแตกต่างจากการพัฒนาระบบ เมื่อระบบเข้าสู่การใช้งานจริง จะต้องมีผู้รับผิดชอบดูแลตลอด 24 ชั่วโมง แม้ในเวลาตี 2 ของวันหยุดนักขัตฤกษ์ เพื่อคัดกรองการแจ้งเตือนก่อนที่ลูกค้าจะรับรู้ และแก้ไขต้นตอของปัญหาเพื่อป้องกันไม่ให้เกิดขึ้นซ้ำ ทีมวิศวกรส่วนใหญ่ไม่ได้ถูกจัดโครงสร้างมาเพื่อการนี้ แต่เน้นไปที่การส่งมอบงานเป็นหลัก
บริการ Managed Operations ของ Gradion เข้ามาเติมเต็มช่องว่างนี้ เราเข้ามารับภาระงานด้านการปฏิบัติการสำหรับระบบที่ใช้งานจริงของคุณ ด้วยรูปแบบการทำงานแบบ Follow-the-Sun ที่มีศูนย์กลางอยู่ที่เยอรมนีและเวียดนาม ทำให้คุณได้รับการดูแลอย่างต่อเนื่อง โดยไม่ต้องจัดตั้งทีมสแตนด์บายภายในองค์กรเอง วิศวกรของเราทำงานเสมือนเป็นส่วนขยายของทีมคุณ ไม่ใช่หน่วยงานสนับสนุนแยกต่างหากที่คุณต้องส่งเรื่องต่อ
รูปแบบการทำงานนี้ขับเคลื่อนด้วยหลักการ SRE: เน้นการให้ความสำคัญกับ SLO เป็นอันดับแรก, การบริหารจัดการเหตุการณ์อย่างเป็นระบบ และการทำงานเชิงรุกเพื่อเพิ่มความน่าเชื่อถือในช่วงที่ไม่มีเหตุการณ์ เราวัดผลในสิ่งที่สำคัญ แจ้งเตือนในสิ่งที่สามารถดำเนินการได้ และใช้เวลาช่วงที่ระบบทำงานปกติ เพื่อลดความถี่ของเหตุการณ์ขัดข้อง
สิ่งที่เราส่งมอบ
การดูแลแบบ Follow-the-Sun
ศูนย์วิศวกรรมในเยอรมนีและเวียดนามให้การดูแลที่คาบเกี่ยวกันตลอดช่วงเวลาทำการของยุโรปและเอเชียแปซิฟิก ทีมสแตนด์บายประกอบด้วยวิศวกรที่เข้าใจระบบของคุณ ไม่ใช่แค่ทีม Helpdesk ทั่วไปที่อ่านตามคู่มือ การส่งมอบงานเป็นไปอย่างมีโครงสร้าง มีการบันทึก และติดตาม เพื่อให้ข้อมูลไม่สูญหายระหว่างเขตเวลา
การออกแบบและบริหารจัดการ SLO
ก่อนที่เราจะเริ่มเฝ้าระวังสิ่งใด เราจะกำหนดนิยามของความน่าเชื่อถือสำหรับบริการของคุณ เราทำงานร่วมกับทีมของคุณเพื่อกำหนด Service Level Objectives (SLO) ที่เชื่อมโยงกับประสบการณ์ผู้ใช้จริง สร้างกรอบการทำงานของ Error Budget รอบ SLO เหล่านั้น และติดตั้งเครื่องมือในระบบของคุณให้สอดคล้องกัน การแจ้งเตือนจะถูกปรับให้สอดคล้องกับอัตราการใช้ Error Budget ของ SLO ไม่ใช่แค่ค่าเมตริกดิบที่ก่อให้เกิดความสับสน
การตอบสนองต่อเหตุการณ์และการวิเคราะห์หลังเกิดเหตุ (Postmortems)
เมื่อเกิดเหตุขัดข้อง เราจะปฏิบัติตามกระบวนการตอบสนองที่เป็นระบบ: คัดกรอง, ควบคุม, บรรเทา, กู้คืน หลังเกิดเหตุ เราจะดำเนินการวิเคราะห์หลังเกิดเหตุโดยไม่มุ่งหาผู้กระทำผิด (Blameless Postmortem) และจัดทำบันทึกที่เป็นลายลักษณ์อักษรพร้อมรายการดำเนินการที่เป็นรูปธรรม เราติดตามรายการเหล่านั้นจนกว่าจะเสร็จสมบูรณ์ เป้าหมายคือระบบที่ขัดข้องน้อยลงเมื่อเวลาผ่านไป ไม่ใช่ทีมที่เก่งขึ้นในการแก้ไขปัญหาเฉพาะหน้า
วิศวกรรมความน่าเชื่อถือเชิงรุก
เวลาในการปฏิบัติงานไม่ได้ใช้ไปกับการตอบสนองต่อเหตุการณ์เพียงอย่างเดียว ในช่วงที่ไม่มีเหตุการณ์ วิศวกรของเราจะทำงานเพื่อปรับปรุงความน่าเชื่อถือ เช่น การวางแผนกำลังการผลิต, การเสริมความแข็งแกร่งของ Dependency, การทำให้ Runbook เป็นอัตโนมัติ และการทดสอบ Chaos บนเส้นทางที่ไม่สำคัญ เราจัดสรรเวลาทำงานส่วนหนึ่งที่กำหนดไว้สำหรับงานนี้ในทุก Sprint
การตั้งค่า Observability และ Monitoring
เราสร้างและดูแล Monitoring Stack ที่ทำให้การปฏิบัติงานเป็นไปได้ ซึ่งประกอบด้วย เมตริก, ล็อก, Distributed Tracing, แดชบอร์ด และการกำหนดเส้นทางการแจ้งเตือน การเลือกใช้เครื่องมือจะขึ้นอยู่กับสภาพแวดล้อมของคุณ โดยทั่วไปจะมาจากระบบนิเวศของ Prometheus, Grafana, OpenTelemetry และ PagerDuty แต่เราสามารถปรับให้เข้ากับสิ่งที่คุณใช้งานอยู่แล้วได้
การพัฒนา Runbook สำหรับทีม On-Call
เราจัดทำเอกสารสำหรับทุกระบบที่เราดูแล Runbook ครอบคลุมถึงรูปแบบความล้มเหลวมาตรฐาน, เส้นทางการส่งต่อปัญหา, ขั้นตอนการ Rollback และผังการติดต่อ วิศวกรใหม่สามารถเริ่มทำงานได้อย่างมีประสิทธิภาพภายในไม่กี่วัน ไม่ใช่หลายเดือน Runbook จะได้รับการดูแลให้เป็นปัจจุบันและอัปเดตหลังเกิดเหตุการณ์ทุกครั้ง
ผลลัพธ์ที่พิสูจน์ได้ในการใช้งานจริง
DataFlow Group (แพลตฟอร์มตรวจสอบข้อมูลรับรองระดับโลก) ดำเนินงานระบบตรวจสอบประวัติและยืนยันเอกสาร ซึ่งต้องการความพร้อมใช้งานสูงในหลายเขตอำนาจระหว่างประเทศ การปฏิบัติงานด้วยตนเองทำให้เกิดความล่าช้าในการ Deploy และข้อผิดพลาดจากมนุษย์ Gradion ได้ปรับปรุงโครงสร้างพื้นฐาน นำระบบ Autoscaling และ Automated Deployment มาใช้ และขจัดข้อผิดพลาดจากการทำงานด้วยตนเองด้วย Infrastructure as Code ผลลัพธ์คือ การ Deploy ทำได้เร็วขึ้น 5 เท่า ลดภาระงานด้วยตนเองลง 30 เปอร์เซ็นต์ และแพลตฟอร์มสามารถทำงานแบบอัตโนมัติได้ถึง 99 เปอร์เซ็นต์
commercetools ซึ่งมีมูลค่ากิจการ 1.9 พันล้านดอลลาร์สหรัฐฯ มีมูลค่าการซื้อขายสินค้ารวม (GMV) ต่อปีมากกว่า 7.5 หมื่นล้านดอลลาร์สหรัฐฯ และประมวลผลคำสั่งซื้อกว่า 500 ล้านรายการต่อปี ดำเนินการโครงสร้างพื้นฐานคลาวด์ทั่วโลกด้วยโมเดล Follow-the-Sun ที่มีสามทีม Gradion รับผิดชอบส่วนของเวียดนาม โดยดูแลแพลตฟอร์มการผลิตทั้งหมดในช่วงเวลากลางวัน ครอบคลุมโครงสร้างพื้นฐานเดียวกันกับที่ทีมในสหรัฐฯ และเยอรมนีดูแลในกะของตน นี่ไม่ใช่เพียงแค่การเฝ้าระวังหรือเส้นทางการส่งต่อปัญหา แต่เป็นหนึ่งในสามส่วนสำคัญที่ช่วยให้แพลตฟอร์มคอมเมิร์ซแบบ Composable ชั้นนำของโลกสามารถรักษาการดำเนินงานได้ตลอด 24/7 โดยไม่ต้องให้ทีมใดทีมหนึ่งทำงานตลอดเวลา
ชุดเทคโนโลยี
การเฝ้าระวังและตรวจสอบ: Prometheus, Grafana, OpenTelemetry, Jaeger
การแจ้งเตือนและการเข้าเวร: PagerDuty, OpsGenie, VictorOps
ระบบบันทึกข้อมูล: Loki, ELK stack, CloudWatch
การจัดการเหตุการณ์: กระบวนการ Postmortem ที่เป็นระบบ, Confluence หรือ Notion สำหรับการจัดทำเอกสาร
โครงสร้างพื้นฐาน: สภาพแวดล้อมแบบ Cloud-native (AWS, GCP, Azure) และ Kubernetes-native
ขั้นตอนถัดไป
โปรดอธิบายระบบของคุณ เราจะประเมินความเสี่ยงในการดำเนินงาน และกำหนดรูปแบบการดูแลที่เหมาะสม
7.5 หมื่นล้านดอลลาร์สหรัฐฯ GMV, การดำเนินงานแบบ Follow-the-Sun
commercetools ประมวลผล GMV ต่อปีมากกว่า 7.5 หมื่นล้านดอลลาร์สหรัฐฯ และคำสั่งซื้อกว่า 500 ล้านรายการต่อปี Gradion รับผิดชอบส่วน APAC ในการดำเนินงานคลาวด์แบบ Follow-the-Sun โดยดูแลแพลตฟอร์มการผลิตทั่วโลกอย่างเต็มรูปแบบในช่วงเวลากลางวัน
ต้องการทีมดูแลโครงสร้างพื้นฐานตลอด 24/7 โดยไม่ต้องลงทุนสร้างทีมปฏิบัติการเองใช่หรือไม่?
เราพร้อมบริหารจัดการและดูแลโครงสร้างพื้นฐานให้คุณตลอด 24 ชั่วโมง พร้อมรับประกันความรวดเร็วในการตอบสนองตามข้อตกลง SLA เพียงแจ้งเป้าหมายด้าน Uptime ที่คุณต้องการให้เราทราบ