• Hang Ngo

RELIABILITY - ĐỘ TIN CẬY CỦA HỆ THỐNG.

Độ tin cậy là yếu tố quyết định của bất kỳ ứng dụng nào bởi vì nếu ứng dụng không đáng tin cậy, các yếu tố còn lại không còn quan trọng nữa và sau cùng, người dùng sẽ sớm từ bỏ ứng dụng.

Một ứng dụng được cho là đảm bảo độ tin cậy khi:

  • Có thể đo lường mức độ tin cậy thông qua các chỉ số liên quan và điều chỉnh kịp thời khi cần.

  • Có khả năng mở rộng linh hoạt, tính sẵn sàng cao và quản lý thay đổi tự động.

  • Có khả năng tự phục hồi và phải được trang bị cho tính năng quan sát.

  • Các hoạt động của ứng dụng phải giảm tải được khối lượng công việc thủ công và tư duy của các kỹ sư vận hành, trong khi vẫn đảm bảo giảm thiểu nhanh chóng các lỗi.



Chiến lược


Vận dụng các chiến lược này để hệ thống của bạn đạt được độ tin cậy cao:


- Độ tin cậy được xác định bởi người dùng: Đo lường khối lượng công việc mà người dùng sử dụng, ví dụ, đo lường trải nghiệm người dùng, tỷ lệ thành công truy vấn. Chiến lược này hoàn toàn trái ngược với các chỉ số về máy chủ, chẳng hạn như mức độ sử dụng CPU. Đối với khối lượng công việc diễn ra liên tục hoặc theo từng giai đoạn, bạn có thể cần đặt ra các chỉ số KPI.


- Sử dụng đủ độ tin cậy: Hệ thống của bạn phải đủ tin cậy để người dùng hài lòng, nhưng cũng phải xem xét kỹ lưỡng về việc có nên đầu tư quá vào nó hay không. Xác định các Mục tiêu cấp độ dịch vụ (SLO) đặt ngưỡng độ tin cậy và dựa vào ngân sách lỗi để theo dõi được tốc độ thay đổi.


- Phương án dự phòng: Các hệ thống cần có độ tin cậy cao phải đảm bảo không có sai sót nào và tài nguyên của chúng phải được nhân rộng trên nhiều miền lỗi. Miền thất bại là nhóm tài nguyên có thể thất bại độc lập, chẳng hạn như VM, vùng hoặc khu vực.


- Khả năng co dãn linh hoạt: Đảm bảo rằng mọi thành phần trong hệ thống của bạn có thể điều chỉnh lưu lượng hoặc dữ liệu bằng cách thêm nhiều tài nguyên hơn.


- Kiểm soát được dung sai quá tải: Cần thiết kế dịch vụ để độ xuống cấp diễn ra chậm rãi trong tầm kiểm soát.


- Bao gồm khả năng hạ giá: Bất kỳ thay đổi nào mà kỹ sư vận hành thực hiện đối với dịch vụ phải có một phương thức xác định rõ ràng để sau đó có thể hoàn tác nó - nghĩa là khôi phục lại thay đổi.


- Ngăn chặn việc truy cập tăng đột biến: Không đồng bộ hóa các yêu cầu giữa các khách hàng. Quá nhiều khách hàng gửi lưu lượng truy cập cùng một lúc gây ra lưu lượng truy cập tăng đột biến trong trường hợp xấu nhất có thể gây ra lỗi.


- Kiểm tra quá trình phục hồi: Nếu gần đây bạn chưa kiểm tra các quy trình hoạt động của mình để phục hồi sau thất bại, các quy trình có thể sẽ không hoạt động khi bạn cần chúng. Các mục để kiểm tra định kỳ bao gồm chuyển đổi dự phòng khu vực, khôi phục bản phát hành và khôi phục dữ liệu từ bản sao lưu.


- Phát hiện lỗi vận hành: Có một sự đánh đổi giữa việc cảnh báo quá sớm và tạo áp lực không đáng có cho đội ngũ vận hành so với cảnh báo quá muộn và bị tạm ngừng dịch vụ trong thời gian dài. Sự chậm trễ trước khi thông báo cho các kỹ sự vận hành về việc ngừng hoạt động phải được điều chỉnh cho sự đánh đổi này.


- Thực hiện thay đổi theo từng bước: Việc thay đổi ngay lập tức với các dịch vụ hoặc cấu hình thường sẽ gây ra sự rủi ro khá cao. Chính vì vậy bạn nên triển khai hoặc thay đổi dần dần để có thể phát hiện ra những lỗi trong khi sử dụng.


- Cần có sự phản hồi thống nhất đối với các trường hợp khẩn cấp: Thiết kế các phương án vận hành để giảm thiểu thời gian ngừng hoạt động có thể ảnh hưởng đến trải nghiệm của khách hàng và sự tiện lợi cho các nhà vận hành. Chiến lược này đòi hỏi phải chuẩn hóa các quy trình phản hồi với các vai trò và kênh truyền thông được xác định rõ.


- Hệ thống khả năng quan sát: Các hệ thống phải được trang bị đủ tốt để cho phép chẩn đoán và xử lý sự cố nhanh chóng, giảm thiểu tối đa thời gian dịch vụ ngừng hoạt động.


- Lập tài liệu dự phòng chuẩn cho các trường hợp phản ứng khẩn cấp: Trong trường hợp khẩn cấp, mọi người gặp khó khăn trong việc xác định những gì cần phải làm và thực hiện các nhiệm vụ phức tạp. Do đó, lập kế hoạch cho các hành động khẩn cấp, ghi lại chúng và chuẩn hóa chúng.


- Quản lý năng lực đáp ứng: Dự báo lưu lượng và cung cấp tài nguyên trước các thời điểm vận hành lên đến cao điểm.


- Giảm thiểu công việc: Có môt số công việc thủ công lặp đi lặp lại không đem lại giá trị lâu dài, và nó sẽ gia tăng khi dịch vụ phát triển. Chúng ta cần liên tục loại bỏ hoặc giảm thiểu chúng. Nếu không, công việc vận hành sẽ tạo ra thêm gánh nặng cho các nhà vận hành, cản trở nhiều cơ hội phát triển.


Các lời khuyên tốt nhất:


Thực hiện theo các lời khuyên này để giúp hệ thống của bạn đạt được độ tin cậy.

  • Xác định mục tiêu độ tin cậy của bạn bằng cách sử dụng Mục tiêu cấp độ dịch vụ (SLO) và ngân sách .

  • Đầu tư tính năng quan sát cho cơ sở hạ tầng và ứng dụng của bạn.

  • Xây dựng khả năng đáp ứng sẵn sàng cao và có quy mô.

  • Xây dựng khả năng triển khai linh hoạt và tự động.

  • Xây dựng cảnh báo hiệu quả.

  • Xây dựng quy trình hợp tác để quản lý sự cố.


12 views
THÔNG TIN

CÔNG TY CỔ PHẦN PHÁT TRIỂN DỊCH VỤ ĐÁM MÂY CLOUDAZ 

Địa chỉ: Tầng 2, Tòa nhà Trường Thịnh

Số 1 Phùng Chí Kiên, quận Cầu Giấy, Hà Nội

Tel: (+84) 24 2124 4844

Giờ làm việc: 9:00 AM tới 6:00 PM (GMT+7)

Số GCNĐKKD: 0108598593

Nơi cấp: Sở Kế hoạch & Đầu tư Thành phố Hà Nội (24/01/2019)

  • Facebook - White Circle
  • LinkedIn - White Circle