Tìm hiểu về RPO, RTO, WRT, MTD

660

Bài viết được sự cho phép của tác giả Trần Nhật Trường

Hiện tại có khá nhiều khái niệm trong mảng khôi phục dữ liệu và lên kế hoạch khôi phục thảm họa (Data Recovery and Disaster Recovery Plan) như là RPO, RTO, WRT, MTD, WTH, chắc là a/e cũng đã từng đọc qua, giờ cùng nhau tìm hiểu nhé.

RPO là viết tắt của Recovery Point Object hay còn gọi là ”thời điểm phục hồi”. Là thời điểm dữ liệu của tổ chức được sao lưu thành công, có thể là một phút, một giờ, một tiếng hoặc một ngày trước thời điểm sự cố xảy ra => Phụ thuộc nhiều vào cơ chế & năng lực backup của doanh nghiệp. Nếu RPO càng nằm xa thời điểm xảy sự cố => càng nhiều dữ liệu chưa được backup thành công=>Lost data.

Khái niệm tiếp theo là RTO (Recovery Time Object), là khoảng thời gian doanh nghiệp có thể phục hồi thành công dữ liệu đã backup. Việc này sẽ phụ thuộc nhiều skill và khả năng phản hồi khi sự cố xảy ra. Ví dụ như phòng nhân sự mất file tính lương và họ yêu cầu bạn trong vòng 1 tiếng phải phục hồi cho họ ngay, như vậy RTO = 1 giờ.

  Tính đa hình trong Java là gì?

  C++ algorithm: Những thuật toán cơ bản trong C++

Cũng như RPORTO cũng đóng vai trò tỷ lệ nghịch với chi phí, RTO càng nhỏ thì chí phí càng cao. Cụ thể, RTO càng ngắn, sẽ giảm thiểu ảnh hưởng đối với hoạt động của doanh nghiệp, trong khi RTO càng dài, doanh nghiệp sẽ phải đối mặt với tổn thất lớn, đặc biệt đối với những hệ thống quan trọng. Thông thường, RTO và RPO thường đi kèm với nhau, có nghĩa là nếu bạn muốn RPO ngắn thì bạn cũng cần phải đảm bảo RTO ngắn. Trong quá trình xác định RTO, vai trò và khả năng của đội ngũ thực hiện công tác phục hồi hệ thống trở nên cực kỳ quan trọng. Trong khi với RPO, bạn có thể lên lịch để các nhiệm vụ sao lưu tự động thực hiện, và công việc chính là theo dõi. Tuy nhiên, đối với RTO, bạn phải tham gia vào quá trình khôi phục dữ liệu, và việc này đòi hỏi sự cẩn trọng và tỉ mỉ cao, đặc biệt khi xử lý những hệ thống lớn. Đã có lần một lỗi nhỏ trong quá trình khôi phục dữ liệu gây ra hậu quả nghiêm trọng. Đối với các hệ thống vừa và nhỏ, việc khôi phục dữ liệu sai thời điểm có thể làm mất đi sự đáp ứng theo yêu cầu, thậm chí làm mất dữ liệu quan trọng.

RTO càng ngắn, đòi hỏi hệ thống sao lưu phải hoạt động theo thời gian thực, đồng nghĩa với việc có một hệ thống sao lưu song song hoạt động cùng với hệ thống sản xuất. Đối với máy chủ, điều này có thể thực hiện bằng cách sử dụng các cụm máy chủ (cluster), và đối với dữ liệu, có thể thực hiện bằng cách sao lưu dữ liệu ra ngoài hoặc sao lưu hệ thống điều hành lên thiết bị lưu trữ khác. Tóm lại, RTO = 0 đòi hỏi sự đầu tư đáng kể về chi phí và nhân lực để vận hành và duy trì hệ thống sao lưu.

Một số doanh nghiệp đặt RTO = 0, đặc biệt trong trường hợp của các ngân hàng hoặc các công ty cung cấp dịch vụ IT cam kết phục hồi dữ liệu 24/24, bất kể có xảy ra sự cố nghiêm trọng như động đất hay sóng thần. Với những doanh nghiệp như vậy, thay vì chỉ đầu tư vào hệ thống sản xuất, họ sẽ phải đầu tư một số tiền lớn hơn để triển khai các trang web hoặc hệ thống tương tự ở nhiều địa điểm khác nhau, cùng với việc duy trì hệ thống sao lưu chạy theo thời gian thực cùng với hệ thống sản xuất.

Các công ty lớn như Google, Microsoft, và Amazon thậm chí còn đặt RTO gần như là zero, và họ xây dựng nhiều tầng hệ thống sao lưu, nghĩa là có nhiều bản sao dữ liệu được lưu trữ tại nhiều vị trí trên khắp thế giới. Dữ liệu được sao lưu theo thời gian thực, với nhiều bản sao đồng thời, để đảm bảo rằng bất kỳ lúc nào cần phục hồi dữ liệu, họ có thể thực hiện điều này một cách nhanh chóng.

=> Tóm lại RTO = 0 tương ứng với việc ta phải đầu tư chi phí cực cao.

RPO, RTO, WRT, MTD là gì?

Tiếp theo, WRT (Work Recovery Time) là thời gian verify lại tính toàn vẹn của dữ liệu sau khi đã hồi phục, tuy nhiên chỉ số này hiện tại ít người quan tâm. Trong thực tế, WRT có thể là =0 đối với các công việc phục hồi dữ liệu ở mức đơn giản.

MTD là viết tắt của Maximum Tolerable Downtime (MTD), là thời gian tối đa cho phép từ lúc xảy ra sự cố cho đến khi hệ thống được hoạt động bình thường. Chỉ số này có ý nghĩa, làm gì thì làm, từ thời điểm xảy ra sự cố, thực hiện phục hồi dữ liệu và verify lại dữ liệu, phải thấp hơn MTD đã đưa ra từ trước. Công thức là:

RTO+WRT<=MTD

RPO, RTO, WRT, MTD là gì?

Trên đây là một số khái niệm quan trọng trong lĩnh vực khôi phục dữ liệu và lên kế hoạch khôi phục thảm họa (Data Recovery and Disaster Recovery Plan), hy vọng a/e sẽ hiểu hơn.

Bài viết gốc được đăng tải tại nhattruong.blog

Có thể bạn quan tâm:

Hàng loạt việc làm IT lương cao trên TopDev đang chờ bạn, ứng tuyển ngay!