Cách xây dựng nhóm SRE phù hợp nhất cho tổ chức

129

Cách xây dựng nhóm SRE phù hợp nhất cho tổ chứcCuongquach.com | Trong bài này, hãy tạm gác những vấn đề chuyên sâu về SRE, thay vào đó là tập trung phân tích ý tưởng, trách nhiệm và mục tiêu của SRE. Quan trọng nhất là tìm hiểu các điều kiện cần thiết để xây dựng một nhóm SRE phù hợp với tổ chức của bạn.

xay-dung-sre-doanh-nghiep

1. Vai trò và mục tiêu thực sự của SRE

SRE là một cách để xây dựng và vận hành các hệ thống dịch vụ/sản xuất đáng tin cậy trong môi trường kỹ thuật ngày càng phức tạp. Kỹ sư SRE thừa nhận rằng việc vận hành các hệ thống dịch vụ/sản xuất thành công cần kỹ năng rất khác biệt so với các ngành kỹ thuật khác.

Vai trò thực sự của SRE
Vai trò thực sự của SRE

Ben Treynor, nhà sáng lập nhóm SRE tại Google, mô tả trách nhiệm của SRE như sau: Nhóm SRE chịu trách nhiệm về tính khả dụng, độ trễ, hiệu suất, hiệu quả, quản lý thay đổi, giám sát, ứng phó khẩn cấp và lập kế hoạch năng lực.

Có thể thấy, Kỹ sư SRE cần kỹ năng vận hành và phát triển phần mềm để viết phần mềm hỗ trợ các hoạt động triển khai, sản xuất, cũng như gỡ lỗi phần mềm. Họ thường được yêu cầu:

  • Thông thạo ngôn ngữ lập trình (Go hoặc Node.js)
  • Quản lý và cấu hình các công cụ tự động hóa (Ansible, Chef hoặc Puppet) và cơ sở hạ tầng đám mây (AWS, Azure hoặc GCP)
  • Kinh nghiệm điều phối các container (Mesos hay Kubernetes)
mục tiêu thực sự của SRE
mục tiêu thực sự của SRE

Do biết nhiều kỹ năng nên nhóm SRE rất dễ bị chồng chéo công việc với các bộ phận khác nếu không được phân chia trách nhiệm rõ ràng. Vì vậy, để đảm bảo hiệu quả công việc, tổ chức cần xác định rõ mục tiêu và trách nhiệm, phân công đúng người đúng việc.

2. SRE và trách nhiệm với SLO

SRE và trách nhiệm với SLO
SRE và trách nhiệm với SLO

Khái niệm Mục tiêu cấp độ dịch vụ – Service Level Objectives (SLO) là cột mốc đầu tiên đánh giá độ tin cậy được nhiều tổ chức áp dụng. Mục tiêu này có thể được hoặc chưa được xác định rõ ràng, nhưng phải theo dõi chi tiết và đo lường được. SLO sẽ giúp điều chỉnh công việc của nhóm SRE hiệu quả hơn.

Stephen Thorne, SRE tại Google, cho rằng, kỹ sư SRE không thể xây dựng độ tin cậy của hệ thống hiệu quả trừ khi họ giám sát và báo cáo theo SLO thường xuyên.

Do đó, tổ chức cần đặt ra SLO có thể theo dõi, đo lường và báo cáo được cho SRE. SLO cũng cần phân loại công việc ưu tiên để tránh ảnh hưởng đến các công việc khác.

Lúc này, ngoài mục tiêu thúc đẩy độ tin cậy và hiệu quả của hệ thống trong suốt Chu kỳ phát triển phần mềm – Systems development life cycle, SRE còn có thêm trách nhiệm là đảm bảo hệ thống đáp ứng SLO và nhiều tiêu chuẩn khác đi kèm.

Nhưng làm sao để đạt được điều này? Đó là phải cải tiến liên tục !

3. SRE cần cải tiến liên tục hàng ngày

SRE cần cải tiến liên tục hàng ngày
SRE cần cải tiến liên tục hàng ngày

Các quy trình lặp lại được định nghĩa là loại công việc gắn liền với việc điều hành một dịch vụ/hệ thống có xu hướng thủ công, lặp đi lặp lại, không có giá trị lâu dài, có thể thay thế bằng tự động hóa. Việc cải tiến liên tục các quy trình lặp lại sẽ giảm thiểu công việc hàng ngày, cải thiện hiệu suất của các bộ phận khác.

Cải tiến liên tục là nguyên tắc cơ bản của DevOps, với SRE cũng vậy. Kỹ sư SRE cần tận dụng kỹ năng tự động hóa để giảm bớt công việc thủ công, tạo điều kiện cho nhóm SRE mở rộng quy mô mà vẫn duy trì tính nhất quán trên các hệ thống.

Nhờ đó, nhóm SRE có thể tập trung theo dõi hệ thống ghi nhật ký và số liệu, triển khai các dịch vụ mới, báo cáo SLO và thêm CICD pipelines vào các hệ thống khác. Đây là những task rất quan trọng mà chỉ có SRE mới đảm nhiệm được.

Bên cạnh đó, tổ chức cũng cần giới hạn công việc cho SRE, không để họ quá tải, dẫn đến giảm hiệu quả dự án.

4. Chọn mô hình SRE phù hợp

Chọn mô hình SRE phù hợp
Chọn mô hình SRE phù hợp

Khi xác định được SLO, quy trình tự động hóa và kế hoạch xử lý công việc, tổ chức có thể chọn cho mình mô hình SRE phù hợp. Có ba mô hình phổ biến:

  • Nhóm SRE tập trung (như Google)
  • Nhóm SRE phi tập trung
  • SRE embedded trong nhóm

Một số tổ chức coi trọng việc xây dựng văn hóa tin cậy giữa các kỹ sư thay vì vào một nhóm cụ thể. Do đó, thay vì giao trách nhiệm SRE cho một nhóm hoặc cá nhân, các tổ chức này đã tạo ra một hội đồng SRE bao gồm một nhóm kỹ sư đa chức năng, support leads và đại diện sản phẩm.

Tuy nhiên, thực tế việc triển khai SRE rất khác nhau giữa các tổ chức, và không có mô hình nào là phù hợp mãi mãi. Bạn cần lưu ý các điều sau:

  • Sự phù hợp thay đổi theo quy mô và mục tiêu cụ thể của tổ chức.
  • Không có tiêu chuẩn nào nhất định, chỉ cần làm những gì hiệu quả nhất cho tổ chức.
  • Tăng cường học hỏi kinh nghiệm từ các tổ chức khác.
  • Tập trung vào quản lý và giám sát SLO, quy trình triển khai tự động hóa, phân chia trách nhiệm rõ ràng giữa SRE và các team khác.

5. Kết luận

Để bắt đầu triển khai một mô hình SRE phù hợp với tổ chức, hãy ghi nhớ các bước trong bài viết này:

  • Bước 1: Thiết lập, giám sát và báo cáo về SLO – nền tảng để xây dựng và duy trì các hệ thống đáng tin cậy.
  • Bước 2: Cải tiến liên tục để đảm bảo các SRE được tập trung vào các task có giá trị thay vì mất thời gian vào các công việc thủ công lặp đi lặp lại.
  • Bước 3: Quản lý, giám sát, phân phối công việc và trách nhiệm rõ ràng giữa các bộ phận.

Khi thực hiện tốt các bước trên, tổ chức có thể tự tin triển khai một nhóm kỹ sư SRE phù hợp nhất với mình!

Nguồn: https://cuongquach.com/

LEAVE A REPLY