Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

9장 긴급대응 온콜 업무 #260

Closed
Tracked by #216
fkdl0048 opened this issue Jul 21, 2024 · 0 comments
Closed
Tracked by #216

9장 긴급대응 온콜 업무 #260

fkdl0048 opened this issue Jul 21, 2024 · 0 comments

Comments

@fkdl0048
Copy link
Owner

fkdl0048 commented Jul 21, 2024

9장 긴급대응 온콜 업무

언제 일어날지 모르는 장애에 대응하는 절차와 방안

많은 기업이 엔지니어에게 긴급대응 업무를 요구한다. 실제 게임업계에서도 매우 자주 일어나는 일로 라이브 서비스중인 게임에서 많이 발생한다.

긴급한 비상상황에 대응하는 온콜 업무

온콜업무란 주로 버그 보고, 팀이 담당하는 소프트웨어 동작 방식이나 사용법에 대한 질문 같은 일회성 지원 요청 처리 등을 말한다. 온콜 엔지니어는 이와 같은 요청을 분류해서 가장 급한 업무부터 대응한다.

게임에서는 라이브서비스 중인 게임의 업데이트, 서버 점검등이 포함될 것 같다.

반드시 갖춰야 할 온콜 스킬

온콜 업무는 늘 분주하며, 스트레스가 높은 경험이 될 수 있다. 하지만 다행스럽게도 장애와 지원 요청 모두를 처리할 수 있는 기본적인 스킬이 몇 가지 있다.

항시 언제라도 대응할 준비를 갖추자

가용성으로 온콜 업무의 대부분은 요청과 알람에 대응하는 것이다. 요청을 무시하거나 감춰서는 안 된다. 온콜 업무를 수행하는 동안에는 언제든 긴급 요청이 발생할 수 있음을 인지하고 그런 만큼 업무에 집중하기 어렵다는 사실을 받아들이자.

온콜 개발자가 하루종일 컴퓨터 근처에서 대기해야 경우도 있기 때문에 언제라도 대응할 수 있는 가용성이 필요하다.

주의를 늦추지 말고 집중하자

온콜 업무는 다양한 정보를 다루게 되는데 그 채널은 채팅, 메일, 전화, 등등.. 매우 다양하게 전달된다. 따라서 관련된 사항과 채널 정보는 미리 알아야 한다.

개인적으로 계속 당연한 말을 하는 듯한 느낌이 들었다.

업무 우선순위를 정하자

우선순위가 가장 높은 작업부터 시작하자. 그 작업이 끝나거나 막히면 우선순위가 높은 순부터 낮은 순으로 업무를 수행해 나가면 된다. 업무를 수행하다보면 알람이 울리고 새로운 질문이 들어올 것이다.

이것도 당연한 이야기...

실제 기업에서는 P0, P1, P2, P3 등의 우선순위를 부여하여 처리한다.

명확하게 의사소통하자

명확한 의사소통은 운영 업무를 처리하는 데 매우 중요하다. 상황이 급변하므로 의사소통이 잘못되면 큰 문제가 발생할 수 있다. 명확한 의사소통을 위해서는 공손하고 직접적이며 즉각적이고 철저해야 한다.

업무 진척사항을 추적하자

슬랙과 같은 채팅 채널을 이용해도 좋지만, 나중에 찾아보기 어려우므로 모든 사항을 티켓이나 문서로 요약해두자.

  • 시간을 기록
  • 완료된 이슈는 왜곡되지 않게 바로 처리

장애 처리의 5가지 단계

장애 처리는 온콜 엔지니어의 가장 중요한 책임이다. 대부분의 개발자는 장애 처리를 프로덕션 환경의 문제를 해결하는 것이라고 생각한다. 물론 문제 해결도 중요하지만 심각한 장애 상황에서의 최우선 목표는 문제의 영향을 완화하고 서비스를 복구하는 것이다.

두 번째 목표가 문제가 왜 발생했는지 나중에 분석할 수 있도록 정보를 수집하는 것이다. 장애 원인을 파악하고 정확한 지점을 찾아 문제를 해결하는 것은 그저 세 번째 목표일 뿐이다.

  1. 선별: 문제를 찾아내고 심각도를 파악한 뒤 누가 수정할 지 결정한다.
  2. 조율: 팀은 반드시 이슈에 대해 전달받아야 한다. 온콜 엔지니어가 스스로 문제를 해결할 수 없다면 해결 할 수 있는 사람을 찾아야 한다.
  3. 완화: 엔지니어는 반드시 최대한 빠른 시간 내에 서비스를 안정화해야 한다. 완화는 장기적인 해결책이 아니다.
  4. 해결: 문제가 완화되면 엔지니어는 숨을 돌리고 해결책에 대해 생각을 가다듬으며 작업할 시간을 벌게 된다.
  5. 후속 조치: 애당초 왜 장애가 발생했는지 근본적인 원인에 대한 조사를 수행한다.

장애 조치 단계는 추상적으로 보일 수도 있지만, 이 흐름이라는 것을 기억하라.

지원 업무도 엄연한 온콜 업무다

온콜 엔지니어는 장애를 처리하지 않을 때는 지원 요청을 처리한다. 지원 요청은 상당히 표준화된 흐름을 따른다. 요청을 받으면 요청을 접수했음을 알리고 문제를 제대로 이해했는지 일단 확인한다.

영웅이 되려 하지는 말자

온콜 업무를 하다 보면 만족감을 느낄 수 있다. 하지만 온콜 업무를 너무 많이 수행하다 보면 번아웃이 올 수 있다.

결국 자신을 관리하는 능력도 중요하다는 이야기인 것 같다.

결론

전체적으로 당연한 이야기를 당연하게 한다는 느낌을 받았지만, 그래도 실제 업무에 들어가 다시 이 책을 읽으면 느끼는 점이 많을 것 같다는 생각이 든다.

@fkdl0048 fkdl0048 added the 2024 label Jul 21, 2024
@fkdl0048 fkdl0048 added this to Todo Jul 21, 2024
@fkdl0048 fkdl0048 self-assigned this Jul 21, 2024
@github-project-automation github-project-automation bot moved this to Todo in Todo Jul 21, 2024
@fkdl0048 fkdl0048 added this to the The Missing README milestone Jul 21, 2024
@fkdl0048 fkdl0048 moved this from Todo to Two-Week Plan in Todo Jul 21, 2024
@fkdl0048 fkdl0048 moved this from Two-Week Plan to In Progress in Todo Jul 22, 2024
@github-project-automation github-project-automation bot moved this from In Progress to Done in Todo Jul 22, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
Status: Done
Development

No branches or pull requests

1 participant