We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
언제 일어날지 모르는 장애에 대응하는 절차와 방안
많은 기업이 엔지니어에게 긴급대응 업무를 요구한다. 실제 게임업계에서도 매우 자주 일어나는 일로 라이브 서비스중인 게임에서 많이 발생한다.
온콜업무란 주로 버그 보고, 팀이 담당하는 소프트웨어 동작 방식이나 사용법에 대한 질문 같은 일회성 지원 요청 처리 등을 말한다. 온콜 엔지니어는 이와 같은 요청을 분류해서 가장 급한 업무부터 대응한다.
게임에서는 라이브서비스 중인 게임의 업데이트, 서버 점검등이 포함될 것 같다.
온콜 업무는 늘 분주하며, 스트레스가 높은 경험이 될 수 있다. 하지만 다행스럽게도 장애와 지원 요청 모두를 처리할 수 있는 기본적인 스킬이 몇 가지 있다.
가용성으로 온콜 업무의 대부분은 요청과 알람에 대응하는 것이다. 요청을 무시하거나 감춰서는 안 된다. 온콜 업무를 수행하는 동안에는 언제든 긴급 요청이 발생할 수 있음을 인지하고 그런 만큼 업무에 집중하기 어렵다는 사실을 받아들이자.
온콜 개발자가 하루종일 컴퓨터 근처에서 대기해야 경우도 있기 때문에 언제라도 대응할 수 있는 가용성이 필요하다.
온콜 업무는 다양한 정보를 다루게 되는데 그 채널은 채팅, 메일, 전화, 등등.. 매우 다양하게 전달된다. 따라서 관련된 사항과 채널 정보는 미리 알아야 한다.
개인적으로 계속 당연한 말을 하는 듯한 느낌이 들었다.
우선순위가 가장 높은 작업부터 시작하자. 그 작업이 끝나거나 막히면 우선순위가 높은 순부터 낮은 순으로 업무를 수행해 나가면 된다. 업무를 수행하다보면 알람이 울리고 새로운 질문이 들어올 것이다.
이것도 당연한 이야기...
실제 기업에서는 P0, P1, P2, P3 등의 우선순위를 부여하여 처리한다.
명확한 의사소통은 운영 업무를 처리하는 데 매우 중요하다. 상황이 급변하므로 의사소통이 잘못되면 큰 문제가 발생할 수 있다. 명확한 의사소통을 위해서는 공손하고 직접적이며 즉각적이고 철저해야 한다.
슬랙과 같은 채팅 채널을 이용해도 좋지만, 나중에 찾아보기 어려우므로 모든 사항을 티켓이나 문서로 요약해두자.
장애 처리는 온콜 엔지니어의 가장 중요한 책임이다. 대부분의 개발자는 장애 처리를 프로덕션 환경의 문제를 해결하는 것이라고 생각한다. 물론 문제 해결도 중요하지만 심각한 장애 상황에서의 최우선 목표는 문제의 영향을 완화하고 서비스를 복구하는 것이다.
두 번째 목표가 문제가 왜 발생했는지 나중에 분석할 수 있도록 정보를 수집하는 것이다. 장애 원인을 파악하고 정확한 지점을 찾아 문제를 해결하는 것은 그저 세 번째 목표일 뿐이다.
장애 조치 단계는 추상적으로 보일 수도 있지만, 이 흐름이라는 것을 기억하라.
온콜 엔지니어는 장애를 처리하지 않을 때는 지원 요청을 처리한다. 지원 요청은 상당히 표준화된 흐름을 따른다. 요청을 받으면 요청을 접수했음을 알리고 문제를 제대로 이해했는지 일단 확인한다.
온콜 업무를 하다 보면 만족감을 느낄 수 있다. 하지만 온콜 업무를 너무 많이 수행하다 보면 번아웃이 올 수 있다.
결국 자신을 관리하는 능력도 중요하다는 이야기인 것 같다.
전체적으로 당연한 이야기를 당연하게 한다는 느낌을 받았지만, 그래도 실제 업무에 들어가 다시 이 책을 읽으면 느끼는 점이 많을 것 같다는 생각이 든다.
The text was updated successfully, but these errors were encountered:
fkdl0048
No branches or pull requests
9장 긴급대응 온콜 업무
많은 기업이 엔지니어에게 긴급대응 업무를 요구한다. 실제 게임업계에서도 매우 자주 일어나는 일로 라이브 서비스중인 게임에서 많이 발생한다.
긴급한 비상상황에 대응하는 온콜 업무
온콜업무란 주로 버그 보고, 팀이 담당하는 소프트웨어 동작 방식이나 사용법에 대한 질문 같은 일회성 지원 요청 처리 등을 말한다. 온콜 엔지니어는 이와 같은 요청을 분류해서 가장 급한 업무부터 대응한다.
게임에서는 라이브서비스 중인 게임의 업데이트, 서버 점검등이 포함될 것 같다.
반드시 갖춰야 할 온콜 스킬
온콜 업무는 늘 분주하며, 스트레스가 높은 경험이 될 수 있다. 하지만 다행스럽게도 장애와 지원 요청 모두를 처리할 수 있는 기본적인 스킬이 몇 가지 있다.
항시 언제라도 대응할 준비를 갖추자
가용성으로 온콜 업무의 대부분은 요청과 알람에 대응하는 것이다. 요청을 무시하거나 감춰서는 안 된다. 온콜 업무를 수행하는 동안에는 언제든 긴급 요청이 발생할 수 있음을 인지하고 그런 만큼 업무에 집중하기 어렵다는 사실을 받아들이자.
온콜 개발자가 하루종일 컴퓨터 근처에서 대기해야 경우도 있기 때문에 언제라도 대응할 수 있는 가용성이 필요하다.
주의를 늦추지 말고 집중하자
온콜 업무는 다양한 정보를 다루게 되는데 그 채널은 채팅, 메일, 전화, 등등.. 매우 다양하게 전달된다. 따라서 관련된 사항과 채널 정보는 미리 알아야 한다.
개인적으로 계속 당연한 말을 하는 듯한 느낌이 들었다.
업무 우선순위를 정하자
우선순위가 가장 높은 작업부터 시작하자. 그 작업이 끝나거나 막히면 우선순위가 높은 순부터 낮은 순으로 업무를 수행해 나가면 된다. 업무를 수행하다보면 알람이 울리고 새로운 질문이 들어올 것이다.
이것도 당연한 이야기...
실제 기업에서는 P0, P1, P2, P3 등의 우선순위를 부여하여 처리한다.
명확하게 의사소통하자
명확한 의사소통은 운영 업무를 처리하는 데 매우 중요하다. 상황이 급변하므로 의사소통이 잘못되면 큰 문제가 발생할 수 있다. 명확한 의사소통을 위해서는 공손하고 직접적이며 즉각적이고 철저해야 한다.
업무 진척사항을 추적하자
슬랙과 같은 채팅 채널을 이용해도 좋지만, 나중에 찾아보기 어려우므로 모든 사항을 티켓이나 문서로 요약해두자.
장애 처리의 5가지 단계
장애 처리는 온콜 엔지니어의 가장 중요한 책임이다. 대부분의 개발자는 장애 처리를 프로덕션 환경의 문제를 해결하는 것이라고 생각한다. 물론 문제 해결도 중요하지만 심각한 장애 상황에서의 최우선 목표는 문제의 영향을 완화하고 서비스를 복구하는 것이다.
두 번째 목표가 문제가 왜 발생했는지 나중에 분석할 수 있도록 정보를 수집하는 것이다. 장애 원인을 파악하고 정확한 지점을 찾아 문제를 해결하는 것은 그저 세 번째 목표일 뿐이다.
장애 조치 단계는 추상적으로 보일 수도 있지만, 이 흐름이라는 것을 기억하라.
지원 업무도 엄연한 온콜 업무다
온콜 엔지니어는 장애를 처리하지 않을 때는 지원 요청을 처리한다. 지원 요청은 상당히 표준화된 흐름을 따른다. 요청을 받으면 요청을 접수했음을 알리고 문제를 제대로 이해했는지 일단 확인한다.
영웅이 되려 하지는 말자
온콜 업무를 하다 보면 만족감을 느낄 수 있다. 하지만 온콜 업무를 너무 많이 수행하다 보면 번아웃이 올 수 있다.
결국 자신을 관리하는 능력도 중요하다는 이야기인 것 같다.
결론
전체적으로 당연한 이야기를 당연하게 한다는 느낌을 받았지만, 그래도 실제 업무에 들어가 다시 이 책을 읽으면 느끼는 점이 많을 것 같다는 생각이 든다.
The text was updated successfully, but these errors were encountered: