본문으로 건너뛰기

운영 우수성

운영 우수성(Operational Excellence)은 “시스템을 운영하면서 비즈니스 가치를 지속적으로 전달하고, 그 과정에서 발생하는 절차를 계속 개선하는 능력"을 다루는 기둥입니다. 핵심은 사람이 수동으로 반복하는 작업을 코드와 자동화로 대체하고, 무엇이 일어나고 있는지 항상 관찰 가능하게 만드는 것입니다.

운영을 코드로 관리하기 (Infrastructure as Code)

콘솔에서 클릭으로 리소스를 만드는 방식은 재현이 불가능하고 실수가 누적됩니다. CloudFormation이나 CDK로 인프라를 코드로 정의하면 다음과 같은 이점이 생깁니다.

  • 변경 내역이 Git 히스토리로 남아 누가, 언제, 왜 바꿨는지 추적 가능
  • 동일한 템플릿으로 Dev/Staging/Production 환경을 일관되게 복제
  • 코드 리뷰 프로세스를 인프라 변경에도 동일하게 적용 가능

변경 관리와 장애 대응 절차

변경은 작게, 자주, 되돌릴 수 있게 만드는 것이 원칙입니다. CodeDeploy의 블루/그린 배포나 카나리 배포로 새 버전을 일부 트래픽에만 먼저 노출하고, 문제가 감지되면 자동으로 이전 버전으로 롤백하는 구조를 만듭니다.

장애가 실제로 발생했을 때는 사전에 정의된 런북(Runbook)과 플레이북(Playbook)이 있어야 합니다. “데이터베이스 연결이 끊겼을 때 누가 무엇을 확인하는가"가 사고 발생 시점이 아니라 사전에 문서화되어 있어야 대응 속도가 빨라집니다. 사고 종료 후에는 비난 없는 사후 분석(Blameless Post-incident Review)을 통해 같은 장애가 재발하지 않도록 시스템과 절차를 개선합니다.

CloudWatch와 X-Ray로 가시성 확보

운영 우수성은 결국 “지금 시스템에 무슨 일이 일어나고 있는지 알 수 있는가"에서 시작합니다.

  • CloudWatch: 메트릭, 로그, 알람을 수집해 임계치 위반 시 자동 알림이나 Auto Scaling 트리거를 실행
  • CloudWatch Logs Insights: 대량의 로그를 쿼리해 패턴을 분석
  • X-Ray: 마이크로서비스 환경에서 하나의 요청이 여러 서비스를 거치는 경로를 추적(분산 트레이싱)해, 어느 구간에서 지연이 발생하는지 시각적으로 파악
SAP 연결: 모놀리식을 마이크로서비스로 전환하는 과정에서는 서비스 수가 늘어날수록 가시성 확보가 더 중요해집니다. SAP 도메인 4: 마이그레이션과 현대화에서 이 전환을 다루며, X-Ray 같은 도구 없이 마이크로서비스 전환을 시도하면 트러블슈팅이 거의 불가능해진다는 점을 함께 기억하세요.