모니터링

image

서비스 디스커버리 image Alt text

image

image

  pull push
장점 중앙 집중식 구성  

서비스 검색 로드 관리 | 대기 시간 단축 네트워크 경계 통과 용이 | | 단점 | 네트워크 접근성 대기 시간 증가 | 분산형 구성 서비스 검색 로드 관리 | | 모니터링 도구 | 프로메테우스 influxdb | aws cloudwatch graphite |

latency

sre

site reliability engineering

시스템 안정성을 보장하기 위한 사고 방식

직무 역일

메트릭

규범적 방범

sre 의 주요 원칙

error budgets 가용성의 양 오류가 발생했을때 오류 예산을 줄이기 위해

scls (service level indicator) 대기시간

slos(service level objective) sli의 지표값 slo는 비즈니스, 개발자 및 운영자가 합의한 일정한 기간 동안의 SLI 목표값

slas(service level agreement) 100 - slo 값 image

image

99.99, 99.95가 좋은거임 image

image Alt text

cpu 사용량 50도 안넘기게 실무에선

image image image image

image

mttd 장애 인지 시간

mtti 장애 식별

mttr 장애 복구 시간 image

kibana

open search

image image image image image

마이크로서비스 모니터링

image image image

image