[트러블슈팅] Prometheus 알림 폭풍 서버 재시작할 때마다 알림이 50-100건씩 쏟아져서 정작 중요한 알림을 놓치고 있었다. for 절과 inhibit_rules로 노이즈를 90% 줄인 과정을 정리한다. 2025년 10월 27일
Prometheus + Grafana + Loki 모니터링 스택 구축 장애를 SSH로 확인하던 구조를 Prometheus(메트릭) + Loki(로그) + Grafana(시각화) + Alertmanager(알림)로 자동화해서 장애 감지를 30초 이내로 줄인 과정을 정리한다. 2025년 9월 1일