모델 online(실제 서비스가 나가있는 상태에서의) 모니터링
-
실제 서비스에서 모델의 동작 확인하고, 서비스의 이상치 감지
-
모델 드리프트 현상 감지
- 원인: 시간의 흐름에 따라 사용자 혹은 데이터 양상의 변경이 발생하는데, 모델의 학습이 빈번하지 않아 최신 데이터 양상을 기존 학습된 모델이 질 못 대응하는 등 모델 품질이 지속적으로 하락하게 된다.
- 해결: 모델 드리프트가 감지될 대 재학습을 하거나, 레이블 업데이트를 반영하여 Feature 최신화를 통해 최신 변화를 모델에 업데이트 해주어야 실제 서비스의 품질 보장이
모델 성능 및 서빙 서버의 서비스 지표
- Accuracy
- Latency
- Error Rate
- Transaction Per Second(TPS) 초당 트랜잭션의 개수
온라인 추론 후 처리 단계에서 APM, Logging 등으로 수집
- APM(Application Performance Monitoring)이란?
APM은 애플리케이션의 성능과 사용자의 디지털 경험을 실시간으로 추적하는 것을 의미합니다.