(2) 모비젠의 AD(Anomaly Detection) 엔진
모비젠의 Anomaly Detection 엔진
용어
feature
: 데이터에서 이상 탐지 대상이 되는 요인 필드를 의미합니다. 예를 들어 서버 상태의 이상 탐지를 위해서 CPU부하, 네트웍트래픽, 메모리사용량,, 이러한 필드가 feature 가 됩니다.참조 데이터 ( reference data )
: 장애가 발생한 적 없는 과거 기간의 정상값 데이터.참조 데이터의 key
: 참조 기간의 데이터에서 평균, 표준편차 등의 통계량을 계산하는 그룹 단위 데이터를 구하는 key. SQL 에서 “select * from .. group by 참조데이터의 key” 와 유사합니다.참조 통계량
: 참조 데이터에서 정상값의 범위를 구하고, 임계치를 설정하기 위해 계산하는 통계량. 분포 기반 평균, 표준편차, 최소값, 최대값, 중간값, IQR 등특징
대량의 system 및 system 이 가진 수많은 개별 feature 들의
임계치를 자동 설정
합니다.주기가 있는 시계열 데이터의
실시간 이상 탐지
기능- 이벤트 로그 데이터(예: 장비의 알람 로그) , 센서 측정 데이터, 큰 oscillation 데이터 등
다양한 데이터 특성과 분포
에 맞는 이상 탐지 기법 적용 smoothing 변환, moving Average, EWMA
정규 분포, poisson 분포, IQR 기반
- 이벤트 로그 데이터(예: 장비의 알람 로그) , 센서 측정 데이터, 큰 oscillation 데이터 등
- System Heath Monitoring 을 위해
이상 score
라는 통계량을 계산합니다. system 의 개별 feature 의 이상 탐지와 system 의 이상 score, system cluster, 운용 team 등으로 정량적 수치를 확장해서 감시에 활용할 수 있습니다.
- System Heath Monitoring 을 위해
- Change-point Detection
주요 system 의 상태 변화 시점 자동 탐지 기능
- 이상 탐지 결과를 이용하여 RCA(Route Cause Analysis) 에 적용
LTE Core 망 장비 대상으로 이상 탐지 적용 & RCA 적용 사례가 있습니다.( SKT )
임계치 자동 설정
장애가 발생하지 않은 과거 데이터( 참조 데이터 ) 를 기반으로 하여 자동으로 임계치 설정
요일별 / 휴일별 / 시간대별 key 가 결합된 참조데이터 key 를 만들어서 시계열 데이터의 임계치 설정
주기적으로 최신 데이터를 포함하여 임계치 갱신
- 데이터 타입 및 특성에 따른 통계량을 적용하여 임계치를 설정하고, 이에 따라 여러 종류의 탐지 알람을 생성하는 데 활용
정규 분포 기반으로
평균 +/- 3 * 표준편차
로 하는 상한, 하한 임계치IQR 기반의 상한, 하한 임계치
Poisson 분포 기반의 상한, 하한 임계치
Correlation 기반의 상한, 하한 임계치
운용자 설정 기반의 임계치 : 절대적인 기준이 필요하거나 정해진 MAX, MIN 값이 있을 때
다양한 이상값 판정 룰
- 다양한 이상값 판정 룰을 적용하기 위한 통계량 계산
정규 분포 기반으로 한 참조 데이터의 평균, 표준편차
분포와 무관한 사분위수, IQR
Poisson 분포 기반의 평균, 표준편차
Correlation 기반의 임계치
참조 데이터 기간동안 한번도 발생하지 않은 값의 판정
Moving Average 등 Smoothing 변환 데이터로 통계량을 계산하고, 입력 데이터 역시 변환하여 이상값을 판정
SPC rule 적용하여 추세 및 징후에 대한 탐지 기능 추가
EWMA 처럼 최신 값에 가중치를 준 데이터 변환으로 이상값 탐지
시계열 데이터의 이상 탐지
시간 요인을 추가
하여 임계치를 만들어야 합니다.smoothing 변환한 데이터
를 탐지 대상의 데이터로 수행하는 방법이 효과적입니다.이상 score 계산
- 이상 탐지 후 “이상 score” 에 포함되는 case 사례
- 판정 기준에 따라 다양한 이상 탐지 알람을 생성한 후 도메인 상황에 맞게 가중치를 적용하여 score 계산에 포함합니다.
평균 + 3*표준편차 (=상한 임계치) 를 벗어난 경우
평균 - 3*표준편차 (=하한 임계치) 를 벗어난 경우
참조 기간 데이터에서 한번도 발생하지 않았던 key
참조 기간 내내 같은 값을 가졌던(=편차값이 0) 데이터였는데 다른 값을 보인 경우
poisson 기반 평균 + K * 표준편차 를 벗어난 경우
그 외 IQR 기반, 사용자 설정 값 기반, SPC rule 기반으로 이상 탐지 알람 생성
주요 장비, 주요 알람에 부여한 가중치 적용
발생 시간대에 부여한 가중치 적용
개별 feature 단위로 발생한 이상 탐지 알람에 가중치를 부여한 “이상 score” 를 계산한 후, 이 점수로 “system 의 이상 score” 를 다시 계산합나다.
- system 의 “이상 score” 를 mimor, major, critical 로 나누어서 모니터링 화면에 표시합니다.
critical - 빨간색, major - 주황색, minor - 노란색, warning - 회색
system 의 이상 score 를 시계열 heatmap 으로 표시하면, 이상 score 가 증가하는 system 군과 이상 징후 발생 시점을 확인할 수 있습니다.