μ„€λΉ„ 결함과 이상 감지

μ „λ ₯ μ„€λΉ„μ—μ„œ λ°œμƒν•˜λŠ” κ²°ν•¨μ—λŠ” 지락(λˆ„μ „), κ³ΌλΆ€ν•˜, κ³Όμ—΄ λ“±μ˜ 였λ₯˜μ™€ κ²½κ³  μƒνƒœλ₯Ό ν¬ν•¨ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. μ „λ ₯ μ„€λΉ„ λͺ¨λ‹ˆν„°λ§ μ‹œμŠ€ν…œμ—μ„œμ˜ 이상 κ°μ§€λŠ” 각 μ„€λΉ„ λ””λ°”μ΄μŠ€λ‘œλΆ€ν„° μˆ˜μ§‘λ˜λŠ” 폴트 데이터 이외에 μ‹œκ³„μ—΄ 데이터λ₯Ό λΆ„μ„ν•˜μ—¬ 정상적인 데이터 범주에 μ†ν•˜μ§€ μ•ŠλŠ” μ΄μƒμΉ˜λ₯Ό νŒλ³„ν•˜κ³  μ „λ ₯ μ„€λΉ„ 결함 λ˜λŠ” μ˜ˆμƒ 징후λ₯Ό μ˜ˆμΈ‘ν•˜λŠ”λ° ν™œμš©λ©λ‹ˆλ‹€. 이미 이상 감지(Anomaly Detection)λ₯Ό ν†΅ν•΄μ„œ 슀마트 νŒ©ν† λ¦¬μ—μ„œλŠ” μ„€λΉ„ λΆˆλŸ‰μ„ κ²€μΆœν•˜κ³  금육 λΆ„μ•Όμ—μ„œλŠ” μ΄μƒκ±°λž˜ 탐지(Fraud Detection)ν•˜λŠ” λ‹€μ–‘ν•˜κ²Œ ν™œμš©λ˜κ³  μžˆμŠ΅λ‹ˆλ‹€.

μ΄μƒμΉ˜ 데이터λ₯Ό κ°μ§€ν•˜λŠ” 방법

μ΄μƒμΉ˜(Anomaly) 데이터λ₯Ό κ°μ§€ν•˜λŠ” 방법은 톡계학적 근거에 μ˜ν•œ νŒλ³„λΆ€ν„° AI λ¨Έμ‹  λŸ¬λ‹μ˜ ν•™μŠ΅ 및 예츑 λͺ¨λΈ 기반의 λ°©λ²•μœΌλ‘œ λ°œμ „λ˜μ–΄ μ‚¬μš©λ˜κ³  μžˆλŠ” κ²ƒμœΌλ‘œ λ³΄μž…λ‹ˆλ‹€. λ‹€μŒμ˜ μ˜μƒλ“€μ—μ„œλ„ 비정상 데이터λ₯Ό κ°μ§€ν•˜λŠ” 방법에 λŒ€ν•΄μ„œ 닀루고 μžˆλŠ” κ±Έ 확인할 수 μžˆμ—ˆμŠ΅λ‹ˆλ‹€.

β–  Z-Score based Anomaly Detection

λ¨Όμ €, Z-Scoreλ₯Ό ν†΅ν•œ 이상 κ°μ§€λŠ” ν†΅κ³„ν•™μ μœΌλ‘œ 정상적인 데이터가 3ν‘œμ€€νŽΈμ°¨ λ²”μœ„μ— μ†ν•œλ‹€λŠ” 3μ‹œκ·Έλ§ˆ κ·œμΉ™(3-sigma Rule)에 μ˜ν•œ κ²½ν—˜μ μΈ 좔정을 근거둜 μ΄μƒμΉ˜ 데이터λ₯Ό νŒλ³„ν•˜λŠ” λ°©μ‹μž…λ‹ˆλ‹€. 또 λ‹€λ₯Έ 톡계학적 λ°©μ‹μ—λŠ” μžκΈ°νšŒκ·€(Auto Regressive)와 이동 평균(Moving Average)으둜 μΆ”λ‘ λœ 예츑된 값을 기반으둜 μ΄μƒμΉ˜λ₯Ό ν™•μΈν•˜λŠ” ARIMA μ‹œκ³„μ—΄ 예츑 λͺ¨λΈ 기반 이상 탐지가 μžˆμŠ΅λ‹ˆλ‹€.

β–  Ensemble based Anomaly Detection

앙상블 기반 이상 νƒμ§€λŠ” μ—¬λŸ¬κ°€μ§€ μ˜μ‚¬κ²°μ • 트리(Decision Tree)λ₯Ό 톡해 μ΄μƒμΉ˜λ₯Ό νŒλ³„ν•˜λŠ” λ°©μ‹μœΌλ‘œ λŒ€ν‘œμ μœΌλ‘œ IF(Isolation Forest)κ°€ 있으며 데이터 밀도에 μ˜ν•œ 트리λ₯Ό ν†΅ν•΄μ„œ 비상적인 λ°μ΄ν„°λŠ” 루트 λ…Έλ“œμ™€ κ·Όμ ‘ν•˜λ©΄μ„œ 경둜 길이가 μž‘μ€ 데이터가 됨을 κ·Όκ±°λ‘œν•˜μ—¬ μ΄μƒμΉ˜λ‘œ κ²°μ •ν•˜κ²Œ λ©λ‹ˆλ‹€.

β–  Distance based Anomaly Detection

μœ μ‚¬λ„λ₯Ό μΈ‘μ •ν•˜λŠ” 거리(Distance) κ³΅μ‹μœΌλ‘œ μ΄μƒμΉ˜ 데이터λ₯Ό νŒλ³„ν•˜λŠ” λ°©λ²•μ—λŠ” k-NN(K-Nearest Neighbor), LOF(Local outlier factors), λ§ˆν• λΌλ…ΈλΉ„μŠ€ 거리 (Mahalanobis Distance) 기반의 이상 탐지가 μžˆμŠ΅λ‹ˆλ‹€. μœ ν΄λ¦¬λ“œ 거리 곡식 이외에 λ§ˆν• λΌλ…ΈλΉ„μŠ€ κ±°λ¦¬λŠ” 처음 λ“€μ–΄λ³΄λŠ”λ° 곡뢄산 행렬이 μΆ”κ°€λœ 것이라고 ν•©λ‹ˆλ‹€.

β–  Clustering based Anomaly Detection

ν΄λŸ¬μŠ€ν„°λ§ 기반 이상 νƒμ§€λŠ” 정상적인 λ°μ΄ν„°μ˜ ꡰ집을 λΆ„μ„ν•˜κ³  정상적인 νŒ¨ν„΄μœΌλ‘œ νŒŒμ•…λœ κ΅°μ§‘μ—μ„œ 사전 μ •μ˜λœ μž„κ³„μΉ˜(Threshold)λ₯Ό μ–Όλ§ˆλ‚˜ λ²—μ–΄λ‚˜λŠ”κ°€λ‘œ μ΄μƒμΉ˜ 데이터λ₯Ό νŒλ³„ν•©λ‹ˆλ‹€. ꡰ집화 μ•Œκ³ λ¦¬μ¦˜μ€ μ—¬λŸ¬κ°€μ§€κ°€ μžˆμ§€λ§Œ λŒ€ν‘œμ μœΌλ‘œ K-Means, GMM(Gaussian Mixture Model), DBSCAN이 ν™œμš©λ˜λŠ” 것 κ°™μŠ΅λ‹ˆλ‹€.

β–  Kernal based Anomaly Detection

OCSVM(One-class Support Vector Machine)와 Deep SVDD(Support Vector Data Description)은 정상적인 데이터에 λŒ€ν•œ λ°˜μ§€λ„ ν•™μŠ΅μ΄ ν•„μš”ν•œ 컀널 기반 이상 탐지 κΈ°λ²•μž…λ‹ˆλ‹€. OCSVM(1-SVM)은 κ°€μž₯ 많이 μ‚¬μš©λ˜λŠ” 컀널 기반 이상 탐지라고 ν•˜λ©° Deep SVDDλŠ” DNN(Deep Neural Network)으둜 ν™•μž₯ν•œ λͺ¨λΈμ΄λΌκ³  ν•©λ‹ˆλ‹€.

β–  Reconstruction error based Anomaly Detection

AE(AutoEncoder)와 PCA(Principal Component Analysis) 그리고 GAN(Generative Adversarial Network)은 μ••μΆ•λœ 데이터λ₯Ό 원본 λ°μ΄ν„°λ‘œ μž¬κ΅¬μ„±ν•  λ•Œ λ°œμƒν•˜λŠ” 였차λ₯Ό 톡해 μ΄μƒμΉ˜λ₯Ό νŒλ³„ν•˜λŠ” 이상 탐지 κΈ°λ²•μž…λ‹ˆλ‹€.

β–  Transformer based Anomaly Detection

Anomaly TransformerλŠ” μ‹œκ³„μ—΄ 데이터에 Transformerλ₯Ό μ ‘λͺ©ν•œ λͺ¨λΈλ‘œ Self Attention에 μ˜ν•œ μ—°κ΄€μ„± ν•™μŠ΅μœΌλ‘œ λ‹€λ³€λŸ‰ μ‹œκ³„μ—΄ 데이터에 λŒ€ν•΄ κ°œμ„ λœ 이상 탐지가 κ°€λŠ₯ν•˜λ‹€κ³ ν•˜λ‹ˆ μ—¬λŸ¬κ°€μ§€ IoT λ””λ°”μ΄μŠ€μ˜ μ‹œκ³„μ—΄ 데이터에 λŒ€ν•œ 이상 탐지에 μœ μš©ν•  κ²ƒμœΌλ‘œ λ³΄μž…λ‹ˆλ‹€.

이상 탐지λ₯Ό 직접 해보아야

이상 탐지에 λŒ€ν•œ 정보λ₯Ό μ‚΄νŽ΄λ³΄λ‹€λ³΄λ‹ˆ λŒ€λΆ€λΆ„μ˜ 글이 잘 μ΄ν•΄λ˜μ§€ μ•ŠλŠ” νŒκ΅μ–΄μ²˜λŸΌ 보이게 λ˜μ–΄λ²„λ¦¬λŠ” 것 κ°™μŠ΅λ‹ˆλ‹€. νŒŒμ΄μ¬μ„ λ°°μ›Œλ³΄λŠ” μ‹œκ°„μ„ κ°€μ§€λ©΄μ„œ 사이킷 런(scikit-learn) 라이브러리둜 μ‹œκ³„μ—΄ 데이터에 λŒ€ν•œ 이상 감지λ₯Ό 직접 해보아야 이해가 될 κ²ƒμœΌλ‘œ μƒκ°λ©λ‹ˆλ‹€.