ai-100 day9 記錄
1 min readMar 22, 2020
outliner
異常值(Outliers)出現的可能原因:
- 未知值,隨意填補 (約定俗成的代入)
如年齡 = -1 或 999, 電話是 0900–123–456 - 可能的錯誤紀錄/⼿手誤/系統性錯誤
ex: 訂單的銷售量量 = 1000 本
檢查 Outliers 的流程與⽅方法:
- 盡可能確認每⼀個欄欄位的意義
- 透過檢查數值範圍 (五值、平均數及標準差) 或繪製散點圖 (scatter)、分布圖 (histogram) 或其他圖檢查是否有異異常
Outliner 處理:
- 新增欄欄位⽤用以紀錄異常與否
- 填補 (取代)
- 視情況以中位數, Min, Max 或平均數填補(有時會用 NA)
reading: