ai-100 day8 記錄
3 min readMar 21, 2020
EDA之資料分布
計算集中趨勢
- 平均值 Mean
- 中位數 Median
- 眾數 Mode
計算資料分散程度
- 最⼩小值 Min
- 最⼤大值 Max
- 範圍 Range
- 四分位差 Quartiles
- 變異異數 Variance
- 標準差 Standard deviation
EDA 視覺化方式
-https://matplotlib.org/gallery/index.html
-https://seaborn.pydata.org/examples/index.html
延伸閱讀
http://www.hmwu.idv.tw/web/R_AI_M/AI-M1-hmwu_R_Stat&Prob_v2.pdf
pandas 繪圖
hw note:
max 和 75% 數據差異太大
app_train['AMT_INCOME_TOTAL'].describe()
app_train['AMT_INCOME_TOTAL'].hist()
㑹看不出分佈, 可以去除最大的1%看看
app_train.loc[app_train['AMT_INCOME_TOTAL']<app_train['AMT_INCOME_TOTAL'].quantile(0.99)]['AMT_INCOME_TOTAL'].hist()
plt.xlabel('AMT_INCOME_TOTAL')