ai-100 day8 記錄

Ngchiwa Ng
3 min readMar 21, 2020

--

EDA之資料分布

計算集中趨勢

  • 平均值 Mean
  • 中位數 Median
  • 眾數 Mode

計算資料分散程度

  • 最⼩小值 Min
  • 最⼤大值 Max
  • 範圍 Range
  • 四分位差 Quartiles
  • 變異異數 Variance
  • 標準差 Standard deviation

EDA 視覺化方式

https://matplotlib.org/gallery/index.html

https://seaborn.pydata.org/examples/index.html

延伸閱讀

http://www.hmwu.idv.tw/web/R_AI_M/AI-M1-hmwu_R_Stat&Prob_v2.pdf

https://www.healthknowledge.org.uk/public-health-textbook/research-methods/1b-statistical-methods/statistical-distributions

pandas 繪圖

hw note:

max 和 75% 數據差異太大

app_train['AMT_INCOME_TOTAL'].describe() 
app_train['AMT_INCOME_TOTAL'].hist()

㑹看不出分佈, 可以去除最大的1%看看

app_train.loc[app_train['AMT_INCOME_TOTAL']<app_train['AMT_INCOME_TOTAL'].quantile(0.99)]['AMT_INCOME_TOTAL'].hist()
plt.xlabel('AMT_INCOME_TOTAL')

--

--

Ngchiwa Ng
Ngchiwa Ng

Written by Ngchiwa Ng

Backend/iOS Engineer, rock the world

No responses yet