ai-100 day4 記錄
2 min readMar 8, 2020
EDA/讀取資料與分析流程
什麼是EDA?
Exploratory Data Analysis(EDA) — 意即用一些視覺化的工具, 先看一下資料長怎様
目的:
- 了解資料
- 覺現outlier 或異常數值
- 分析各變數間的關聯性
從EDA的過程中, 可以檢查資料是否符合分析前的假設
數據分析
練習時間
- 讀取csv
- 列出資料的大小 (In[4], Hint : shape)
- 列出所有欄位 (In[5], 有多種寫法)
- 擷取部分資料 (In[6], Hint : loc 或 iloc)
import numpy as np
import pandas as pdapp_train = pd.read_csv("./xxx.csv")
#列出資料的大小
app_train.shape #(111, 222) 111row, 222column#show all column
cols = app_train.columns.tolist()app_train.head(10) #show first 10 rows
app_train.iloc[0:3] #show first 3 rows
ref:
DataFrame 入門 https://bookdata.readthedocs.io/en/latest/base/01_pandas.html#DataFrame-%E5%85%A5%E9%97%A8