ai-100 day4 記錄

Ngchiwa Ng
2 min readMar 8, 2020

--

EDA/讀取資料與分析流程

什麼是EDA?

Exploratory Data Analysis(EDA) — 意即用一些視覺化的工具, 先看一下資料長怎様

目的:

  • 了解資料
  • 覺現outlier 或異常數值
  • 分析各變數間的關聯性

從EDA的過程中, 可以檢查資料是否符合分析前的假設

數據分析

練習時間

- 讀取csv

  • 列出資料的大小 (In[4], Hint : shape)
  • 列出所有欄位 (In[5], 有多種寫法)
  • 擷取部分資料 (In[6], Hint : loc 或 iloc)
import numpy as np
import pandas as pd
app_train = pd.read_csv("./xxx.csv")
#列出資料的大小
app_train.shape #(111, 222) 111row, 222column
#show all column
cols = app_train.columns.tolist()
app_train.head(10) #show first 10 rows
app_train.iloc[0:3] #show first 3 rows

ref:

DataFrame 入門 https://bookdata.readthedocs.io/en/latest/base/01_pandas.html#DataFrame-%E5%85%A5%E9%97%A8

--

--

Ngchiwa Ng
Ngchiwa Ng

Written by Ngchiwa Ng

Backend/iOS Engineer, rock the world

No responses yet