ai-100 day6 記錄

Ngchiwa Ng
2 min readMar 15, 2020

--

了解 pandas dataframe 欄位的基本資料類型

  1. 資料類型

離散變數-只能用整數單位(ex 房間數量)

連續變數- 在一定區間內的任意數值(ex 身高)

2. Pandas所支持的數據類型

ref http://pandas.pydata.org/pandas-docs/stable/basics.html?highlight=astype#selecting-columns-based-on-dtype
Pandas所支持的數據類型:
1. float
2. int
3. bool
4. datetime64[ns]
5. datetime64[ns, tz]
6. timedelta[ns]
7. category
8. object
默認的數據類型是int64,float64.

資料原來是字串類別的話,如果要做進一步的分析時(如訓練模

型),一般需要轉為數值的資料類型,轉換的⽅方式通常有兩種

  • Label encoding:
    - 有序
    - ex 年齡分組(小孩:0,年輕人:1, 老人:2
    小孩<年輕人<老人
    0<1<2
  • One Hot encoding
    -不同類別是無序的

hw:

Label Encoding

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df[col] = le.transform(df[col])

One Hot Encoding

df = pd.DateFrame()
df = pd.get_dummies(df)

--

--

Ngchiwa Ng
Ngchiwa Ng

Written by Ngchiwa Ng

Backend/iOS Engineer, rock the world

No responses yet