ai-100 day6 記錄
2 min readMar 15, 2020
了解 pandas dataframe 欄位的基本資料類型
- 資料類型
離散變數-只能用整數單位(ex 房間數量)
連續變數- 在一定區間內的任意數值(ex 身高)
2. Pandas所支持的數據類型
ref http://pandas.pydata.org/pandas-docs/stable/basics.html?highlight=astype#selecting-columns-based-on-dtype
Pandas所支持的數據類型:
1. float
2. int
3. bool
4. datetime64[ns]
5. datetime64[ns, tz]
6. timedelta[ns]
7. category
8. object
默認的數據類型是int64,float64.
資料原來是字串類別的話,如果要做進一步的分析時(如訓練模
型),一般需要轉為數值的資料類型,轉換的⽅方式通常有兩種
- Label encoding:
- 有序
- ex 年齡分組(小孩:0,年輕人:1, 老人:2
小孩<年輕人<老人
0<1<2 - One Hot encoding
-不同類別是無序的
hw:
Label Encoding
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df[col] = le.transform(df[col])
One Hot Encoding
df = pd.DateFrame()
df = pd.get_dummies(df)