100 Ngày học Machine Learning Code- Ngày 1
Ngày 1: Tiền xử lý dữ liệu (#100ngayMLcode)
Như nội dung của Inforgraphic dưới đây chúng tôi chia nhỏ việc Tiền xử lý dữ liệu thành 6 bước:
Bước 1: Khởi tạo thư viện
import numpy as np
import pandas as pd
Bước 2: Nhập dữ liệu
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values
Bước 3: Xử lý các dữ liệu còn thiếu
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1:3])
Bước 4: Mã hóa các nhóm dữ liệu được phân loại
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
Tạo 1 biến giả
onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y)
Bước 5: Chia bộ dữ liệu thành tập “train” và “test” ( huấn luyện và kiểm tra)
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)
Bước 6: Tính năng mở rộng
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)
Hoàn thành!
Chúc mừng bạn đã kết thúc các bước code của ngày đầu tiên!
Còn tiếp…
Theo: Avik Jain (github.com)
Bạn còn đang ở đó không?
Hãy comment hoặc share để chúng tôi tiếp tục phát triển thêm nội dung này nhé.
Chân thành cám ơn!
Leave a Reply
Want to join the discussion?Feel free to contribute!