100 Ngày học Machine Learning Code- Ngày 3
Ngày 3: Hồi quy tuyến tính bội
Bước 1: Tiền xử lý dữ liệu
Lập thư viện dữ liệu
import pandas as pd
import numpy as np
Nhập dữ liệu
dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 4 ].values
Mã hóa các nhóm dữ liệu được phân loại
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
X[: , 3] = labelencoder.fit_transform(X[ : , 3])
onehotencoder = OneHotEncoder(categorical_features = [3])
X = onehotencoder.fit_transform(X).toarray()
Tránh bẫy biến giả
X = X[: , 1:]
Tách tập dữ liệu vào các tập “train” và “test” ( huấn luyện và kiểm tra)
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 0)
Bước 2: Kết hợp các hồi quy tuyến tính vào tập “train” ( huấn luyện)
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, Y_train)
Bước 3: Dự báo kết quả thử nghiệm
X = X[: , 1:]
Chúc mừng bạn đã hoàn thành ngày thứ 3 học và thực hành với Machine Learning Code!
Còn tiếp…
Nguồn: Github.com
Nội dung của bài viết này có ích với bạn không? Hãy cho chúng tôi biết bằng cách comment phía dưới bài viết này nhé.
Những đánh giá và đóng góp của bạn sẽ tiếp thêm động lực để chúng tôi phát triển thêm về nội dung và chủ đề liên quan.
Chân thành cám ơn!
Leave a Reply
Want to join the discussion?Feel free to contribute!