100 Ngày học Machine Learning Code- Ngày 5+6

Để tiếp tục với  # 100ngayhocmachinelearningcode, chúng ta cần dành thời gian đi sâu hơn về Logistic Regression thực sự là gì và tìm hiểu các thuật toán liên quan đến nó.

Bạn cần tìm hiểu cách tính hàm chi phí và sau đó làm thế nào để áp dụng thuật toán giảm độ dốc cho hàm chi phí để giảm thiểu lỗi trong dự đoán.

DataSet | Mạng xã hội

Bộ dữ liệu này chứa thông tin của người dùng trong một mạng xã hội. Những thông tin này là id người dùng theo độ tuổi và mức lương ước tính.

Một công ty xe hơi vừa ra mắt chiếc SUV hạng sang hoàn toàn mới của họ. Và chúng tôi đang cố gắng xem những người dùng nào trong số những người dùng mạng xã hội này sẽ mua chiếc SUV hoàn toàn mới này. Và cột cuối cùng ở đây cho biết nếu có hay không người dùng đã mua chiếc SUV.

Chúng tôi sẽ xây dựng một mô hình dự đoán nếu người dùng sẽ mua hoặc không sử dụng chiếc SUV dựa trên hai biến số sẽ là tuổi và mức lương ước tính. Vì vậy, ma trận tính năng của chúng tôi sẽ chỉ là hai cột này. Chúng tôi muốn tìm một số mối tương quan giữa độ tuổi và mức lương ước tính của người dùng và quyết định mua có hoặc không có chiếc SUV.

Bước 1 | Tiền xử lý dữ liệu

Nhập thư viện

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Nhập dữ liệu

Dữ liệu mẫu:  here

dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

Phân chia tập dữ liệu thành tập huấn luyện & kiểm tra

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

Tính năng mở rộng

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

Bước 2 | Mô hình hồi quy logistic

The library for this job which is going to be the linear model library and it is called linear because the logistic regression is a linear classifier which means that here since we’re in two dimensions, our two categories of users are going to be separated by a straight line. Then import the logistic regression class. Next we will create a new object from this class which is going to be our classifier that we are going to fit on our training set.

Kết hợp hồi quy logistic cho tập huấn luyện

from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression()
classifier.fit(X_train, y_train)

Bước 3 | Dự báo

Dự đoán kết quả thử nghiệm

y_pred = classifier.predict(X_test)

Bước 4 | Đánh giá dự báo

We predicted the test results and now we will evaluate if our logistic regression model learned and understood correctly. So this confusion matrix is going to contain the correct predictions that our model made on the set as well as the incorrect predictions.

Tạo ma trận nhầm lẫn

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

Hình dung

Còn tiếp…

Nguồn: Github.com

Nội dung của bài viết này có ích với bạn không? Hãy cho chúng tôi biết bằng cách comment phía dưới bài viết này nhé.
Những đánh giá và đóng góp của bạn sẽ tiếp thêm động lực để chúng tôi phát triển thêm về nội dung và chủ đề liên quan.
Chân thành cám ơn!

 

 

 

Bài viết liên quan:

Phản hồi

phản hồi

0 replies

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.