3 Bước quan trọng để xây dựng dự án Machine Learning thành công

Bài viết dựa trên góc độ phổ thông và ít cân nhắc đến yếu tốkỹ thuật để phù hợp thực hiện cho tất cả các dự án Machine Learning.

 

Khi các cá nhân và các công ty tham gia vào Machine Learning ( Học máy), một số người thường mong đợi sẽ đi sâu vào việc xây dựng các mô hình và tạo ra đầu ra hữu ích.

Và trong khi một số phần của dự án Machine Leaning tạo cảm giác giống như những kỹ thuật bị phù phép với các dự đoán kỳ diệu, vẫn có những khía cạnh khác ít kỹ thuật hơn và được cho là quan trọng hơn nhiều mà chúng ta có thể nghiên cứu và tác động.

Dành đủ thời gian để xác định câu hỏi đúng, dữ liệu tiền xử lý đúng và xem xét tác động của việc sử dụng mô hình của bạn có thể cải thiện đáng kể sự thành công của dự án Machine Leanning của bạn.

Tôi hy vọng rằng với tư cách là một công ty, người quản lý hoặc kỹ sư đang tìm cách tận dụng Machine Learning, những lời khuyên này sẽ giúp bạn tiết kiệm thời gian và giúp bạn ưu tiên cho những nỗ lực trong tương lai.

Hãy bắt đầu bằng một câu hỏi

Bước đầu tiên, đặt câu hỏi đúng, thường có thể là phần khó nhất trong cuộc phiêu lưu với Machine Leanring của bạn. Mục đích của bất kỳ dự án Học máy nào là trả lời một câu hỏi.

Người nào đã viết ra bài này, người đó là người thế nào, họ có giá là gì, người đó có những mẫu nào? Có một câu hỏi cụ thể mà bạn đã tập trung vào trả lời cho phép bạn xác định rõ chức năng mục tiêu của mình và giúp bạn xác định dữ liệu bạn cần để thực hiện công việc.

Nếu không hỏi đúng câu hỏi, nhóm của bạn có thể chìm vào luồng thời gian với vô số giờ để thu thập, tinh chỉnh và mô hình hóa dữ liệu tạo ra một sản phẩm vô dụng. Thậm chí tệ hơn, những loại trục trặc này có thể làm giảm giá trị cảm nhận của ML trong tổ chức của bạn, dẫn đến ít hỗ trợ hơn trong tương lai.

Để tránh điều này, trước khi chuyển tiếp về bất kỳ dự án liên quan đến dữ liệu nào, hãy tạm dừng và nêu rõ câu hỏi bạn tìm cách trả lời. Sau đó xác định hàm mục tiêu, tối đa hóa độ chính xác, bạn dự định sử dụng để đo lường tiến trình của mình.

Điều này có vẻ như là một bước đơn giản, và đúng vậy đó , nhưng nó có thể dễ dàng bị lãng quên. Và trong khi câu hỏi đầu tiên của bạn có thể không phải là câu hỏi đúng, ít nhất bạn sẽ đạt được tiến bộ hướng tới một mục tiêu rõ ràng mà bạn có thể lặp lại từ đó.

Chuẩn bị phần chuẩn bị dữ liệu của bạn

Thu thập và tiền xử lý dữ liệu có khả năng chiếm tới ~ 90% nỗ lực. Và 10% còn lại có khả năng kiểm tra, điều chỉnh và vận hành mô hình của bạn.

Đối với phương pháp học nông, điều này bao gồm khám phá dữ liệu của bạn, các tính năng kỹ thuật và chuẩn hóa dữ liệu sang định dạng hữu ích. Ngay cả với các phương pháp học sâu, dữ liệu nên được khám phá và điều chỉnh định hướng để đảm bảo hiệu suất hợp lý.

Mặc dù nhiều thao tác trong số này được thực hiện dễ dàng với một vài dòng mã từ các thư viện như Scikit-learn hoặc Keras, việc khám phá dữ liệu và xác thực rằng nó là đại diện cho dữ liệu thực tế là tốn thời gian.

Kỹ thuật tính năng đòi hỏi một sự hiểu biết khá sâu sắc về bối cảnh kinh doanh và có các tính năng phù hợp thực sự có thể cải thiện kết quả của bạn, vì vậy chỉ cần ném một nhà khoa học dữ liệu solo vào vấn đề có thể không có kết quả.

Những người bắt đầu với Machine Learning trong tổ chức của họ nên xây dựng nhiều thời gian để cho phép khám phá và chuẩn bị dữ liệu này trước khi mong đợi kết quả. Hãy thẳng thắn về việc có bao nhiêu nỗ lực có thể đi vào bước này và đừng vội vã bỏ qua điểm chính xác.

Trong cài đặt sản xuất, có khả năng bạn sẽ không thu thập được tất cả các điểm dữ liệu mà bạn có thể hy vọng, vì vậy cần nhận định rằng bạn có thể cần phải lặp lại để tập hợp trường dữ liệu sưu tập tốt hơn.

Nhìn chung, cần lập kế hoạch để có một giai đoạn lặp lại dài hơn về tiền xử lý dữ liệu và quản lý kỳ vọng tương ứng.

Mô hình của bạn sẽ có tác động gì?

Nói một cách tổng quát, Machine Learning ,đặc biệt là Deep Learning, có giá trị đầu ra dựa trên một số phép biến đổi toán học mà nó tự thực hiện dựa trên dữ liệu huấn luyện.

Các thuật toán này có thể xác định một số mô hình trong dữ liệu đào tạo mà chúng ta, con người, chưa nhận ra, nhưng mô hình không có ý thức suy nghĩ hoặc tự đưa ra quyết định. Nó chỉ đơn giản là điều chỉnh trọng số hoặc giá trị để tối đa hóa  hoặc tối thiểu hóa chức năng mục tiêu của nó; một trọng tâm rất kỳ dị.

Chỉ cần cố gắng tận dụng mô hình của bạn trên một tập hợp dữ liệu hoàn toàn khác và bạn sẽ nhận ra mức độ cụ thể của mô hình của mình.

Chúng ta nên dành một chút thời gian để xem xét lý do tại sao đầu ra của chúng ta là như vậy, liệu rằng nó sẽ khái quát tốt đối với dữ liệu trực tiếp và liệu có thể có bất kỳ hậu quả không mong muốn nào từ việc sử dụng nó.

Tôi tin rằng điều này rất quan trọng để chỉ ra bởi vì nhiều lần hệ thống dễ dàng lấy đầu ra (tức là các dự báo, tiên lượng) của một mô hình và khởi chạy, mà không xem xét sự thiên vị có thể bị rò rỉ.

Vì mô hình không phải là tư duy của người Viking, nó sẽ không thích ứng với những cân nhắc về đạo đức xã hội hay tư duy đạo đức của bạn trừ khi chức năng khách quan và dữ liệu đào tạo của nó được căn chỉnh để làm như vậy.

Phần kết luận

Tóm lại, các công cụ và kỹ thuật cho học máy đang tiến bộ nhanh chóng, nhưng có một số cân nhắc phụ trợ phải được thực hiện song song. Tập trung vào đúng mục tiêu, xử lý dữ liệu đúng cách và đặt câu hỏi về đầu ra của bạn là tất cả các hành động bạn nên xem xét khi thực hiện bất kỳ dự án máy học nào.

Ngay khi chúng ta thấy sự tiến bộ theo cấp số nhân trong năng lực kỹ thuật của học máy, chúng ta nên thúc đẩy tiến trình học máy hỗ trợ các hoạt động với tốc độ thậm chí rất lớn.

Nguồn dịch: Tác giả Jonathan Hirko

Nội dung của bài viết này có ích với bạn không? Hãy cho chúng tôi biết bằng cách comment phía dưới bài viết này nhé.
Những đánh giá và đóng góp của bạn sẽ tiếp thêm động lực để chúng tôi phát triển thêm về nội dung và chủ đề liên quan.
Chân thành cám ơn!

 

 

Phản hồi

phản hồi

0 replies

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.