Pages

Hiển thị các bài đăng có nhãn MachineLearning. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn MachineLearning. Hiển thị tất cả bài đăng

21 thg 6, 2011

Một số thuật ngữ về Machine Learning

Bài này tôi trình bày một vài khái niệm cơ bản về học máy (Machine Learning) với mục đích phục vụ cho quá trình tìm hiểu về Data Mining.


Training data là một cặp đối tượng (dạng vector) gồm đầu vào và đầu ra tương ứng mong muốn.

Training set là tập các training data



(to be continue...)

Supervised learning - Học có giám sát

Supervised learning (học có giám sát)là một kỹ thuật trong Machine Learning có ứng dụng phổ biến trong các phân ngành Computer Science (đặc biệt là Data Mining).


Thuật toán supervised learning sẽ đảm bảo với một input bất kỳ thì luôn cho một output-phù-hợp tương ứng. Vấn đề ở đây là làm sao để thuật toán Supervised learning có thế đưa ra được output tương-đối-chuẩn-xác?! Một cách khái quát,thuật toán sẽ dựa vào tập dữ liệu huấn luyện (training set) cho trước, xây dựng trên tập đó một ánh xạ f (hàm f) input-output, và sau đó, khi đưa một input bất kỳ vào, thuật toán sẽ dự đoán output tương ứng (mấu chốt ở đây là dự đoán - predict ). Như vậy, output này sẽ rất khó đạt tới mức hoàn hảo (100%), nên tất hẳn tồn tại một hàm xác suất để đánh giá độ chuẩn xác của thuật toán supervised learning! Cần nói thêm về ánh xạ f, bản chất của nó là hàm phân lớp (classification) các dữ liệu huấn luyện, sau đó, khi có input, nó sẽ dựa căn cứ vào việc matching class-input để tìm ra được class phù hợp với input, từ đó đưa ra được output-phù hợp. Ánh xạ f được chia làm hai loại: classifier function ứng với output là thông tin rạc, và regression function (hàm hồi quy) nếu output là thông tin liên tục.