Trong những năm gần đây, Trí tuệ nhân tạo (AI) cụ thể là Machine Learning đang len lỏi vào trong mọi lĩnh vực của đời sống con người mà có thể chúng ta không nhận ra. Vậy Machine Learning là gì? Vì sao lại được ứng dụng rộng rãi đến như vậy? Bài viết dưới đây sẽ giúp giải đáp những thắc mắc của bạn cũng như đề cập đến một vài ứng dụng của Machine Learning hiện nay.
Machine Learning hay còn gọi là Học máy là một lĩnh vực của trí tuệ nhân tạo (AI) và khoa học máy tính.
Machine Learning liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Machine Learning tập trung vào việc sử dụng dữ liệu và thuật toán để bắt chước cách con người học, sau đó dần dần cải thiện độ chính xác của nó.
Một ví dụ cụ thể dành cho Machine Learning: các máy có thể “học” để phân loại các loại thư điện tử là thư rác hay không, sau đó sắp xếp vào thư mục tương ứng.
IBM có một lịch sử phong phú về Machine Learning. Một trong đó là Arthur Samuel, được cho là đã đặt ra thuật ngữ “Machine Learning” với nghiên cứu xung quanh trò chơi cờ caro. Robert Nealey, tự xưng là bậc thầy cờ caro, đã chơi trò chơi này trên máy tính IBM 7094 vào năm 1962, và ông đã thua chiếc máy tính này.
So với những gì có thể làm được ngày nay, những điều này gần như không đáng kể, nhưng đây được coi là một cột mốc quan trọng trong lĩnh vực trí tuệ nhân tạo. Trong vài thập kỷ tới, những phát triển công nghệ xung quanh khả năng lưu trữ và xử lý sẽ liên quan đến một số sản phẩm sáng tạo mà chúng ta biết và yêu thích ngày nay, chẳng hạn như động cơ đề xuất của Netflix hoặc ô tô tự lái.
Lịch sử của Machine Learning
Machine Learning là một thành phần quan trọng của lĩnh vực khoa học dữ liệu đang phát triển. Thông qua việc sử dụng các phương pháp thống kê, các thuật toán để đưa ra phân loại hoặc dự đoán, khám phá những hiểu biết quan trọng trong các dự án khai thác dữ liệu.
Những thông tin chi tiết này sau đó thúc đẩy ra các quyết định trong ứng dụng và doanh nghiệp, tác động lý tưởng đến các chỉ số tăng trưởng chính. Khi dữ liệu tiếp tục mở rộng và phát triển, nhu cầu thị trường đối với các nhà khoa học dữ liệu sẽ tăng lên, đòi hỏi họ phải hỗ trợ xác định các câu hỏi kinh doanh phù hợp nhất và đưa ra câu trả lời chính xác nhất.
Ngoài định nghĩa Machine Learning, bạn có thể tìm hiểu thêm về Deep Learning. Đó là phần mềm máy tính bắt chước mạng lưới các nơ-ron trong bộ não chúng ta. Deep Learning là tập hợp con thuộc về Machine Learning.
Machine learning Workflow
Machine learning Workflow giúp bạn có thể thấy quy tình để làm việc với Machine learning. Đối với mọi bài toán Machine Learning đều sẽ có quy trình như sau:
Machine learning Workflow
- Gathering data/Data collection (Thu thập dữ liệu): Đây là công việc tốn thời gian nhất và có thể chiếm 70-80% tổng thời gian quy trình. Tuy nhiên, công việc này rất quan trọng và ảnh hưởng đến mô hình máy học của bạn. Để mô hình có chất lượng và hoạt động tốt yêu cầu một bộ dữ liệu tốt.
- Data preprocessing (Tiền xử lý dữ liệu): Trong chuỗi quy trình này, tiền xử lý dữ liệu giúp loại bỏ các thuộc tính không cần thiết và chuẩn hóa dữ liệu. Công việc này tỉ lệ thuận với bước thu thập dữ liệu.
- Training model (Huấn luyện mô hình) & Evaluating model (Đánh giá mô hình): Việc xây dựng, huấn luyện và đánh giá mô hình sẽ ít chiếm thời gian hơn. Tuy nhiên, công việc được xoay vòng thực hiện liên tục, sau khi đánh giá mô hình ta tiếp tục tìm cách tối ưu > huấn luyện > đánh giá cho tới khi độ chính xác tăng cao. Tuy công việc chiếm ít thời gian nhưng đây được coi là giai đoạn quan trọng để lựa chọn mô hình phù hợp.
- Improve (Cải thiện): Sau khi bạn đã đánh giá và chọn được mô hình phù hợp, một vài mô hình đạt độ chính xác chưa đạt yêu cầu thì cần được huấn luyện lại, chúng ta sẽ lặp lại từ bước 3, cho đến khi đạt độ chính xác như kỳ vọng. Thời gian dành cho 3 bước huấn luyện, đánh giá, cải thiện chiếm khoảng 30% tổng quy trình.
Phân loại Machine Learning
Machine learning được phân làm ba loại chính như sau:
Phân loại Machine Learning
1. Supervised Machine Learning (Machine Learning được giám sát)
Machine Learning được giám sát, hay còn được gọi là học máy có giám sát, được định nghĩa bằng cách sử dụng các tập dữ liệu được gắn nhãn để tạo các thuật toán nhằm phân loại dữ liệu hoặc dự đoán kết quả một cách chính xác.
Học máy có giám sát giúp các tổ chức giải quyết nhiều vấn đề trong thế giới thực trên quy mô lớn, chẳng hạn như phân loại thư rác trong một thư mục riêng biệt từ hộp thư đến. Một số phương pháp được sử dụng trong học máy có giám sát bao gồm mạng nơ-ron, Navie Bayes, hồi quy tuyến tính, hồi quy logistic, Random Forest, thuật toán SVM,…
2. Unsupervised Machine Learning (Machine learning không được giám sát)
Machine Learning không giám sát, còn được gọi là học máy không giám sát, sử dụng các thuật toán học máy để phân tích và phân cụm các tập dữ liệu không được gắn nhãn. Các thuật toán này phát hiện ra các mẫu hoặc nhóm dữ liệu ẩn mà không cần sự can thiệp của con người.
Khả năng phát hiện ra những điểm tương đồng và khác biệt trong thông tin khiến nó trở thành giải pháp lý tưởng để phân tích dữ liệu khám phá, chiến lược bán chéo, phân khúc khách hàng, nhận dạng hình ảnh và mẫu.
Unsupervised Machine Learning cũng được sử dụng để giảm số lượng tính năng trong một mô hình thông qua quá trình giảm kích thước. Phân tích thành phần chính (PCA) và phân tích giá trị đơn lẻ (SVD) là hai cách tiếp cận phổ biến cho việc này. Các thuật toán khác được sử dụng trong machine learning không giám sát bao gồm neural network, phân cụm K-mean, phương pháp phân nhóm xác suất,…
3. Semi-supervised Learning (Machine Learning bán giám sát)
Semi-supervised Learning cung cấp một phương tiện kết nối giữa Machine Learning có giám sát và không giám sát. Trong quá trình đào tạo, nó sử dụng một tập dữ liệu có nhãn nhỏ hơn để hướng dẫn phân loại và trích xuất tính năng từ một tập dữ liệu lớn hơn mà không được gắn nhãn. Semi-supervised Learning có thể giải quyết vấn đề không có đủ dữ liệu được gắn nhãn để đào tạo thuật toán học có giám sát.
Semi-supervised Learning
Một số khái niệm trong Machine Learning
- Dataset: Là tập dữ liệu ở dạng nguyên thủy chưa được xử lý mà bạn đã thu thập được ở bước data collection. Một dataset có thể chứa nhiều data point.
- Data point: Là một đơn vị thông tin độc lập trong tập dữ liệu của bạn, chẳng hạn như bạn có các tập dữ liệu bao gồm giá nhà, ngày xây, diện tích,… thì một điểm dữ liệu sẽ gồm các thông tin đó. Một tập hợp các điểm dữ liệu được gọi là tập dữ liệu.
- Training data và test data: Dataset thường được chia làm 2 tập này, training data có nhiệm vụ để huấn luyện trong mô hình Machine Learning Workflow, test data để dự đoán kết quả và đánh giá mô hình.
- Features vector: Là vector đặc trưng, mỗi vector mang nhiệm vụ biểu diễn cho một điểm dữ liệu trong dataset. Mỗi vector đều có n chiều biểu diễn các đặc trưng của điểm dữ liệu, mỗi đặc trưng là một chiều và phải là dữ liệu số. Các mô hình chỉ có thể huấn luyện được từ các vector đặc trưng này, do đó dataset cần phải chuyển về dạng một tập các vector đặc trưng (features vectors).
- Model: Là những mô hình thường được dùng training trên các training data dựa theo thuật toán của mô hình. Và sau đó mô hình sẽ dự đoán hoặc đưa các quyết định dựa trên những gì đã được học.
Ứng dụng của Machine Learning là gì?
- Nhận diện hình ảnh (Image Recognition): Nhận dạng hình ảnh cũng là một trong những ứng dụng phổ biến của Machine Learning. Machine Learning cũng được ứng dụng để phát hiện khuôn mặt trong ảnh của nhiều người. Có một danh mục riêng cho mỗi người trong cơ sở dữ liệu hình ảnh của nhiều người.
- Nhận dạng giọng nói: Hay còn được gọi là nhận dạng giọng nói tự động (ASR – Automatic Speech Recognition), sử dụng Natural Language Proccessing (NLP – xử lý ngôn ngữ tự nhiên) để xử lý giọng nói của con người thành định dạng viết. Nhiều thiết bị di động tích hợp tính năng nhận dạng giọng nói vào hệ thống để thực hiện tìm kiếm bằng giọng nói.
Ví dụ: Siri có thể truy cập vào mọi ứng dụng tích hợp sẵn trên thiết bị Apple của bạn như Mail, bản đồ, tin nhắn, danh bạ,… bằng cách nói chuyện.
Ứng dụng của Machine Learning
- Dịch vụ khách hàng: Chatbot trực tuyến đang thay thế các tác nhân con người trong quá trình giao tiếp với khách hàng. Chatbot trả lời các câu hỏi thường gặp (FAQ) xung quanh các chủ đề, như vận chuyển hoặc cung cấp lời khuyên được cá nhân hóa, bán sản phẩm chéo hoặc đề xuất kích thước cho người dùng, thay đổi cách chúng ta nghĩ về mức độ tương tác của khách hàng trên các trang web và nền tảng truyền thông xã hội.
Ví dụ: Message bot trên các trang web thương mại điện tử với tác nhân ảo, ứng dụng nhắn tin, chẳng hạn như Slack và Facebook Messenger, và các tác vụ thường được thực hiện bởi trợ lý ảo và trợ lý giọng nói.
- Computer vision: Công nghệ AI này cho phép máy tính và hệ thống lấy thông tin có ý nghĩa từ hình ảnh kỹ thuật số, video và các đầu vào trực quan khác. Dựa trên các đầu vào đó có thể thực hiện hành động. Khả năng cung cấp các khuyến nghị này phân biệt chúng với các nhiệm vụ nhận dạng hình ảnh. Được hỗ trợ bởi mạng nơ-ron phức hợp, computer vision có các ứng dụng trong việc gắn thẻ ảnh trên mạng xã hội, chụp ảnh X quang trong chăm sóc sức khỏe và xe hơi tự lái trong ngành công nghiệp ô tô.
- Công cụ đề xuất: Sử dụng dữ liệu hành vi tiêu dùng trong quá khứ, các thuật toán AI có thể giúp khám phá các xu hướng dữ liệu có thể được sử dụng để phát triển các chiến lược bán chéo hiệu quả hơn. Điều này được sử dụng để đưa ra các đề xuất bổ sung có liên quan cho khách hàng trong quá trình thanh toán cho các nhà bán lẻ trực tuyến.
- Giao dịch chứng khoán tự động: Được thiết kế để tối ưu hóa danh mục đầu tư chứng khoán, các nền tảng giao dịch tần suất cao do AI điều khiển thực hiện hàng nghìn hoặc thậm chí hàng triệu giao dịch mỗi ngày mà không cần sự can thiệp của con người.
Lời kết
Hiện nay, Machine Learning vẫn chưa đạt đến độ chính xác 100%, vì các thuật toán do con người tạo ra và chịu sự tác động của con người. Tuy nhiên, Machine Learning thực sự là một công cụ tuyệt vời cần được khai thác. Hy vọng với bài viết này, bạn đã hiểu rõ hơn về Machine Learning và các ứng dụng của nó.
Vina Aspire là công ty tư vấn, cung cấp các giải pháp, dịch vụ CNTT, An ninh mạng, bảo mật & an toàn thông tin tại Việt Nam. Đội ngũ của Vina Aspire gồm những chuyên gia, cộng tác viên giỏi, có trình độ, kinh nghiệm và uy tín cùng các nhà đầu tư, đối tác lớn trong và ngoài nước chung tay xây dựng.
Các Doanh nghiệp, tổ chức có nhu cầu liên hệ Công ty Vina Aspire theo thông tin sau:
Email: info@vina-aspire.com | Website: www.vina-aspire.com
Tel: +84 944 004 666 | Fax: +84 28 3535 0668
Vina Aspire – Vững bảo mật, trọn niềm tin