9 hiểu lầm “ngớ ngẩn” về machine learning

471

Những hiểu lầm và quan niệm lệch lạc về machine learning xuất hiện ngày càng nhiều do nó ngày càng bị cường điệu hoá. Bài viết này sẽ cho bạn một cái nhìn tổng quát về những gì machine learning có thể và không thể làm.

Có thể bạn muốn xem:

  Top những thuật toán machine learning mà bất cứ Data Scientist nào cũng cần phải biết (Phần 1)
  Top 10 thuật toán machine learning dành cho newbie

Machine learning được tin rằng hữu ích đến nỗi nó có thể giải quyết mọi vấn đề và áp dụng trong mọi tình huống. Giống như các công cụ khác, machine learning rất hữu ích trong một số lĩnh vực cụ thể, đặc biệt đối với các vấn đề mà bạn thường xuyên gặp phải nhưng bạn biết rõ rằng bạn sẽ không bao giờ có thể thuê đủ người để giải quyết, hoặc đối với các vấn đề có mục tiêu nhưng không có phương pháp rõ ràng để đạt được nó.

Tuy nhiên, mỗi tổ chức thường áp dụng machine learning theo những cách khác nhau, như 42% những nhà điều hành cấp cao gần đây nói với Accenture rằng họ mong đợi AI sẽ đứng sau tất cả những đổi mới vào năm 2021. Nhưng bạn sẽ khai thác nó tốt hơn nếu bạn không bị ảnh hưởng bởi những luồng ý kiến cường điệu hoá và không quá tin vào những định kiến bằng cách hiểu những gì machine learning có thể và không thể thực hiện.

1. Machine learning cơ bản là AI

Machine learning và AI thường được cho là hai từ đồng nghĩa, nhưng trong khi machine learning là kỹ thuật được sử dụng rất nhiều trong các phòng thí nghiệm, AI là một mảng lớn bao gồm các lĩnh vực như tầm nhìn máy tính, robot và xử lý ngôn ngữ tự nhiên, cũng như những cách tiếp cận khác như giảm sự hài lòng mà không bao gồm machine learning. Hãy suy nghĩ nó như những thứ làm cho máy móc trở nên thông minh hơn. Không phải lúc nào máy móc cũng sử dụng trí tuệ nhân tạo, thứ mà mọi người nghĩ có thể sẽ chiến đấu hoặc thậm chí tấn công loài người.

Hãy chú ý đến các thuật ngữ và sử dụng chúng thật chính xác. Machine learning là về học các mô hình và dự đoán các kết quả từ các tập dữ liệu lớn; các kết quả trông có vẻ ” thông minh” nhưng thật sự nó đang sử dụng các số liệu thống kê với tốc độ và quy mô chưa từng có.

2. Tất cả các dữ liệu đều hữu ích

Bạn cần data cho machine learning, nhưng không phải tất cả dữ liệu đều hữu ích cho machine learning. Để đào tạo hệ thống của bạn, bạn cần những dữ liệu đại diện bao gồm các patterns và kết quả mà hệ thống machine learning của bạn cần phải xử lý. Bạn cần dữ liệu không có các patterns liên quan (chẳng hạn như các ảnh cho thấy tất cả những người đàn ông đứng lên và tất cả phụ nữ ngồi xuống, hoặc tất cả những chiếc xe đang ở trong ga-ra và tất cả những chiếc xe đạp đang ở trong một bãi lầy) bởi vì mô hình machine learning sẽ phản ánh những patterns cụ thể và tìm chúng trong dữ liệu bạn có. Tất cả những dữ liệu bạn sử dụng cho việc đào tạo nó cần phải được phân loại tốt, và dán nhãn các tính năng bạn hỏi machine learning, điều đó tốn rất nhiều công sức.

Đừng nghĩ rằng dữ liệu bạn có luôn tốt, có thể đại diện cho phần đông hoặc có thể dễ dàng gắn nhãn.

3. Bạn luôn cần nhiều data

Những cải tiến lớn đã được thực hiện gần đây về khả năng nhận diện hình ảnh, đọc hiểu của máy, dịch thuật và các lĩnh vực khác đã ra mắt nhờ có sự xuất hiện của các công cụ tốt hơn, computing hardware như GPUs có thể xử lý một số lượng lớn dữ liệu và những tập dữ liệu lớn đã được gắn nhãn, bao gồm ImageNet và tập dữ liệu Stanford Question Answering. Nhưng nhờ vào một mẹo gọi là transfer learning, bạn không phải lúc nào cũng cần một tập dữ liệu lớn để đạt được kết quả tốt trong một lĩnh vực cụ thể; thay vào đó, bạn có thể dạy hệ thống machine learning học cách sử dụng tập dữ liệu để nó dần có thể tự học với những tập dữ liệu nhỏ hơn. Đó là cách custom vision APIs từ Salesforce và Microsoft Azure hoạt động: Bạn chỉ cần 30-50 hình ảnh để chứng minh rằng bạn có thể phân loại nhằm có kết quả tốt hơn.

Transfer learning cho phép bạn tùy chỉnh một hệ thống đã được đào tạo từ trước để giải quyết các vấn đề với lượng dữ liệu tương đối nhỏ.

Video: Tăng mạnh doanh thu và trải nghiệm người dùng với Data Analytics

4. Bất kì ai cũng có thể xây dựng một hệ thống machine learning

Có rất nhiều công cụ mã nguồn mở và framework dành riêng cho machine learning và có vô số các khóa học chỉ bạn cách sử dụng nó. Nhưng machine learning vẫn là một kĩ thuật chuyên ngành; bạn cần biết cách chuẩn bị dữ liệu và phân vùng cho việc đào tạo và testing, bạn cần biết cách chọn thuật toán tốt nhất và biết heuristics để sử dụng với nó, cách biến nó thành một hệ thống đáng tin cậy để sản xuất. Bạn cũng cần phải theo dõi hệ thống để đảm bảo rằng các kết quả được đồng bộ theo thời gian; cho dù thị trường có thay đổi hay hệ thống machine learning của bạn đủ tốt để phân loại các nhóm khách hàng khác nhau hay không, bạn cần tiếp tục kiểm tra để xem mô hình ấy vẫn còn phù hợp với vấn đề của bạn hay không.

Việc tìm hiểu machine learning tốn rất nhiều thời gian; nếu bạn mới bắt đầu, hãy nghĩ đến APIs và các mô hình đã được đào tạo từ trước mà code của bạn có thể có trong khi bạn có hoặc thuê data science và chuyên gia machine learning để xây dựng các hệ thống tùy chỉnh.

5. Tất cả các patterns trong data đều hữu ích

Người mắc bệnh suyễn, người bị đau ngực hoặc bệnh tim và bất kỳ ai trên 100 tuổi đều có tỉ lệ sống sót cao hơn những người bệnh bị viêm phổi. Trên thực tế, một hệ thống machine learning đơn giản được thiết kế để tự động nhập hồ sơ bệnh án có thể gửi chúng về tận nhà của bạn ( một hệ thống được huấn luyện trên cùng một dữ liệu với mạng lưới nơ-ron sẽ thực hiện những việc y chang nhau ). Lí do họ có tỉ lệ sống sót cao như thế là do họ luôn được ưu tiên nhập viện vì bệnh viêm phổi rất nguy hiểm.

Hệ thống đang tìm kiếm một pattern hợp lý trong dữ liệu; nó không phải là một pattern hữu ích để lựa chọn bệnh nhân vào viện  ( mặc dù nó giúp công ty bảo hiểm dự đoán chi phí điều trị khá hiệu quả ). Thậm chí nguy hiểm hơn, bạn sẽ không biết rằng những patterns không hiệu quả ấy có trong tập dữ liệu của bạn trừ khi bạn đã biết về chúng.

Trong các trường hợp khác, một hệ thống có thể học một pattern hợp lý ( như hệ thống nhận dạng khuôn mặt đang gây tranh cãi vì dự đoán chính xác xu hướng tình dục từ selfies) , nhưng nó không thực sự hiệu quả vì không có lời giải thích rõ ràng ( trong trường hợp các bức ảnh hiển thị các tín hiệu xã hội như pose chứ không phải hình tự nhiên).

Các mô hình ” Black box ” rất hiệu quả nhưng chúng không làm rõ được chúng đã học được pattern nào. Các thuật toán thông minh như Generalized Additive Models có thể làm rõ được model đã học đươc gì để bạn quyết định xem nó có hữu ích để triển khai hay không.

6. Reinforcement learning luôn sẵn sàng để sử dụng

Hầu như tất cả các hệ thống machine learning đang được sử dụng ngày nay đều sử dụng supervised learning; Trong nhiều trường hợp, chúng được đào tạo dựa trên các tập dữ liệu được gắn nhãn rõ ràng mà nhiều người đã cùng chuẩn bị. Quản lí các tập dữ liệu ấy mất rất nhiều thời gian và công sức, vì vậy các loại unsupervised learning được yêu thích hơn, đặc biệt là reinforcement learning (RL) – cách một agent học thông qua việc thử và sai, bằng cách tương tác với môi trường xung quanh và nhận thưởng khi có hành vi đúng. Hệ thống AlphaGo của DeepMind đã sử dụng RL bên cạnh supervised learning để đánh bại những người chơi Go hàng đầu, và Libratus, một hệ thống được xây dựng dựa trên một team ở Carnegie Mellon, đã sử dụng RL cùng hai kĩ thuật AI khác để đánh bại những người chơi poker hàng đầu trên thế giới tại Texas Hold’Em ( với chiến lược cá cược dài và phức tạp ). Các nhà nghiên cứu đang thử nghiệm RL với mọi thứ từ robot đến testing security software.

Tuy nhiên, RL chỉ phổ biến trong các trường hợp nghiên cứu. Google sử dụng DeepMind để tiết kiệm năng lượng trong các trung tâm dữ liệu của họ bằng việc làm mát chúng hiệu quả hơn; Microsoft sử dụng một phiên bản hạn chế của RL gọi là “ contextual bandits “ để cá nhân hoá các tiêu đề đối với các người dùng mới truy cập vào MSN.com. Vấn đề là chỉ có ít môi trường thực tế có phần thưởng và phản hồi tức thì, và đặc biệt là lừa gạt phần thưởng khi agent thực hiện nhiều hành động trước khi xảy ra bất cứ điều gì.

7. Machine learning không thiên vị

Vì machine learning học từ dữ liệu, nó sẽ sao chép bất kỳ sai lệch ​​nào trong tập dữ liệu. Tìm kiếm hình ảnh của CEO thường sẽ ra hình ảnh của nam CEO da trắng vì có nhiều CEO là người da trắng và là nam hơn những người còn lại. Nhưng machine learning làm các thiên hướng đã sai trở nên … càng sai hơn.

Tập dữ liệu COCO thường được sử dụng để huấn luyện hệ thống nhận dạng hình ảnh của cả nam và nữ; nhưng nhiều hình ảnh của phụ nữ sẽ được hiển thị bên cạnh thiết bị nhà bếp hơn và nhiều hình ảnh của đàn ông sẽ được hiển thị bên cạnh bàn phím máy tính và chuột hoặc vợt tennis và ván trượt tuyết. Đào tạo hệ thống trên COCO và gán đàn ông với phần cứng máy tính mạnh hơn các số liệu thống kê trong bức ảnh gốc.

Một hệ thống machine learning cũng có thể tạo thêm thiên hướng sai lệch cho thông tin. Đào tạo một hệ thống machine learning với các frameworks phổ biến để làm đại diện cho các từ như vectơ thể hiện mối quan hệ giữa frameworks và hệ thống sẽ học hỏi những định kiến như ” đàn ông gắn với lập trình máy tính, phụ nữ gắn với nội trợ”, bác sĩ và y tá hoặc ông chủ để tiếp tân. Nếu bạn sử dụng hệ thống đó với một hệ thống dịch giữa các ngôn ngữ có các đại từ như “ he, she “, như trong tiếng Anh, với những đại từ chỉ giới tính trung lập, như trong tiếng Phần Lan hoặc tiếng Thổ Nhĩ Kỳ, ” Họ là bác sĩ ” trở thành ” Anh ấy là bác sĩ ” và ” Họ là y tá ” trở thành ” Cô ấy là y tá “.

Machine learning có thể đưa ra những gợi ý tương tự trên các trang mua sắm khá tốt, nhưng một số vấn đề về thông tin nhạy cảm và feeback liên hồi có thể xảy ra; nếu bạn tham gia vào một nhóm Facebook không tán thành với việc tiêm ngừa, công cụ gợi ý của Facebook sẽ đưa ra gợi ý những nhóm khác liên quan đến lý thuyết conspiracy hoặc những nhóm tin rằng hình dạng của Trái đất là một mặt phẳng.

Bạn cần hiểu rõ những sai sót của machine learning. Nếu bạn không thể loại bỏ được chúng trong tập dữ liệu, hãy sử dụng các kĩ thuật như bình thường hoá các liên kết giới tính với các cặp từ để giảm sai sót hoặc bổ sung các mục không liên quan đến gợi ý để tránh “ filter bubble “.

8. Machine learning chỉ sử dụng cho những mục đích tốt

Machine learning cũng được dùng trong các tools chống virus, theo dõi nhất cử nhất động của những vụ tấn công mới để có thể phát hiện ra chúng nhanh nhất có thể khi vừa bùng phát. Tuy nhiên, các hacker đang sử dụng machine learning để nghiên cứu các công cụ phòng chống virus và phòng chống các cuộc tấn công lừa đảo với quy mô lớn bằng cách phân tích một lượng lớn public data hoặc phân tích các vụ lừa đảo thành công trước đó.

9. Machine learning sẽ dần thay thế con người

Khá nhiều người lo sợ rằng AI sẽ chiếm dần nhiều công việc và chắc chắn nó sẽ thay thế dẫn những công việc do con người làm và cả cách thực hiện; hệ thống machine learning giúp cải thiện hiệu quả, quá trình diễn ra mượt mà và giảm chi phí. Về lâu về dài, nó sẽ tạo ra những ra những công việc mới cũng như làm một số công việc hiện tại trở nên lỗi thời.

Tuy nhiên, không phải công việc nào machine learning cũng có thể thực hiện được, vì độ phức tạp hoặc quy mô của công việc; Ví dụ, bạn không thể thuê đủ người để kiểm tra mọi bức hình được đăng trên social media để xem chúng có liên quan đến thương hiệu của bạn hay không.

Việc machine learning đã bắt đầu tham gia vào là tạo ra những cơ hội kinh doanh mới, chẳng hạn như cải thiện trải nghiệm của khách hàng bằng predictive maintenance, và đưa ra những đề xuất và hỗ trợ cho các nhà lãnh đạo của doanh nghiệp. Giống như các thế hệ tự động hóa trước đó, machine learning có thể giúp nhân viên phát huy tối đa chuyên môn và sự sáng tạo của họ.

TopDev Via CIO