Máy học – Machine Learning và một vài hạn chế.

2023

Mặc dù học máy (machine learning) chỉ bắt đầu phát triển vào những năm 1990, nhưng nó đã nhanh chóng trở thành một nhánh con phổ biến nhất và cũng có nhiều thành công nhất của AI, một xu thế được thúc đẩy bởi sự ra đời của phần cứng nhanh hơn và bộ dữ liệu lớn hơn.

Học máy liên quan chặt chẽ đến thống kê toán học, nhưng nó khác với thống kê ở nhiều khía cạnh quan trọng. Không giống như thống kê, học máy có xu hướng xử lý các bộ dữ liệu lớn, phức tạp (như bộ dữ liệu gồm hàng triệu hình ảnh, mỗi bộ gồm hàng chục nghìn pixel) mà phân tích thống kê cổ điển như phân tích Bayes trở nên không thực tế. Do vậy, học máy, và đặc biệt là học sâu, thiếu (có lẽ là rất thiếu) nền tảng toán học và có khuynh hướng kỹ thuật nhiều hơn.

Nó tuân thủ nguyên tắc thực dụng trong đó các ý tưởng thường được kiểm chứng bằng thực nghiệm hơn là được chứng minh một cách chặt trẽ. Trong cuộc sống hàng ngày, hầu hết chúng ta đã quen thuộc với việc mô tả các sự vật, hiện tượng của thế giới bên ngoài qua các khái niệm, các con số, các giác quan…gọi chung là các thuộc tính (feature). Những mô tả đó (tập các thuộc tính) được gọi là các biểu diễn (representation) của sự vật, hiện tượng.

  Top 20 API trong AI và Machine Learning bạn nên biết

Cùng một sự vật, hiện tượng cũng có nhiều cách biểu diến khác nhau, có biểu diễn rất sáng sủa và cũng có biểu diễn rất mờ mịt; có biểu diễn thuận lợi cho việc này nhưng không dễ xử lý ở công việc khác… Ví dụ chúng ta có thể gắn cho mỗi người một cái tên và một số định danh (duy nhất cho mỗi người). Với “tên”, chúng ta rất dễ nhớ nhưng cũng rất khó khăn khi cần phải xác định một con người cụ thể trong trường hợp trùng tên; ngược lại, “định danh” hoàn toàn xác định chính xác “ai là ai” nhưng gây phiền phức rất lơn khi bắt con người phải nhớ “định danh” của ai đó.

Các biểu diễn cũng có thể chuyển đổi cho nhau để phù hợp với từng nhu cầu cụ thể. Ví dụ chúng ta có thể biểu diễn một hàm số trên miền thời gian và cũng có thể biến đổi chúng về biểu diễn trên miền tần số bằng chuỗi fourier thông qua một ánh xạ mang tên biến đổi fourier. Ánh xạ này cho chúng ta nhìn thấy hình ảnh sáng sủa của một hàm “rối rắm” trong miền thời gian như tổng của các hàm tuần hoàn đơn giản.

Cách nhìn mới cho phép chúng ta áp dụng các công cụ phù hợp để tạo ra các ứng dụng có ý nghĩa hơn (ví dụ trong xử lý tín hiệu). Mục đích của học máy là tìm cách biến đổi các dữ liệu đầu vào thành các dữ liệu đầu ra có ý nghĩa hơn. Nói một cách khác, một mô hình học máy (machine learning model) sẽ ánh xạ dữ liệu từ một không gian biểu diễn vào một không gian biểu diễn khác mà trên đó chúng ta có thể hiểu rõ hơn về dữ liệu ban đầu. Chính vì vậy học máy cũng được gọi là là học biểu diễn (representation learning) hay học thuộc tính (feature learning). Một biểu diễn chính là một cách nhìn vào dữ liệu để biểu diễn hoặc mã hóa chúng.

Chẳng hạn, một hình ảnh màu có thể được mã hóa ở định dạng RGB (đỏ-lục-lam) hoặc ở định dạng HSV (hue-saturation-value): đây là hai cách biểu thị khác nhau của cùng một dữ liệu. Một số công việc có thể khó khăn với một biểu diễn nhưng có thể trở nên dễ dàng với một biểu diễn khác. Ví dụ, việc “chọn tất cả các pixel màu đỏ trong hình ảnh” đơn giản hơn ở định dạng RGB, trong khi đó “làm cho hình ảnh ít bão hòa hơn” lại đơn giản hơn ở định dạng HSV. Tất cả các mô hình học máy đều là việc tìm kiếm các biểu diễn thích hợp cho dữ liệu đầu vào của chúng – biến đổi dữ liệu của bộ dữ liệu làm cho một công việc nào đó trở nên dẽ dàng hơn, chẳng hạn như phân loại các đối tượng.

  Tổng hợp tài liệu tự học lập trình Python "from Zero to Hero"

Quay trở lại ví dụ về phép biến đổi fourier. Phép biến đổi này là thành quả lao động có ý nghĩa vô cùng lớn đồng thời cũng chặt trẽ về mặt lý thuyết của những bộ óc siêu việt và được viết ra thành một công thức tường minh (tức là đã được thuật toán hóa). Tuy nhiên đời không như mơ. Trong thực tế thường không có sẵn (và thậm chí không tồn tại) những món ăn thịnh soạn chờ đợi chúng ta thưởng thức.

Với những trường hợp như vậy, học máy chính là người đấu bếp tạo ra các món ăn (các biểu diễn) từ nguyên liệu ban đầu là dữ liệu. Nói một cách hình tượng, học máy làm thay bộ não con người trong việc tìm kiếm các ánh xạ biến đổi biểu diễn ban đầu của dữ liệu thành dạng biểu diễn có ý nghĩa hơn, trừu tượng và bất biến hơn (ổn định hơn). Điều này cũng cắt nghĩa tại sao nền tảng toán học của học máy còn khá sơ khai. Trong vài năm gần đây, nhiều tác giả đang cố gắng xây dựng nền móng toán học cho học máy khi liên hệ bài toán học máy với các phương pháp giải bài toán ngược (Inverse Problem).

Từ cách nhìn như vậy chúng ta có thể phân biệt hai dạng học máy: học nông (shallow learning) và học sâu (deep learning).Thuật ngữ “deep learning” là cách nói đời thường và mang nhiều sắc thái tiếp thị đôi khi dẫn tới nhầm lẫn. Những người xa lạ với chuyên ngành học máy khi gặp thuật ngữ này thường nghĩ tới việc học một điều gì đó sâu sắc tới ngọn nguồn. Thực chất thuật ngữ “học sâu” ám chỉ việc áp dụng mốt cách tuần tự một chuỗi (lớn hơn 2 và trong thực tế ứng dụng có thể lên tới hàng ngàn) các anh xạ từ không gian biểu diễn này sang một không gian biểu diễn khác, mỗi kết quả (biểu diễn) của ánh xạ ở bước trước sẽ là đầu vào cho ánh xạ ở bước sau để tạo ra một biểu diễn mới mang nhiều ý nghĩa hơn.

Mỗi biểu diễn được goi là một tầng (layer). Chính vì thế học sâu cũng được gọi là “học biểu diễn phân tầng” (layered representations learning) hay “học biểu diễn phân cấp” “hierarchical representations learning”. Trong học sâu, việc học các biểu diễn phân tằng (layered representations) thông thường (hầu hết) được cài đặt dựa trên mô hình của mạng thần kinh (neural networks). Điều này cũng dẫn đến sự hiểu lầm rằng học sâu hoạt động như bộ não hoặc mô phỏng nó. Không giống mạng thần kinh được phát triển một phần nhờ vào cảm hứng từ sự hiểu biết của cúng ta về bộ não, học sâu chỉ là một framework toán học dành cho việc học các biểu diễn từ dữ liệu.

Trái với học sâu, các cách tiếp cận khác trong học máy biến đổi dữ liệu chỉ qua 1 hoặc 2 biểu diễn được gọi là học nông. Những đại diện tiêu biểu của học nông là Decision Trees, Naive Bayes, SVM (Support Vector Machine).

Sự khác biệt giữa học sâu và học nông không chỉ thể hiện về mặt kiến trúc mà còn ở những tính chất đặc trung mà chúng cần có khi áp dụng vào các bài toán khác nhau.
Nếu như với học nông việc xây dựng biểu diễn chủ yếu đặt lên vai con người thông qua “feature engineering” (hay “feature selection”) và đòi hỏi tri thức khá sâu về lĩnh vực ứng dụng thì trái lại học sâu có thể học được các biểu diễn trực tiếp từ dữ liệu mà cần rất ít các tri thức tiên nghiệm (như biến đổi và chuỗi fourier, Bayes…).

Chính vì thế nó cũng được gọi bằng thuật ngữ thể hiện sát với bản chất hơn “feature learning”. Một nhiếp ảnh gia sử dụng công cụ biểu diễn phẳng là các pixel không phải lúc nào cũng ghi nhận được thần thái của nhân vật như bức ký họa nhân vật đó với những nét vẽ (feature) rất đơn giản cảm nhân được của một danh họa. Các “danh họa” như vậy đã được xây dựng trên cơ sở học sâu và có mặt khắp nơi trong các ứng dụng của Google, Facebook, Baidu… tạo nên lợi ích rất lớn.

Một đặc tính quý giá nhất của học sâu dưới quan điểm lý thuyết độ phức tạp tính toán là nó cung cấp cho chúng ta một biểu diễn compact của dữ liệu. Điều này cũng giống như phương pháp Phân tích thành phần chính (Principal Component Analysis – PCA) trong xử lý dữ liệu trên không gian tuyến tính nhẵm giảm số chiều của không gian dùng để biểu diễn dữ liệu – một phương pháp feature selection rất quen thuộc trong các cách tiếp cận học nông. Việc giảm số chiều của biểu diễn có ý nghĩa rất lớn để vượt qua “Lời nguyền của số chiều” (“The curse of dimensionality”) – cách nói ám chỉ hiện tượng bùng nổ tổ hợp trong lưu trữ và tính toán theo số chiều của biểu diễn.

Để thấy rõ hơn sức mạnh biểu diễn của kiến trúc sâu, chúng ta xem xét cài đặt một hàm logic n biến bằng mạch logic. Nếu sử dụng mạch logic nông (như dạng bảng chân lý) đòi hỏi 2**n phần tử tính toán – một việc không khả thi với n đủ lớn -; nhưng với kiến trúc sâu số phần tử tính toán cần thiết giảm đi đáng kể. Lý thuyết cũng chứng minh rằng luôn tồn tại những hàm có thể biểu diễn compact bằng một kiến trúc sâu k tầng nhưng lại phải biểu diễn bằng số lượng hàm mũ các phần tử tính toán khi dùng kiến trúc có k-1 tầng.

Học sâu cũng đồng thời tạo nên tiền đề cho việc biểu diễn phân tán (distributed representation), tính toán phân tán, tính toán song song…khi cho phép lưu trử, xử lý các thuộc tính học được trên nhiều thiết bị tính toán ở nhiều vị trí khác nhau về địa lý. Nó cũng tiềm ấn hy vọng cung cấp một công cụ mới cho việc phát triển transfer learning, multi-task learning – những nhu cầu cơ bản của AI – trong tương lai khi các thuộc tính, các biểu diễn trung gian học được từ một ứng dụng này có thể được sử dụng trong các ứng dụng khác.
Với những ưu điểm kể trên nhiều người lạc quan đã cho rằng “no more features engineering”. Trên thực tế, điều đó không hoàn toàn đúng. Luôn có sự đánh đổi giữa kiến thức tiên nghiệm, lượng dữ liệu đào tạo, khả năng khái quát hóa của các mô hình học được và khó khăn trong việc huấn luyện chúng.

Mặc dù học học máy, đặc biệt là học sâu, đã dẫn đến những thành tựu đáng chú ý trong những năm gần đây, nhưng kỳ vọng về những gì lĩnh vực sẽ có thể đạt được trong thập kỷ tới có xu hướng bị cường điệu hơn nhiều so với những gì có thể. Dưới đây liệt kê một vài rào cản lý thuyết mà học máy chưa thể vượt qua.

“Cho tôi dữ liệu, tôi sẽ sáng tạo lại thế giới”.Đó là sự cường điệu về học máy làm mê hoặc nhiều người và phản ánh sự chuyển hướng từ các phương pháp hướng mô hình trong AI (Model-driven AI, Symbolic AI) khi mục tiêu xây dựng mô hình cho các miền ứng dụng phức tạp tỏ ra không khả thi (ví dụ các hệ chuyên gia – expert systems) sang các phương pháp hướng dữ liệu (Data-driven AI).

Bảo toàn thông tin (conservation of information) là một thuật ngữ mới xuất hiện trong cuốn The Limits of Science xuất bản năm 1984. Trong cuốn sách ngắn gọn, xuất sắc này, tác giả Peter Medawar (nhà sinh vật học, chủ nhân giải Nobel) lý giải bản chất và những hạn chế của việc theo đuổi khoa học. Ba bài tiểu luận của ông liên quan đến một số câu hỏi lớn nhất mà con người biết đến: Khoa học có thể xác định sự tồn tại của Thiên Chúa không? Có một “phương pháp khoa học” nào mà tất cả các bí mật của vũ trụ có thể được khám phá? Peter Medawar đã chỉ ra rằng các hệ thống toán học và tính toán bị giới hạn trong việc tạo ra các hệ quả logic từ một tập hợp tiên đề (hoặc điểm bắt đầu), và do đó không thể tạo ra thông tin mới (mọi hệ quả logic đã tiềm ẩn ngay trong tập các tiên đề) và gọi đó là Định luật bảo toàn thông tin “Law of Conservation of Information”. Định luật này được chúng minh một cách tường minh trong nhiều lĩnh vực AI khác nhau (vd. Phan Đình Diệu, Nguyễn Minh Hải trong logic xác xuất).

Để hiểu ảnh hưởng của Định luật bảo toàn thông tin tới học máy, chúng ta cần thấy bản chất của học máy là tìm ra một biểu diễn tốt nhất giải thích cho mối quan hệ giữa các dữ liệu đầu vào với các dữ liệu đầu ra được kỳ vọng. Đó là một bài toán tối ưu với các ràng buộc chính là dữ liệu. Sau khi hệ thống học máy đã được huấn luyện chúng ta nhận được một mô hình (biểu diễn) giải thích tốt nhất cho dữ liệu. Khi bổ xung một dữ liệu mới tức là chúng ta thêm ràng buộc vào bài toán tối ưu cũ. Ràng buộc mới này có thể “tương thích” với các ràng buộc cũ, hay nói cách khác nó không làm thay đổi miền ràng buộc của bài toán, ta vẫn nhận được biểu diễn cũ. Điều đó có nghĩa dữ liệu mới đã được hệ thống “nhìn thấy” từ góc nhìn của mình (biểu diễn học được). Trường hợp ngược lại, ràng buộc bổ xung sẽ thay đổi miền ràng buộc và vì vậy để giải thích nó, hệ thống phải tìm kiếm một biểu diễn mới – nghiệm tối ưu của bài toán có thêm ràng buộc bổ xung. Một cách hình tượng, biểu diễn cũ không phù hợp để giải thích dữ liệu mới, tức là không “nhìn thấy” dữ liệu mới. Đây cũng là hạn chế chính khiến các hệ thống học máy không thể “ngoại suy” ra những gì chưa được học.

Để khắc phục nhược điểm này của các phương pháp hướng dữ liệu, các nhà nghiên cứu thường đề xuất kết hợp nó với các phương pháp hướng mô hình. “No Free Lunch Theorem” và “Ugly Ducking Theorem”. Đây là một “nút thắt cổ chai” khi cần trả lời câu hỏi “Thuật toán nào là tốt nhất cho học máy?”.

Để đánh giá hiệu quả của thuật toán chúng ta sử dụng tập dữ liệu kiểm tra (testing set).
Trong trường hợp tập dữ liệu kiểm tra hoàn toàn độc lập với tập dữ liệu huấn luyện (training set) chúng ta bị khống chế bới Định luật bảo toàn thông tin và vì vậy mọi thuật toán đều tồi tệ. Khi tập huấn luyện rất lớn và hai tập hợp chồng lấn lên nhau, các hệ thống học máy trở thành những học trò “học vẹt” để trả thi (kiểm tra mức độ thuộc bài) và không có khả năng trừu tượng hóa.

Định lý “No Free Lunch” chỉ ra rằng không tồn tại một thuật toán vượt trội thuật toán khác trong mọi tập dữ liệu có được. Hay nói cách khác, sai số trung bình trên mọi tập dữ liệu là như nhau đối với mọi thuật toán. Một thuật toán “tốt hơn” trong ứng dụng này có thể “tồi tệ” đối với ứng dụng khác. Điều này cản trở lớn tới việc scalling up các thuật toán học máy.
Tương tụ như “No Free Lunch Theorem”, định lý “Ugly Ducking Theorem” cũng khẳng định rằng không có tập thuộc tính (biểu diến) nào là “tốt nhất” nếu không xét đến các giả thiết bổ xung. Điều này cũng góp phần phủ định tư duy “no more features engineering” đã nhắc tới ở trên.

Để thay lời kết của bài này tôi xin trích dẫn ý kiến của Margaretta Colangelo – người có hơn 30 năm kinh nghiệm trong công nghệ phần mềm tại thung lũng Silicon với hơn 60 công bố giá trị về Deep Tech, AI và y sinh học hiện đại đồng thời tham gia điều hành nhiều tổ chức nghiên cứu trên thế giới – khi bà nhắc chúng ta chớ nên quên lãng giá trị của dữ liệu nhỏ cũng như khả năng trừu tượng hóa kỳ diệu của con người so với máy móc và kêu gọi nghiên cứu phát triển các phương pháp AI đòi hỏi ít dữ liệu hơn:

“Tất cả mọi thứ đều là dữ liệu nhỏ trước khi chúng ta có dữ liệu lớn. Những khám phá khoa học của thế kỷ 19 và 20 đều được thực hiện bằng cách sử dụng dữ liệu nhỏ. Darwin đã sử dụng dữ liệu nhỏ. Các nhà vật lý đã thực hiện tất cả các tính toán bằng tay, do đó họ chỉ sử dụng dữ liệu nhỏ. Tuy nhiên, họ đã khám phá ra những quy luật đẹp nhất và cơ bản nhất của tự nhiên. Hơn nữa, họ nén chúng thành các quy tắc đơn giản dưới dạng các phương trình thanh lịch. Einstein là nhà vô địch điều này với E = mc². Mặc dù người ta đã ước tính rằng có lẽ 60% đến 65% trong số 100 phát minh lớn nhất của thời đại chúng ta thực sự dựa trên dữ liệu nhỏ, các phát triển AI hiện tại dường như quá tập trung vào dữ liệu lớn mà quên đi giá trị của việc quan sát các mẫu nhỏ”

TopDev via Minh Hai Nguyen