ChatGPT và những người bạn (Phần 1)

213

Tác giả: Mike Loukides

ChatGPT, hoặc một điều gì đó được xây dựng dựa trên ChatGPT, hay công cụ gì đó giống như ChatGPT, đã liên tục xuất hiện trên báo chí kể từ khi được công bố vào tháng 11/2022. ChatGPT là gì, hoạt động như thế nào, có thể làm gì và những rủi ro khi sử dụng nó là gì?

Chỉ cần lướt web nhanh, bạn sẽ thấy rất nhiều điều ChatGPT có thể làm. Nhiều điều trong số này không có gì ngạc nhiên: Bạn có thể yêu cầu nó viết thư, sáng tác truyện, viết các mục mô tả sản phẩm trong danh mục. Một số tiện ích khác vượt quá một chút (nhưng không nhiều) so với mong đợi ban đầu của bạn: Bạn có thể yêu cầu nó tạo danh sách các thuật ngữ để tối ưu hóa công cụ tìm kiếm, tạo danh sách đọc về các chủ đề bạn quan tâm. Công cụ này thậm chí đã giúp viết một cuốn sách. Có lẽ việc ChatGPT có thể viết phần mềm là điều ngạc nhiên nhưng cũng có thể không; chúng ta đã có hơn một năm để quen với GitHub Copilot, được xây dựng dựa trên phiên bản trước đó của GPT. Và một số điều thì thật đáng kinh ngạc. Chat bot này có thể giải thích mã mà bạn không hiểu, bao gồm cả mã được cố tình che giấu. Công cụ có thể giả vờ là một hệ điều hành. Hoặc một trò chơi phiêu lưu văn bản. Rõ ràng, ChatGPT không chỉ là một máy chủ trò chuyện tự động thông thường và còn hơn thế nữa.

Phần mềm nào đang được thảo luận?

Trước tiên, hãy phân biệt một chút. Chúng ta đều biết rằng ChatGPT là một loại bot AI có thể trò chuyện. Điều quan trọng cần hiểu là ChatGPT thực sự không phải là một mô hình ngôn ngữ.

Công cụ này là một giao diện người dùng tiện lợi được xây dựng dựa trên một mô hình ngôn ngữ cụ thể, GPT-3.5, đã được đào tạo chuyên biệt. GPT-3.5 là một trong số các mô hình ngôn ngữ đôi khi được gọi là “mô hình ngôn ngữ lớn” (large language model – LLM)…– mặc dù thuật ngữ đó không hữu ích lắm.

Các LLM thuộc dòng GPT cũng được gọi là “mô hình nền tảng” (foundation model). Mô hình nền tảng là một lớp mô hình AI rất mạnh mẽ, có thể được sử dụng làm nền tảng cho các mô hình khác: Chúng có thể được chuyên môn hóa, đào tạo lại hoặc sửa đổi theo các ứng dụng cụ thể. Trong khi hầu hết các mô hình nền tảng mọi người đang nói đến là LLM, thì mô hình nền tảng không giới hạn ở ngôn ngữ: một mô hình nghệ thuật tạo sinh như Stable Diffusion kết hợp khả năng xử lý ngôn ngữ, nhưng khả năng tạo hình ảnh thuộc về một nhánh AI hoàn toàn khác.

ChatGPT chiếm phần lớn sự chú ý nhưng điều quan trọng cần nhận ra là có rất nhiều mô hình tương tự, hầu hết chúng chưa được công khai – đó là lý do tại sao việc viết về ChatGPT mà không đề cập đến các mô hình giống ChatGPT lại khó khăn.

ChatGPT và những người bạn bao gồm:

ChatGPT

Được phát triển bởi OpenAI; dựa trên GPT-3.5 với đào tạo chuyên biệt. Có sẵn API cho ChatGPT.

GPT-2, 3, 3.5 và 4

Các mô hình ngôn ngữ lớn do OpenAI phát triển. GPT-2 là mã nguồn mở. GPT-3 và GPT-4 không phải là mã nguồn mở, nhưng có quyền truy cập miễn phí và trả phí. Giao diện người dùng cho GPT-4 tương tự như ChatGPT.

Sydney

Tên mã nội bộ của chatbot đằng sau công cụ tìm kiếm cải tiến của Microsoft, Bing. Sydney dựa trên GPT-4.1, với đào tạo bổ sung.

Kosmos-1

Được phát triển bởi Microsoft, được đào tạo trên nội dung hình ảnh ngoài văn bản. Microsoft có kế hoạch phát hành mô hình này cho các nhà phát triển, nhưng hiện tại vẫn chưa thực hiện.

LaMDA

Được phát triển bởi Google; ít người được truy cập vào nó, mặc dù khả năng của nó dường như rất giống với ChatGPT. Nổi tiếng vì khiến một nhân viên Google tin rằng nó có tri giác.

>>> Xem thêm: Mô hình ngôn ngữ LaMDA – Công nghệ đứng sau chatbot AI Bard của Google

PaLM

Cũng được phát triển bởi Google. Với số tham số gấp ba lần LaMDA, PaLM dường như rất mạnh mẽ. PaLM-E, một biến thể, là mô hình đa phương thức có thể hoạt động với hình ảnh; nó đã được sử dụng để điều khiển robot. Google đã thông báo về một API cho PaLM, nhưng hiện tại chỉ có danh sách chờ.

Chinchilla

Cũng được phát triển bởi Google. Mặc dù vẫn rất lớn, nhưng nó nhỏ hơn đáng kể so với các mô hình như GPT-3 trong khi vẫn cung cấp hiệu suất tương tự.

Bard

Tên mã của Google cho công cụ tìm kiếm theo hướng trò chuyện, dựa trên mô hình LaMDA của họ và chỉ được trình diễn công khai một lần. Gần đây, một danh sách chờ để dùng thử Bard đã được mở.

Claude

Được phát triển bởi Anthropic, một startup do Google tài trợ. Poe là một ứng dụng trò chuyện dựa trên Claude và có sẵn thông qua Quora; có một danh sách chờ để truy cập vào API của Claude.

LLaMA

Được phát triển bởi Facebook/Meta và các nhà nghiên cứu có thể đăng ký để truy cập. Facebook đã phát hành một mô hình trước đó, OPT-175B, cho cộng đồng nguồn mở. Mã nguồn LLaMA đã được port sang C++, và một phiên bản nhỏ của chính mô hình (7B) đã bị rò rỉ ra công chúng, tạo ra một mô hình có thể chạy trên laptop.

BLOOM

Một mô hình nguồn mở được phát triển bởi hội thảo BigScience.

Stable Diffusion

Một mô hình nguồn mở được phát triển bởi Stability AI để tạo hình ảnh từ văn bản. Một mô hình ngôn ngữ lớn “hiểu” lời nhắc và điều khiển một mô hình khuếch tán tạo ra hình ảnh. Mặc dù Stable Diffusion tạo ra hình ảnh thay vì văn bản, nhưng chính nó đã cảnh báo công chúng về khả năng xử lý ngôn ngữ của AI.

Còn nhiều mô hình khác mà tôi chưa liệt kê và sẽ có nhiều hơn nữa vào thời điểm bạn đọc báo cáo này. Tại sao chúng ta bắt đầu bằng cách liệt kê tất cả các tên? Có một lý do: các mô hình này phần lớn đều giống nhau. Tuyên bố đó chắc chắn sẽ khiến các nhà nghiên cứu đang làm việc trên chúng kinh hoàng, nhưng ở cấp độ chúng ta có thể thảo luận trong một báo cáo phi kỹ thuật, chúng rất giống nhau. Điều đáng nhớ là vào tháng tới, Chat nổi bật nhất có thể không phải là ChatGPT. Nó có thể là Sydney, Bard, GPT-4 hoặc thứ gì đó mà chúng ta chưa từng nghe thấy, đến từ một công ty khởi nghiệp (hoặc một công ty lớn) đang giữ bí mật.

Điều quan trọng nữa là cần nhớ đến sự khác biệt giữa ChatGPT và GPT-3.5, giữa Bing/Sydney và GPT-4, hoặc giữa Bard và LaMDA. ChatGPT, Bing và Bard đều là các ứng dụng được xây dựng trên các mô hình ngôn ngữ tương ứng của chúng. Tất cả chúng đều được đào tạo chuyên biệt thêm; và tất cả chúng đều có giao diện người dùng được thiết kế khá tốt. Cho đến nay, mô hình ngôn ngữ lớn duy nhất được công khai là GPT-3, với giao diện có thể sử dụng được nhưng cồng kềnh. ChatGPT hỗ trợ trò chuyện; nó nhớ những gì bạn đã nói, vì vậy bạn không cần phải dán toàn bộ lịch sử vào mỗi lời nhắc nhở, như bạn đã làm với GPT-3. Sydney cũng hỗ trợ trò chuyện; một trong những bước của Microsoft để khắc phục hành vi sai trái của nó là giới hạn độ dài của các cuộc trò chuyện và lượng thông tin theo ngữ cảnh được lưu giữ trong một cuộc trò chuyện.

>>> Xem thêm: ChatGPT liệu có làm lập trình viên mất việc?

Những hạn chế của ChatGPT là gì?

Mọi người dùng ChatGPT cần biết những hạn chế của nó, chính xác là vì nó có cảm giác kỳ diệu đến vậy. Nó là ví dụ thuyết phục nhất về cuộc trò chuyện với máy tính; nó chắc chắn đã vượt qua bài kiểm tra Turing. Là con người, chúng ta có xu hướng nghĩ rằng những thứ khác nghe giống con người thì thực sự là con người. Chúng ta cũng có xu hướng nghĩ rằng thứ gì đó nghe có vẻ tự tin và uy quyền thì có thẩm quyền.

Điều đó không đúng với ChatGPT. Điều đầu tiên mọi người nên nhận ra về ChatGPT là nó đã được tối ưu hóa để tạo ra ngôn ngữ có vẻ hợp lý. Nó làm điều đó rất tốt và đó là một cột mốc công nghệ quan trọng. Nó không được tối ưu hóa để cung cấp câu trả lời chính xác. Nó là một mô hình ngôn ngữ, không phải một mô hình “sự thật”. Đó là hạn chế chính của nó: chúng ta muốn “sự thật”, nhưng chúng ta chỉ nhận được ngôn ngữ được cấu trúc sao cho có vẻ chính xác. Với hạn chế đó, thật đáng ngạc nhiên là ChatGPT trả lời các câu hỏi chính xác (chứ chưa nói đến việc trả lời đúng thường xuyên); đó có lẽ là minh chứng cho tính chính xác của Wikipedia nói riêng và (dám nói) của internet nói chung. (Ước tính tỷ lệ các tuyên bố sai thường vào khoảng 30%.) Nó cũng có thể là minh chứng cho sức mạnh của RLHF trong việc đưa ChatGPT tránh xa thông tin sai lệch công khai. Tuy nhiên, bạn không cần phải cố gắng nhiều để tìm ra những hạn chế của nó. 

Dưới đây là một vài hạn chế đáng chú ý:

Toán học

Yêu cầu ChatGPT thực hiện phép tính số học hoặc toán học cao cấp có thể sẽ là một vấn đề. Nó giỏi dự đoán câu trả lời đúng cho một câu hỏi, nếu câu hỏi đó đủ đơn giản và nếu câu hỏi đó có câu trả lời trong dữ liệu huấn luyện của nó. Khả năng tính toán của ChatGPT dường như đã được cải thiện, nhưng vẫn không đáng tin cậy.

Dẫn nguồn

Nhiều người đã lưu ý rằng, nếu bạn yêu cầu ChatGPT cung cấp nguồn dẫn thì rất thường xuyên bị sai. Không khó để hiểu tại sao. Một lần nữa, ChatGPT đang dự đoán một câu trả lời cho câu hỏi của bạn. Nó hiểu hình thức của một nguồn dẫn; mô hình Attention rất giỏi việc đó. Và nó có thể tra cứu một tác giả và đưa ra các quan sát thống kê về sở thích của họ. Thêm vào đó khả năng tạo văn xuôi trông giống như tiêu đề của các bài báo học thuật, bạn sẽ có rất nhiều nguồn dẫn – nhưng hầu hết trong số đó sẽ không tồn tại.

Tính nhất quán

ChatGPT thường trả lời chính xác một câu hỏi, nhưng lại bao gồm một giải thích cho câu trả lời đó không chính xác về logic hoặc thực tế. Đây là một ví dụ về toán học (nơi chúng ta biết nó không đáng tin cậy): Tôi hỏi liệu số 9999960800038127 có phải là số nguyên tố không. ChatGPT trả lời chính xác (nó không phải số nguyên tố), nhưng liên tục xác định sai các thừa số nguyên tố (99999787 và 99999821).

Tôi cũng đã thực hiện một thí nghiệm khi tôi yêu cầu ChatGPT xác định xem các văn bản lấy từ các tác giả tiếng Anh nổi tiếng có được viết bởi con người hay AI. ChatGPT thường xuyên xác định chính xác đoạn văn (điều mà tôi không yêu cầu nó làm), nhưng lại tuyên bố rằng tác giả có thể là AI. (Nó dường như gặp rắc rối nhất với các tác giả từ thế kỷ 16 và 17, như Shakespeare và Milton.)

Các sự kiện hiện tại

Dữ liệu huấn luyện cho ChatGPT và GPT-4 kết thúc vào tháng 9/2021. Nó không thể trả lời các câu hỏi về các sự kiện gần đây hơn. Nếu được hỏi, nó thường sẽ bịa ra một câu trả lời. Một vài mô hình mà chúng tôi đã đề cập có khả năng truy cập web để tìm kiếm dữ liệu mới hơn – đáng chú ý nhất là Bing/Sydney, dựa trên GPT-4. Chúng tôi nghi ngờ ChatGPT có khả năng tra cứu nội dung trên web, nhưng khả năng đó đã bị vô hiệu hóa, một phần vì nó sẽ giúp dễ dàng kích động chương trình gây thù hận hơn. 

Chỉ tập trung vào những hạn chế “đáng chú ý” là chưa đủ. Hầu như bất cứ điều gì ChatGPT nói đều có thể không chính xác và nó cực kỳ giỏi đưa ra những lập luận nghe có vẻ hợp lý. Nếu bạn đang sử dụng ChatGPT trong bất kỳ tình huống nào mà tính chính xác là quan trọng, bạn phải cực kỳ cẩn thận để kiểm tra logic của ChatGPT và bất cứ thứ gì nó trình bày như một tuyên bố thực tế. Làm như vậy có thể khó hơn việc bạn tự nghiên cứu. GPT-4 phạm ít lỗi hơn, nhưng nó đặt ra câu hỏi liệu có dễ dàng hơn để tìm lỗi khi có rất nhiều lỗi, hay khi chúng tương đối hiếm. Sự cảnh giác là rất quan trọng – ít nhất là hiện tại, và có thể là trong tương lai gần.

Đồng thời, đừng từ chối ChatGPT và những người bạn của nó vì coi đó là nguồn lỗi  sai sót. Như Simon Willison đã nói4, chúng tôi không biết khả năng của nó là gì; ngay cả những người phát minh ra nó cũng không biết. Hoặc, như Scott Aaronson đã  viết “Làm sao một người có thể ngừng bị mê hoặc đủ lâu để tức giận?”

Tôi khuyến khích bất kỳ ai tự thực hiện các thí nghiệm của riêng họ và xem những gì họ có thể đạt được. Nó thú vị, bổ ích và thậm chí là vui. Nhưng cũng cần nhớ rằng bản thân ChatGPT đang thay đổi: nó vẫn đang trong giai đoạn thử nghiệm, giống như các mô hình ngôn ngữ lớn khác. (Microsoft đã thực hiện những thay đổi đáng kể đối với Sydney kể từ lần phát hành đầu tiên.) Tôi nghĩ ChatGPT đã giỏi tính toán hơn, mặc dù tôi không có bằng chứng cụ thể. Kết nối ChatGPT với một AI kiểm tra thực tế lọc đầu ra của nó đối với tôi có vẻ như là bước tiếp theo rõ ràng – mặc dù chắc chắn việc thực hiện sẽ khó khăn hơn nhiều so với tưởng tượng.

Có thể bạn quan tâm: 

Truy cập ngay việc làm IT đãi ngộ tốt trên TopDev