Bài viết được sự cho phép của tác giả Nguyễn Hồng Quân
Dạo này các ứng dụng với dữ liệu tiếng Việt đang ngày một nhiều, trong đó vấn đề sai khác giữa Unicode dựng sẵn và tổ hợp, tuy nhỏ, nhưng cũng gây mất chút kha khá thời gian debug cho những người mới vào nghề. Mình chia sẻ xíu kinh nghiệm này, để việc phát triển ứng dụng tiếng Việt trở nên trơn tru hơn, và cũng để “khoe hàng” về hệ sinh thái giàu mạnh của Python.
Tưởng tượng một tình huống sau. Ứng dụng của bạn cho người dùng nhập vào một chuỗi tiếng Việt, khi nhận được chuỗi, phần mềm sẽ dò trong cơ sở dữ liệu để chọn ra bản ghi nào ăn khớp với chuỗi đó. Cơ sở dữ liệu này được một người khác nhập liệu. Bạn đã chắc chắn rằng chuỗi đó có tồn tại trong cơ sở dữ liệu, nhưng không hiểu sao phần mềm so sánh, dò tìm không ra. Hóa ra là người nhập liệu, khi gõ chuỗi vào thì dùng Unicode tổ hợp (decomposed), trong khi người dùng lúc nhập chuỗi tìm kiếm vào thì dùng Unicode dựng sẵn (composed). Dưới dạng chuỗi byte thì hai chuỗi này không giống nhau, nên bằng biện pháp so sánh chuỗi unicode thông thường, phần mềm sẽ không nhận ra.
Lấy ví dụ một chuỗi sau, “Tiếng Việt bão táp”, nếu là Unicode dựng sẵn, khi thể hiện dưới dạng chuỗi byte, dàn theo bảng mã UTF-8, thì là chuỗi byte này:
b'Tixe1xbaxbfng Vixe1xbbx87t bxc3xa3o txc3xa1p'
Trong khi nếu là Unicode tổ hợp, khi thể hiện ở dạng chuỗi byte UTF-8, thì sẽ thành:
b'Tiexccx82xccx81ng Viexccxa3xccx82t baxccx83o taxccx81p'
Vậy muốn so sánh hai chuỗi, phải đưa chúng về cùng một kiểu Unicode trước. Cách làm ra sao?
Trên mạng có lưu truyền một cách thô thiển là tạo một bảng đối chiếu, chuyển đổi từng chữ cái một, như ví dụ này.
Đây rõ ràng là một phương án “vai u thịt bắp”. Có một giải pháp đơn giản hơn nhiều. Trong thư viện chuẩn của Python, có module unicodedata
đã có sẵn chức năng này. Ví dụ:
>>> import unicodedata >>> to_hop = 'Tiếng Việt bão táp' >>> dung_san = unicodedata.normalize('NFC', to_hop) >>> to_hop.encode() b'Tiexccx82xccx81ng Viexccxa3xccx82t baxccx83o taxccx81p' >>> dung_san.encode() b'Tixe1xbaxbfng Vixe1xbbx87t bxc3xa3o txc3xa1p'
Như vậy, bí quyết là dùng hàm unicodedata.normalize()
, truyền vào tham trị “NFC” nếu muốn chuyển đổi thành dựng sẵn, truyền vào “NFD” nếu muốn chuyển đổi thành tổ hợp. Mẹo nhớ: Chữ “C” trong “NFC” nghĩa là “composed”, tức là “Unicode dựng sẵn”.
Thông tin sâu thêm một chút về kĩ thuật. Lấy ví dụ chữ “ế”, nếu ở kiểu “dựng sẵn” thì chữ này sẽ được dành riêng một vị trí (U+1EBF
) trong bảng Unicode luôn, trong khi nếu ở kiểu “tổ hợp” thì các dấu thanh sẽ được tách ra (decomposed), đại diện bằng các ô khác trong bảng Unicode.
Để phát triển giải pháp này lên một bước nữa, ta sẽ làm cho việc chuyển đổi này xảy ra một cách tự động, vô hình trong phần mềm. Quay về tình huống kể trên, đó là tình huống trong một dự án cũ mà tôi tham gia. Tôi đã làm thêm một lớp validation để làm sạch dữ liệu đầu vào, ở cả hai khâu: khâu nhập liệu và khâu người dùng tìm kiếm, chuyển đổi chúng về Unicode dựng sẵn hết. Với mục đích kiểm tra sự hợp lệ (validate) dữ liệu ở các dự án Python thì tôi thường chọn thư viện Pydantic. Công dụng của nó là: kiểm tra sự hợp lệ dữ liệu đầu vào, nếu không hợp lệ thì hoặc là báo lỗi, hoặc là tự gò nắn cho đúng rồi nhận vào. Công dụng này tương tự như Django form.
Lấy ví dụ, ứng dụng của ta cần tiếp nhận dữ liệu bên ngoài truyền vào với cấu trúc như sau:
class Person: name: str age: int
và dữ liệu truyền vào có thể là một chuỗi JSON:
{"name": "Ếch Xanh", "age": 11}
Ta luôn cần bước kiểm tra hợp lệ, vì không thể đảm bảo lúc nào dữ liệu truyền vào cũng đúng ý, nó có thể thiếu một vài field, chuỗi dư kí tự lạ, hoặc không đúng kiểu dữ liệu (cần integer nhưng lại truyền vào string):
{"name": "Mèo Đen ", "age": "09"}
Khi dùng Pydantic thì tôi sẽ implement cấu trúc trên như sau:
from pydantic import BaseModel class Person(BaseModel): name: str age: int
Dùng thử:
>>> Person.parse_obj({"name": "Mèo Đen ", "age": "09"}) Person(name='Mèo Đen ', age=9)
Để đảm bảo dữ liệu của field “name” sẽ được tự động chuyển đổi thành Unicode dựng sẵn, tôi sẽ định nghĩa một kiểu field mới cho Pydantic:
from pydantic import ConstrainedStr class VinaStr(ConstrainedStr): ''' A constrained string type which automatically normalizes Vietnamese Unicode string. It converts from decomposed ("tổ hợp") to composed ("dựng sẵn") Unicode. ''' strip_whitespace = True @classmethod def validate(cls, value: str): cleaned = super().validate(value) if cleaned: return unicodedata.normalize('NFC', cleaned) return cleaned
Áp dụng vào class Person
bên trên:
class Person(BaseModel): name: VinaStr age: int
Thử lại với dữ liệu hơi không sạch:
>>> p = Person.parse_obj({'name': ' Hoẵng Con ', 'age': '04'}) >>> p Person(name='Hoẵng Con', age=4) >>> p.name.encode() b'Hoxe1xbaxb5ng Con'
Có thể thấy rằng ở field name
, chuỗi đầu vào vừa được xóa sạch kí tự khoảng trắng dư, vừa được chuyển đổi Unicode, và field age
thì chuỗi được biến thành số nguyên.
Xem lại code từ đầu với hình động cho đỡ chán:
Như vậy tôi đã trình bày xong cách chuyển đổi Unicode tổ hợp dựng sẵn trong Python, tặng kèm bí quyết về xử lý dữ liệu nói chung trong công việc. Mong rằng cộng đồng lập trình viên Việt Nam sẽ áp dụng các thói quen thực hành tốt để nâng cao chất lượng sản phẩm hơn nữa.
Đừng quên theo dõi TopDev để cập nhật các việc làm Python mới nhất nhé!
Bài viết gốc được đăng tải tại quan.hoabinh.vn
Xem thêm:
Python Là Gì? Các Bước Tự Học Lập Trình Python
Lộ trình từng bước trở thành Machine Learning Engineer
Lập Trình với Game Flappybird Python