Phát hiện giả mạo khuôn mặt bằng Deep Learning

647

Người viết: Quy Nguyen

Với sự phát triển của AI, các ứng dụng nhận diện xác minh khuôn mặt ngày càng trở lên phổ biến. Các ứng dụng yêu cầu xác minh khuôn mặt cần phải chống lại các yếu tố tấn công giả mạo từ các nguồn như ảnh chụp/ ảnh khuôn mặt từ màn hình điện thoại (anti-spoofing).

Giả sử điện thoại bạn có sử dụng chức năng mở khóa bằng khuôn mặt, một hôm lúc bạn đi vắng nhưng để quên điện thoại ở nhà thế là con vợ bạn muốn mở điện thoại bạn ra để kiểm tra xem bạn có abcxyz với con nào không. Muốn mở khóa được bắt buộc phải có ảnh mặt bạn ở đó, thế là nó giơ camera trước lên ảnh cưới của bạn treo trên tường, và tất nhiên các nhà sản xuất điện thoại đã tính trước cả rồi, ảnh cưới mặc dù có mặt bạn nhưng không thể mở được khóa. Vậy phần mềm trên điện thoại đã làm thế nào?

Có nhiều cách để thực hiện điều này, ví dụ như chức năng mở khóa bằng khuân mặt của iphone sử dụng cảm biến 3D để tái hiện lại cấu trúc 3D của khuôn mặt, một số dòng điện thoại khác sử dụng thuật toán để phát hiện đâu là khuôn mặt được chụp trực tiếp từ camera, đâu là khuôn mặt không phải trực tiếp. Hôm nay mình sẽ hướng dẫn các bạn cách để huấn luyện 1 mô hình đơn giản nhưng hiệu quả để phát hiện ảnh thật/giả giúp con vợ không thể mở khóa được điện thoại nếu không phải là mặt bạn. Để bắt đầu, chúng ta sẽ đi theo đúng quy trình giải quyết bài toán deeplearning:

Bước 1: Cách tiếp cận bài toán

Yêu cầu chung của bài toán là một input gồm 1 ảnh và output sẽ đánh nhãn là ảnh chụp mặt thật (real) hay ảnh giả mạo (fake). Như vậy đây là bài toán phân loại nhị phân (Binary classification) thông thường. Ngoài ra đây chỉ là một module con trong ứng dụng nhận diện/xác minh khuôn mặt nên bên cạnh đó còn yêu cầu quan trọng về tốc độ và tính khả thi về triển khai, không thể dùng 1 model phức tạp nhiều tham số sẽ ảnh hưởng đến tốc độ tính toán và khó triển khai trên các thiết bị di động hoặc thống nhúng có khả năng tính toán thấp.

Vì các yêu cầu trên nên mình chọn mạng MobileNets – Efficient Convolutional Neural Networks for Mobile Vision Applications

Bạn clone mã nguồn tại https://github.com/dinhquy94/face-antispoofing-using-mobileNet

Dưới đây benchmark các mô hình trên cùng tập dữ liệu ImageNet, ta có thể thấy MobileNetV2 có độ chính xác không hề thua kém các mô hình khác như VGG16, VGG19 trong khi lượng parameters chỉ vỏn vẹn 3.5M (khoảng 1/40 số tham số của VGG16).

Bước 2: Chuẩn bị dữ liệu

Ở đây mình dùng dataset CASIA-FASD. Đây là bộ dataset gồm các đoạn video, mỗi đoạn gồm 100-200 khung hình. Trong mỗi video mình lấy ra 30 khung hình (với thời gian lấy mẫu giống nhau). Sau đó mình dùng Haar_classifier để cắt khuôn mặt khỏi các video và phân vào 2 thư mục: ClientFace (gồm các ảnh thật) và ImposterFace (gồm các ảnh Fake)  Thư mục data training mình đã đặt cả trong git, bạn có thể xem tại đây

CASIA-FASD là bộ dataset miễn phí phục vụ nghiên cứu, nhưng việc sử dụng vì lý do bản quyền nên bạn muốn dùng thì có thể google để download.

Bước 3: Tiền xử lý dữ liệu

Chúng ta tiến hành load ảnh từ 2 thư mục và gán nhãn tương ứng cho các ảnh. Các ảnh được resize về kích thước 224 x 224px và trả về mảng 4 chiều. Bước này được xử lý trong file data_loader.py. Bạn phải chỉnh lại đường dẫn đến thư mục data ở biến real_dir và fake_dir theo đường dẫn trên máy của bạn

Bước 4: Định nghĩa mô hình

Chúng ta sử dụng MobileNets nên không cần phải implement lại, chính hiệu từ tensorflow cũng đã có code implement sẵn, chúng ta chỉ cần sử dụng thôi. Trong bài này chúng ta sẽ sử dụng weight của mô hình đã được train từ trước, được đặt trong thư mục pretrained_weights. Đây là 1 trong số các kỹ thuật transfer learning được sử dụng để tăng độ chính xác của mô hình.

Code mô hình được định nghĩa trong file model.py

Các siêu tham số của mô hình được đặt tại config/test.json:

Vì tập dữ liệu để training nhỏ so với tập dữ liệu pretrain của MobileNet nên mình chọn learning_rate tương đối nhỏ (1e-3) để tránh hiện tượng overfit. Số Epochs được đặt là 30-100 tùy các bạn.

Bước 5: Phân chia dữ liệu

Chúng ta sẽ tiến hành chia tập dữ liệu thành 2 phần riêng biệt để training và testing (validating) với tỉ lệ 80-20

random_state=42 để xáo trộn lại dữ liệu, điều này rất quan trọng trong việc đưa dữ liệu vào.

Bước 6: Training thuật toán

Tạo mô hình

Trong file main.py:

Đặt checkpoint

Việc đặt checkpoint rất quan trọng trong quá trình training mô hình. Giúp chúng ta lưu lại được mô hình trong trường hợp đang training bị gián đoạn do lỗi mất điện, service bị crash… hoặc muốn train tiếp sau này.

Nói chung là không thể không đặt checkpoint khi training nếu không muốn mất thời gian sau này

Training

Quá trình training sẽ tiến hành train từng epoch, mỗi epoch sẽ lần lượt đưa dữ liệu vào theo từng batch nên thời gian training sẽ khá lâu. Đánh đổi lại việc training này sẽ giúp mô hình chính xác hơn. Để training, sửa tham số trong file config thành:

(Nếu bạn muốn test kết quả thì đổi ngược lại giá trị 2 biến này)

Sau đó chạy lệnh:

Kết quả huấn luyện sau Epoch đầu tiên:

Kết quả testing sau khi training mô hình thành công:

Mô hình cho kết quả khá tốt, loss chỉ còn 0.03 và độ chính xác trên tập test lên tới hơn 99.9%. Vậy là quá tuyệt vời. Demo

Bước 7: Chuẩn bị mô hình cho deploy

Vì bài viết khá dài nên mình sẽ hướng dẫn deploy mô hình và stream trực tiếp từ openCV trong bài viết sau nhé.

Source code

Các bạn có thể tham khảo source code của bài viết tại đây

Cảm ơn các bạn đã theo dõi bài viết hẹn gặp lại trong những bài viết tiếp theo.

Đừng bỏ lỡ những bài viết hay về Machine Learning:

Xem thêm việc làm Machine Learning hot nhất trên TopDev

TopDev via viblo

  Máy học - Machine Learning và một vài hạn chế.
  Machine Learning góp phần cải thiện chiến lược Digital Marketing của bạn như thế nào?