Skynet của Trung Quốc: nhận diện được cả mặt người đã đeo khẩu trang, độ chính xác 90%

2 Tháng tám, 2019

Nghiên cứu mới do Trung Quốc công bố nhận được sự hậu thuẫn của các nhà khoa học Anh. Họ đều đạt được những thành công tương tự trong hai thử nghiệm khác nhau.

Ban đầu, công nghệ nhận diện khuôn mặt là một cách mở khóa điện thoại nhanh chóng và tiện lợi. Theo thời gian, ta phát triển công nghệ này (và thu thập đủ dữ liệu khuôn mặt) để phục vụ mục đích an ninh một cách hiệu quả; các cơ quan hành pháp nhiều nước, những cửa khẩu hay sân bay đã bắt đầu ứng dụng công nghệ mới.

Câu hỏi đặt ra: Vậy công nghệ nhận diện khuôn mặt đã tốt tới đâu để có thể áp dụng rộng rãi đến vậy? Nhất là khi mỗi khuôn mặt một khác, và người ta có thể đeo đủ thứ trên mặt để tránh camera an ninh, ví dụ như kính râm hay khẩu trang.

Câu hỏi trên chính là lý do Oakland và San Francisco cấm sử dụng công nghệ nhận dạng khuôn mặt để theo dõi những khu vực đông người qua lại; một phần vì họ sợ kết quả có thể không chính xác, dẫn tới những nhầm lẫn tai hại. Nhưng họ sẽ sớm phải nghĩ lại, khi nhiều công ty trí tuệ nhân tạo Trung Quốc vừa công bố hệ thống theo dõi mới có khả năng nhận dạng khuôn mặt rất tốt, kể cả khi đối tượng đã đeo khẩu trang.

Theo nghiên cứu, để có được thành công mới, các nhà khoa học cho máy tính học cách xác nhận thuần thục những phần mặt lộ ra ít ỏi, bên cạnh đó là phân tích cả dáng đi cũng như ngôn ngữ hình thể dễ nhận biết.

Việc công nghệ mới có xuất thân từ Trung Quốc cũng là lẽ thường: ta vốn vẫn biết khả năng nhận dạng khuôn mặt siêu phàm của hệ thống Skynet được lắp đặt trên toàn cõi Trung Hoa. Nó có thể phát hiện ra một kẻ phạm tội trong đám đông trăm người, xác định rõ danh tính một người và biết họ đang di chuyển tới đâu ngay khi họ rời khỏi sân bay, thậm chí bắt giữ được người đàn ông đã lẩn trốn lâu năm.

Ngồi lại trò chuyện với báo giới, các nhà nghiên cứu hệ thống giám sát tại Trung Quốc chia sẻ chút ít về những công nghệ đứng sau sự thành công của Skynet.

Trí tuệ nhân tạo sẽ đóng góp những gì?

Về cơ bản, hệ thống nhận diện khuôn mặt sẽ là xác nhận danh tính của một người từ một cơ sở dữ liệu của nhiều hình ảnh, bao gồm cả video lẫn ảnh chụp. Sử dụng công nghệ deep learning để tăng tốc quá trình quét khuôn mặt, một hệ thống sẽ dần dần học được một lượng dữ liệu khổng lồ. Càng nhiều dữ liệu, hệ thống sẽ càng nhanh và chính xác.

Những hệ thống này tạo ra một thứ gọi nôm na là “vân mặt”, với mỗi người lại có một vân mặt khác nhau – cũng như sự đa dạng của vân tay vậy. Máy sẽ đo đạc khoảng cách giữa hai mắt, độ rộng của mũi, độ sâu của hốc mắt và những chi tiết tương tự trên khuôn mặt. Với mạng lưới camera an ninh dày đặc như Trung Quốc, thì ngoài dữ liệu khuôn mặt, những yếu tố khác như chiều cao, độ tuổi, màu sắc quần áo, … cũng sẽ xuất hiện trong cơ sở dữ liệu.

Khẩu trang có che được danh tính không?

Theo lời chuyên gia giám sát Trung Quốc, thì không hẳn.

Những hệ thống nhận dạng tiên tiến sẽ phân tích (và dự đoán) được cả những chi tiết nằm dưới khẩu trang. Khả năng này cho phép hệ thống giám sát giảm số người trùng khớp xuống thấp, từ đó sẽ dễ dàng tìm ra danh tính người đeo khẩu trang.

Báo cáo mới của Trung Quốc có sự hậu thuẫn của các nhà khoa học tới từ nước ngoài, cụ thể là một đội ngũ các nhà nghiên cứu công tác tại Đại học Bradford. Tháng Năm vừa rồi, các nhà khoa học Anh cho ra một báo cáo khoa học, công bố công nghệ nhận diện khuôn mặt có thể đạt độ chính xác 100% chỉ với một bên mặt, nửa mặt hoặc 3/4 khuôn mặt.

Các nhà nghiên cứu của Anh nói rõ: trên hệ thống chỉ được huấn luyện để nhận diện toàn bộ khuôn mặt, độ chính xác sẽ giảm còn 40% khi chỉ nhìn thấy mắt và mũi, 60% khi nửa mặt dưới bị che đi. Độ chính xác sẽ tăng vọt lên 90% khi hệ thống được huấn luyện thêm cách nhận dạng khuôn mặt không đầy đủ, đạt được kết quả cao ngay cả khi nhìn vào khuôn mặt không hiện hữu mắt và mũi.

Hệ thống Trung Quốc hiện có phát hiện những khuôn mặt trốn dưới khẩu trang giỏi đến đâu?

Dù mạng lưới camera và hệ thống nhận dạng khuôn mặt đã có mặt ở khắp Trung Quốc, nhưng độ chính xác của chúng vẫn phụ thuộc nhiều vào việc phải nhìn thấy trọn vẹn khuôn mặt. Nhiều người dân Trung Quốc sẵn lòng cung cấp thông tin cá nhân, trong đó có cả khuôn mặt mình, cho các công ty lớn, để đổi lại việc sử dụng dịch vụ dễ dàng hơn. Các công ty cũng tận dụng nguồn dữ liệu từ khách hàng để giúp tăng cường độ chính xác của công nghệ.

Cứ như vậy, đa số các công ty trí tuệ nhân tạo Trung Quốc có được lượng dữ liệu khổng lồ từ hai nguồn chính, người dùng tự nguyện cung cấp và dữ liệu thu về từ chính sản phẩm của họ.

Một nhà nghiên cứu chỉ ra rằng tỷ lệ nhận dạng thành công sẽ giảm còn 70% nếu như người dùng che mất chỉ 1/5 khuôn mặt. Tuy nhiên, tỷ lệ sẽ khác biệt dựa vào việc che mất phần nào.

Thời điểm hiện tại, một số công ty AI Trung Quốc đang tiến hành huấn luyện hệ thống với những khuôn mặt bị che một phần, nhằm tăng tỷ lệ thành công trong mọi điều kiện tính tới được.

Những đột phá nào gần đây có thể giúp máy móc nhận dạng được cả những khuôn mặt bị che đi?

Đầu tiên là công nghệ nhận dạng dáng đi. Startup Watrix mới giới thiệu một phần mềm cho phép nhận dạng dáng đi của một người từ khoảng cách xa 50 mét, ngay cả khi họ quay lưng lại với camera.

Hệ thống được huấn luyện bởi hàng ngàn số đo liên quan tới dáng đi và cấu trúc cơ thể của một người, từ việc vung tay lúc đi cho tới dáng chân bước. Công nghệ mới cho phép phát hiện ra được những người cố gắng giấu mặt đi khỏi camera theo dõi, bằng khẩu trang hoặc chỉ bằng cách quay mặt sang hướng khác.

Thứ hai, đó là công nghệ nhận dạng giọng nói. Nó đang ngày một hoàn thiện từ cái ngày người ta còn dùng giọng nói làm bằng chứng đem ra trước tòa; giờ đây, người ta đã dùng giọng nói để kích hoạt đủ thứ hệ thống. Việc dùng giọng nói kết hợp với camera theo dõi chỉ là vấn đề sớm muộn.

Cuối cùng, đó là hệ thống laser đọc được nhịp tim từ xa. Đây là công nghệ do Bộ Quốc phòng Hoa Kỳ phát triển, có tên riêng là Jetson.

Nó có thể phát hiện ra nhịp tim chủ thể từ khoảng cách xa 200 mét, thông qua hệ thống laser hồng ngoại. Nó có thể hoạt động tốt khi chủ thể mặc những loại quần áo mỏng thông thường.

Lầu Năm Góc khẳng định Jetson có độ chính xác lên tới 95% khi được dùng trong điều kiện tối ưu nhất, và Jetson sẽ ngày một hiệu quả hơn trong tương lai. Có điều, để Jetson nhận dạng được một người, cần phải có cơ sở dữ liệu của nhịp tim trước đã.

Có thể thấy công nghệ nhận dạng ngày càng tiên tiến. Bắt đầu với khuôn mặt, dần dần ta đã có cả nhận biết dáng đi và giọng nói, rồi đến cả công nghệ dường như chỉ có trong phim viễn tưởng: nhận dạng bằng nhịp tim! Ba yếu tố đầu thì đến con người cũng làm được, nhưng khi chạm tới giới hạn mang tên “nhịp tim”, ta lại càng thấy rõ máy móc đã và đang bỏ xa con người tới mức nào.

Tham khảo SMCP