Đây là những hình ảnh dễ nhầm lẫn, được các nhà nghiên cứu thu thập để bộc lộ những điểm yếu trong thị giác máy tính.
Thị giác máy tính đã có những cải tiến vượt bậc trong những năm gần đây. nhưng nó vẫn có thể phạm phải những lỗi nghiêm trọng. Tần suất lỗi của nó nhiều đến mức người ta đã lập ra hẳn một lĩnh vực nghiên cứu chuyên tìm hiểu về các hình ảnh thường xuyên bị AI xác định nhầm, còn được gọi là những “hình ảnh nghịch cảnh”. Có thể hiểu những hình ảnh này như ảo ảnh thị giác đối với máy tính vậy. Ví dụ, trong khi bạn thấy một con mèo trèo lên cành cây, thì AI lại không nghĩ đó là con mèo mà là một con sóc.
Việc nghiên cứu các hình ảnh đó là rất cần thiết. Trong bối cảnh các hệ thống thị giác máy tính được tin tưởng đặt vào trái tim của các công nghệ mới như các camera an ninh vận hành bằng AI, hay các loại xe hơi tự lái, nhiều người trong chúng ta tin rằng máy tính nhìn nhận thế giới giống hệt như con người. Nhưng những hình ảnh nghịch cảnh lại là bằng chứng cho thấy điều đó không hoàn toàn đúng.
Chú rùa in 3D này bị thuật toán Google nhầm là khẩu súng (rifle)
Nhưng trong khi lĩnh vực nghiên cứu đặc biệt này tập trung vào các hình ảnh được thiết kế để đánh lừa AI (như hình ảnh chú rùa in 3D mà thuật toán của Google nhầm là một khẩu súng ở trên), những hình ảnh dễ nhầm lẫn hoàn toàn có thể bắt gặp trong tự nhiên, và chúng mới là thứ đáng lo ngại hơn bởi chúng cho thấy các hệ thống thị giác máy tính có thể tự bản thân chúng mắc sai lầm chứ không bị buộc phải sai bởi các hình ảnh chuyên dụng.
Để bạn hiểu rõ hơn về những hình ảnh như vậy, một nhóm các nhà nghiên cứu đến từ UC Berkeley, Đại học Washington và Đại học Chicago, đã tạo ra một bộ dữ liệu gồm 7.500 “ví dụ hình ảnh nghịch cảnh tự nhiên”. Họ đã thử nghiệm bộ dữ liệu này trên một loạt các hệ thống thị giác máy tính và phát hiện ra rằng độ chính xác của chúng giảm đến 90%, và trong một số trường hợp, phần mềm chỉ có thể xác định đúng khoảng 2 hoặc 3% tổng số hình ảnh mà thôi.
Bạn có thể xem các “ví dụ hình ảnh nghịch cảnh tự nhiên” dưới đây để dễ hình dung:
Những con bọ trên một chiếc lá, bị nhầm thành “một con tàu bị chìm”
AI nghĩ bức ảnh này miêu tả một chiếc đồng hồ mặt trời
Ảnh chụp mấy trái bắp, nhưng AI lại nhìn ra thành “bọ cánh cam”
Anh này đi câu cá, nhưng AI lại nhầm thành “cầu thủ bóng chày”, có lẽ do ảnh đen trắng
Ánh sáng lập lòe khiến AI nghĩ rằng đây là ảnh “ngọn đuốc”
AI nhìn bức ảnh này thành một người đang lái xe đua mini (go kart)
AI nghĩ đây là một con gấu đen
Một quả bóng bay nằm trên mặt đất, nhưng AI nghĩ đây là một “bàn bida”
Trong một tài liệu đi kèm, các nhà nghiên cứu nói rằng dữ liệu của họ sẽ giúp huấn luyện nên các hệ thống thị giác máy tính mạnh mẽ hơn. Họ giải thích rằng những hình ảnh đó lợi dụng “những lỗ hổng sâu” bắt nguồn từ việc phần mềm quá phụ thuộc vào màu sắc, họa tiết và ảnh nền để xác định những gì nó thấy.
Ví dụ, trong các hình ảnh bên dưới, AI nhầm 2 hình ảnh bên trái là “cây đinh”, có khả năng là bởi vật thể đó nằm trên nền gỗ. Trong 2 hình ảnh bên phải, AI nhầm chúng là “chim ruồi đang cho con ăn”, nhưng trên thực tế chẳng có con chim ruồi nào trong ảnh cả.
Và trong cả 4 hình ảnh về con chuồn chuồn dưới đây, AI dựa vào màu sắc và họa tiết nên đã nhận nhầm (từ trái sang phải) thành một con chồn hôi, một quả chuối, một con sư tử biển, và một con chuột. Trong mỗi trường hợp, bạn có thể thấy tại sao nó lại nhầm, nhưng rõ ràng nếu chúng ta nhìn vào, chúng ta thấy rõ ràng đó là con chuồn chuồn.
Việc các hệ thống AI mắc phải những sai lầm là điều không hề lạ. Các nhà nghiên cứu đã cảnh báo từ nhiều năm qua rằng các hệ thống thị giác máy tính được tạo ra bằng deep learning (một mảng machine learning đóng vai trò tạo ra nhiều tiến bộ gần đây trong lĩnh vực AI) là “nông cạn” và “yếu kém” – có nghĩa là chúng không hiểu thế giới với những sắc thái và tính linh hoạt như con người.
Những hệ thống này được huấn luyện bằng hàng ngàn hình ảnh ví dụ nhằm học được các vật thể sẽ trông ra sao, nhưng chúng ta không biết những yếu tố cụ thể nào bên trong các hình ảnh được AI sử dụng để đưa ra nhận định của chúng.
Một số nghiên cứu chỉ ra rằng thay vì đánh giá hình ảnh một cách toàn diện, cân nhắc hình dạng và nội dung tổng thể, các thuật toán chỉ tập trung vào những họa tiết và chi tiết cụ thể. Kết quả nghiên cứu rút ra từ bộ dữ liệu đã khẳng định điều này: ví dụ, các hình ảnh hiển thị bóng một cách rõ ràng trên một bề mặt sáng bị nhầm là đồng hồ mặt trời. AI về cơ bản đã bỏ qua phần “gỗ” vốn đại diện cho “cây”.
Nhưng liệu nói như vậy có nghĩa là các hệ thống thị giác máy tính yếu kém đến mức không thể cứu vãn nổi? Không hề. Thông thường, các lỗi mà AI phạm phải là không đáng kể, như xác định “nắp cống” thành “hố ga”, hay nhầm “xe van” thành “xe limousine”.
Và dù các nhà nghiên cứu nói rằng những “ví dụ hình ảnh nghịch cảnh” sẽ đánh lừa được rất nhiều hệ thống thị giác máy tính, không có nghĩa chúng sẽ đánh lừa được tất cả. Nhiều hệ thống thị giác máy tính chuyên dụng sẽ không bị nhầm lẫn, như những hệ thống sử dụng để xác định bệnh tật trong các bản quét y khoa. Và dù những hệ thống đó cũng có những yếu điểm của riêng chúng, việc chúng không thể hiểu thế giới như cách con người hiểu cũng chẳng ngăn được chúng phát hiện ra một khối u có khả năng ung thư.
Thị giác máy tính đôi lúc có thể hơi nhanh nhảu và không được việc, nhưng phần lớn các trường hợp chúng cho ra kết quả chính xác. Những nghiên cứu như bài viết đã đề cập cho chúng ta thấy những “điểm mù” cần được khắc phục trong các phiên bản tiếp theo trong tương lai.
Tham khảo: TheVerge