Nhiều người cho rằng Trung Quốc dẫn đầu về AI? Báo cáo này nói “chưa chắc”

Một báo cáo mới cho thấy, bên cạnh quy mô dữ liệu, còn có nhiều yếu tố khác cần phải được xem xét trong quá trình phát triển AI, như chất lượng hay mức độ đa dạng của dữ liệu.

Trong buổi bình minh của kỷ nguyên trí tuệ nhân tạo, dữ liệu đang được xem như loại dầu thô mới còn Trung Quốc chính là tổ chức OPEC mới.

Nhưng một báo cáo mới được phát hành vào giữa tháng Bảy cho thấy, lượng dữ liệu khổng lồ do 1,4 tỷ dân Trung Quốc tạo ra có thể không phải là lợi thế lớn trong cuộc đua AI tòa cầu như người ta tưởng.

Được công bố bởi MarcoPolo, một tổ chức nghiên cứu tại Học viện Paulson ở Chicago, báo cáo này cho rằng, dữ liệu không phải là tài nguyên quan trọng duy nhất cho AI và cho dù lượng dự trữ dữ liệu khổng lồ của Trung Quốc, nước Mỹ vẫn đang nắm giữ các ưu thế quan trọng về chất lượng và mức độ đa dạng của dữ liệu.

Nhiều người cho rằng Trung Quốc dẫn đầu về AI? Báo cáo này nói chưa chắc - Ảnh 1.

Nhiều người cho rằng quy mô dân số Trung Quốc sẽ cho họ lợi thế về khối lượng dữ liệu, nhưng đây thực ra là một điều hiểu lầm.” Matt Sheehan, một thành viên của MarcoPolo cho biết trong báo cáo.

Mối quan hệ giữa dữ liệu và năng lực AI tương tự như mối quan hệ giữa lao động và nền kinh tế. Trung Quốc có thể có thừa lao động, nhưng chất lượng, cấu trúc và độ lưu động của lực lượng lao động cũng quan trọng với việc phát triển kinh tế.”

Nghiên cứu này được đưa ra vào thời điểm khi Trung Quốc và Mỹ, vốn đang cạnh tranh trên nhiều lĩnh vực về kinh tế và văn hóa, cùng đang chạy đua trong công nghệ AI.

Năm 2017, Hội đồng Nhà nước Trung Quốc phát hành bản kế hoạch 3 bước để đưa quốc gia này trở thành người dẫn đầu toàn thế giới về AI vào năm 2030. Trong tháng Hai năm nay, tổng thống Mỹ Donald Trump cũng ban hành một mệnh lệnh hành pháp với yêu cầu duy trì ngôi vị dẫn đầu về AI toàn cầu của nước Mỹ, chỉ thị các cơ quan chính phủ ưu tiên trí tuệ trong chi tiêu cho nghiên cứu và phát triển.

Quy mô dữ liệu chưa phải là tất cả

Trên quy mô lớn, cuộc đua về AI là cuộc đua về dữ liệu. Từ nhận diện gương mặt cho đến xe tự lái hoặc các máy dịch, hầu hết các ứng dụng AI chỉ có thể triển khai được sau khi các cỗ máy tiếp nhận một lượng dữ liệu khổng lồ để từ đó có thể tìm ra mối liên hệ giữa các mô hình dữ liệu đầu vào và kết quả đầu ra. Chỉ khi đó một cỗ máy mới có thể học cách thực hiện được các kỹ năng của con người.

Vì vậy, dữ liệu được nhiều nhà nghiên cứu công nghệ xem như một yếu tố quan trọng, nếu không muốn nói là nguồn lực chiến lược cho nền kinh tế AI.

Nhiều người cho rằng Trung Quốc dẫn đầu về AI? Báo cáo này nói chưa chắc - Ảnh 2.

Nhưng trong tài liệu của MarcoPolo, Sheehan đã tách dữ liệu ra thành 5 khía cạnh khác nhau: số lượng, chiều sâu, chất lượng, mức độ đa dạng và khả năng truy cập. Bằng cách phân tích mô hình khía cạnh này, thay vì chỉ dựa vào các nghiên cứu định lượng chung, báo cáo chỉ ra những ưu thế giữa Mỹ và Trung Quốc trong chất lượng dữ liệu của họ. Trung Quốc có các lợi thế về chiều sâu và khả năng tiếp cận vào dữ liệu, ngược lại, Mỹ lại có ưu thế vượt trội về chất lượng và sự đa dạng dữ liệu.

Hơn 800 triệu người dùng internet tại Trung Quốc đang tạo ra một lượng dữ liệu thừa thãi về các loạt hoạt động trực tuyến khác nhau, từ mua sắm hàng tạp hóa cho đến các sản phẩm có giá trị cao cũng như cả việc đặt bàn tại nhà hàng.

Nhưng hầu hết các nhà cung cấp dịch vụ internet tại Trung Quốc vẫn tập trung phần lớn vào thị trường trong nước của mình trong khi các công ty tại Thung lũng Silicon chủ yếu vươn mình ra toàn cầu. Người dùng của Google và Facebook đại diện cho những tập người dùng đa dạng về ngôn ngữ, cá tính dân tộc, văn hóa và quốc tịch hơn nhiều so với WeChat, ứng dụng nhắn tin hàng đầu Trung Quốc hiện nay.

Điều này sẽ tạo nên các khác biệt quan trọng về chất lượng ứng dụng AI. Ví dụ, chương trình nhận diện gương mặt có thể sẽ gặp khó khăn khi xác định những người không phải Trung Quốc – nếu tất cả dữ liệu họ dùng để nghiên cứu chỉ dành riêng cho các gương mặt của Trung Quốc.

Nhiều người cho rằng Trung Quốc dẫn đầu về AI? Báo cáo này nói chưa chắc - Ảnh 3.

Bà Samm Sacks phát biểu tại phiên điều trần trước Quốc hội Mỹ năm 2018.

MarcoPolo không phải là tổ chức duy nhất đánh giá lại về cái gọi là ưu thế dữ liệu của Trung Quốc. Samm Sacks, nhà nghiên cứu chính sách an ninh mạng và kinh tế số của Trung Quốc tại tổ chức New American, cho biết: “Tiếp cận được nhiều dữ liệu nhất và bản thân nó không phải là yếu tố quan trọng nhất của việc phát triển AI.”

Điều hoang đường này đang tiếp sức cho việc hiểu nhầm về cái gọi là ưu thế dữ liệu của Trung Quốc, trong khi lại củng cố các lập luận chống lại quy định về tính riêng tư của Mỹ. Các chuyên gia công nghệ đang xem xét đến ảnh hưởng của những yếu tố khác như, sức mạnh điện toán, tài năng, các phép toán liên quan và loại dữ liệu có thể có giá trị.”

Tham khảo SCMP