Deepfake là kỹ thuật ứng dụng công nghệ machine learning (máy học) dùng để tổng hợp hình ảnh con người dựa trên trí tuệ nhân tạo. Bằng cách đặt chồng hình ảnh khuôn mặt của một người lên khuôn mặt của một người khác, sau đó dùng trí tuệ nhân tạo để xây dựng các chuyển động trông tương đối phù hợp trên khuôn mặt, sau đó thay thế hoàn toàn khuôn mặt của “chính chủ” trong video. Cùng với đó, các tập tin âm thanh deepfake cũng được tạo ra bằng cách sử dụng bản ghi âm thực để huấn luyện trí tuệ nhân tạo tạo ra giọng nói giả mạo giống hệt “chính chủ”. Mục tiêu của video deepfake là đánh lừa người xem, từ đó thực hiện các vụ tấn công chuỗi cung ứng (supply chain attack).
Tiềm ẩn mối nguy hiểm từ chuyện kỹ thuật deepfake được cải tiến bằng AI.
Tấn công chuỗi cung ứng (supply chain attack) là hình thức tấn công mạng nhằm gây thiệt hại cho một tổ chức bằng cách nhắm vào các yếu tố kém an toàn trong chuỗi cung ứng. Một cuộc tấn công chuỗi cung ứng có thể xảy ra trong bất kỳ ngành nào, từ lĩnh vực tài chính, công nghiệp dầu mỏ hay khu vực chính phủ.
Hồi năm 2019, giám đốc điều hành của một công ty năng lượng tại Anh nhận được cuộc điện thoại từ sếp ở Đức, yêu cầu anh ta chuyển khoản 200.000 bảng (khoảng 220.000USD) cho một nhà cung cấp ở Hungary trong vòng một giờ. Sự việc sau đó chứng minh đây là một vụ lừa đảo khá tinh vi, bởi kẻ lừa đảo đã sử dụng âm thanh giả giống hệt giọng Đức và âm điệu của vị sếp.
Tuy kỹ thuật deepfake chưa đủ tinh vi để gạt được tất cả mọi người, nhưng kỹ thuật này đang được cải thiện với tốc độ cực nhanh, khiến kẻ xấu có thể lợi dụng deepfake để tấn công vào các chuỗi cung ứng được tự động hóa bằng máy học. Đó là cảnh báo của TS. Mark S. Sherman (Viện Kỹ thuật Phần mềm Đại học Carnegie Mellon) tại hội thảo Ai4 Cybersecurity 2021 Summit.
Hiện nay, việc tạo ra video deepfake đòi hỏi nhiều kiến thức về kỹ thuật, thời gian và khả năng xử lý dữ liệu, vì vậy quá trình làm giả vẫn nằm ngoài khả năng của người dùng bình thường. Ví dụ, muốn “tái tạo” khuôn mặt của một người lên video thành gương mặt một người khác, ngoài việc thu thập hàng nghìn bức ảnh của cả hai người, còn phải sử dụng các giải thuật mã hóa hình ảnh bằng mạng neuron có khả năng học sâu và tính toán hiệu năng cao.
Để cải thiện quy trình xử lý trên, các chuyên gia trí tuệ nhân tạo đang ứng dụng một số giải pháp mới nhằm đi tắt, trong đó có việc đào tạo cho mạng neuron về một tập dữ liệu, sau đó áp dụng lên các tập dữ liệu khác. Điều này có nghĩa là mạng neuron không cần học hết các tập dữ liệu, nên sẽ ít tốn thời gian và tài nguyên hơn. Đây là nguyên tắc thường được ứng dụng trong các giải pháp nhận dạng hình ảnh.
Đáng chú ý hơn, nếu các tập dữ liệu đủ giống nhau, chẳng hạn như diễn viên và người đóng thế, thì có thể trích xuất các thông số giống nhau để tạo dựng các đặc điểm chính trên khuôn mặt – như mắt hoặc tai. Sau đó, mạng neuron cũng sẽ tự động hoàn thành để “khuôn mặt tái tạo” có các biểu cảm, nét mặt hoàn chỉnh giống khuôn mặt gốc.
Trên cơ sở này, TS. Mark S. Sherman cảnh báo doanh nghiệp cần đảm bảo chuỗi cung ứng bằng máy học được an toàn từ chính nguồn dữ liệu của họ. Bởi lẽ, những dữ liệu dùng để đào tạo AI nếu không hợp lệ (chất lượng kém, hoặc dữ liệu nhầm lẫn), thì hệ thống máy tính sẽ có khả năng nhầm lẫn và bị kẻ xấu lợi dụng. Khi đó, hậu quả sẽ trở nên khó lường, bởi thông tin giả mạo sẽ bẻ cong sự thật một cách nhanh chóng, gây nên cuộc khủng hoảng về lòng tin.
Hoàng Kim (CESTI) - Theo IEEE Spectrum