Công nghệ Deepfake – Công nghệ làm giả video

Deepfake là gì?

Hai câu chuyện trên là ví dụ điển hình của một khái niệm mang tên “Deepfake”. Deepfake (kết hợp của “deep learning” và “fake”) đề cập đến các video bị thao túng, hoặc các sản phẩm công nghệ được tạo ra bởi Trí tuệ nhân tạo tinh vicụ thể là học sâu (deep learning), nhằm tạo ra các hình ảnh và âm thanh bịa đặt nhưng trông hết sức giống thật. Trong những năm gần đây, deepfake trở thành một trào lưu nở rộ trên internet, ngoài việc “fake” video, trên thế giới còn tồn tại cả fake hình ảnh và thậm chí là fake audio.

Deepfake được tạo ra như thế nào?

Khái niệm “deepfake” lần đầu xuất hiện vào năm 2017 khi một người dùng có tên “deepfakes” đăng tải các đoạn phim “nhạy cảm” đã được chỉnh sửa lên trên diễn đàn Reddit. Những đoạn phim này hoán đổi khuôn mặt của những ngôi sao nổi tiếng như Gal Gadot, Taylor Swift, Scarlett Johansson cho những diễn viên khiêu dâm. Để thực hiện những video hoán đổi khuôn mặt này, họ đã thực hiện một số thao tác như sau:

Đầu tiên, thu thập dữ liệu của hai người A và B . Sau đó, xây dựng một thuật toán AI gọi là bộ mã hóa (encoder) để mã hóa tất cả những hình ảnh trong một mạng CNN. Việc mã hóa này sẽ tìm và học tất cả những điểm tương đồng trên hai khuôn mặt, loại bỏ những điểm khác biệt và chỉ giữ lại những điểm chung nhất, sau đó nén những bức ảnh đó lại.

Thuật toán AI thứ hai được gọi là bộ giải mã, được huấn luyện để phục hồi các khuôn mặt từ những bức ảnh bị nén. Bởi vì các khuôn mặt khác biệt với nhau, một bộ giải mã được dạy để phục hồi khuôn mặt của người thứ nhất, một bộ giải mã khác sẽ phục hồi khuôn mặt của người thứ hai. 

Để thực hiện hoán đổi khuôn mặt, ta sử dụng hình ảnh nén của gương mặt người A đưa vào bộ giải mã của người B. Bộ giải mã sau đó tái tạo lại khuôn mặt của người B với biểu cảm và hướng khuôn mặt của người A. Thao tác này được thực hiện chi tiết trên từng khung hình (frame) để cho ra sản phẩm “trơn tru” và “thật” nhất. Đây là cách thức để tạo ra deepfake.

Một cách khác để tạo ra deepfake là sử dụng mạng sáng tạo đối nghịch (Generative Adversarial Network), viết tắt là GAN. Đây là một thuật toán học không giám sát (unsupervised learning) cực kỳ mạnh mẽ được Ian J.Goodfellow giới thiệu vào năm 2014 tại hội nghị NeurIPS, trong đó bao gồm 2 thành phần chính là Generator và Discriminator.

  • Generator đảm nhiệm nhiệm vụ tạo ra các dữ liệu “fake” sao cho giống thật nhất có thể, cố gắng lừa Discriminator để nó không thể nhận ra.
  • Discriminator sẽ kiểm định các dữ liệu mà Generator cung cấp, phân biệt nó là “fake” hay “real”.

Hai quá trình này là hai quá trình đối nghịch, và cùng “cạnh tranh” nhau. Generator cố gắng tạo dữ liệu fake, còn Discriminator cố gắng phân biệt dữ liệu mà Generator đổ vào, chứng minh nó là fake, sau đó thông báo lại cho Generator để nó tự cải thiện. Quá trình này diễn ra liên tục, cho đến khi Generator tạo ra mẫu hoàn hảo nhất mà Discriminator không thể phân biệt được. Vậy là từ 2 khuôn mặt ban đầu trông không giống nhau, sau vô số lần cải thiện, GAN hay cụ thể là Generator đã tạo ra được một gương mặt giống y như thật của một người nổi tiếng.

Công nghệ gì được sử dụng để tạo ra deepfake?

Sẽ thật khó để tạo ra deepfake nếu chỉ sử dụng một chiếc máy tính thông thường. Hầu hết các sản phẩm deepfake được làm nên từ các máy tính cao cấp với card đồ họa mạnh mẽ, hay cao hơn nữa là sử dụng điện toán đám mây. Với những máy tính phổ thông, không có card đồ họa, vi xử lý trung tâm (CPU) cũng có thể thực hiện tác vụ, trong thời gian từ vài ngày đến vài tuần. Thời gian sẽ được rút xuống còn vài giờ nếu máy tính của chúng ta đủ mạnh. 

Dữ liệu để tạo nên một video ghép mặt giả mạo rất đơn giản, nó chính là những bức ảnh mà người dùng công khai trên mạng. Cách làm và công cụ cũng có sẵn. Người dùng “deepfakes” (Reddit) chia sẻ anh ta chỉ cần sử dụng những clip từ Youtube, ảnh tìm kiếm từ Google và một vài thuật toán mã nguồn mở như Google TensorFlow để cho cỗ máy “học”. Quá trình “học” chính là đóng góp mấu chốt của trí tuệ nhân tạo. Mọi sản phẩm sử dụng trí tuệ nhân tạo đều trải qua hai bước chính: nạp dữ liệu đầu vào, sau đó dựng lên mô hình và lựa chọn một thuật toán để liên tục xử lý, học từ các mô hình đó.

Chính việc ngày càng dễ dàng để tạo ra một video giả mạo, deepfake đã để lại sự lo lắng và hoang mang cho rất nhiều người. Dần dần con người trở nên dè chừng hơn, họ cần phải cẩn thận và tỉnh táo hơn khi tiếp nhận các thông tin trên mạng internet, đồng thời cần kiểm soát và bảo mật chặt chẽ thông tin cá nhân của mình, vì với deepfake, ai cũng có thể trở thành nạn nhân, ai cũng có thể bị lợi dụng.

Làm thế nào để phát hiện ra một video deepfake?

Khi công nghệ ngày càng phát triển, sẽ vô cùng khó khăn để phát hiện ra đâu là một video giả mạo. Vào năm 2018, các nhà nghiên cứu Mỹ phát hiện ra rằng những khuôn mặt trên deepfake không thể chớp mắt như bình thường. Không có gì ngạc nhiên ở đây cả: phần lớn các hình ảnh cho thấy mọi người mở to mắt, vì vậy các thuật toán không bao giờ thực sự học về việc chớp mắt. Ban đầu, sau khi phát hiện này được đưa ra, người ta cho rằng đây chính là điểm mấu chốt của vấn đề. Các nhà nghiên cứu đã giới thiệu 1 công cụ cho phép nhận diện các video deepfake. Công cụ này còn có thể phân tích được những chi tiết mà mắt người không thể nhận ra, như phân tích phổ hoặc ánh sáng của bức ảnh để nhận ra vị trí khác biệt. Tuy nhiên, các nhà khoa học phát minh ra công cụ này thừa nhận họ vẫn phải liên tục phát triển để chạy đua với những kỹ thuật làm giả mới nhất.

Deepfakes chất lượng kém dễ dàng bị phát hiện. Đồng bộ môi xấu, hoặc màu da loang lổ có thể giúp nhận ra đâu là video giả. Các chi tiết như tóc đặc biệt khó để deepfake có thể “render” một cách mượt mà. Đồ trang sức hay răng làm ẩu cũng là một điểm cần chú ý. Hay các hiệu ứng ánh sáng kỳ lạ, chẳng hạn như chiếu sáng không nhất quán và phản chiếu trên mống mắt sẽ là một căn cứ quan trọng để phân biệt.

Deepfake có hoàn toàn xấu?

Câu trả lời là Không. Deepfake giả giọng nói có thể giúp khôi phục giọng nói của người khác khi họ bị mất giọng vì bệnh. Nhân bản giọng nói còn có thể hỗ trợ giáo dục bằng cách tái tạo âm thanh của các nhân vật lịch sử, như CereProc tạo ra một phiên bản bài diễn văn cuối cùng của cựu Tổng thống Mỹ John F. Kennedy, người đã bị ám sát năm 1963. Video Deepfake có thể làm sinh động các phòng trưng bày và bảo tàng. Đối với ngành công nghiệp giải trí, công nghệ có thể được sử dụng để cải thiện việc lồng tiếng cho các bộ phim tiếng nước ngoài, v.v… Deepfake không hẳn lúc nào cũng xấu, nếu con người biết cách khai thác, chúng ta sẽ tạo nên rất nhiều tác phẩm tuyệt vời từ deepfake!

Tương lai nào cho deepfake?

Sớm nhận ra được nguy cơ và những tác động to lớn của deepfake đối với xã hội, Reddit và Facebook đã cấm đăng tải những video kiểu này. Google, công ty sở hữu TensorFlow lại cho rằng hạn chế công cụ này sẽ khiến chính những nhà phát triển bị hại. Dù vậy, Hany Farid – giáo sư ngành khoa học máy tính tại Đại học Dartmouth cho rằng Google cùng những tập đoàn công nghệ khác “cần nghiêm túc hơn và nhận thức được sự nguy hiểm của công nghệ này khi nó được sử dụng như một vũ khí”.

Việc áp dụng các khái niệm AI để tạo ra ý tưởng mới và sản phẩm mới quả là một điều thú vị, nhưng cần cảnh giác với nó. Trong thực tế, không nên xuất bản bất kỳ một video giả mạo nào chỉ đề mục đích cho vui! Nó có thể khiến chúng ta gặp những rắc rối pháp lý và ảnh hưởng đến danh tiếng của bản thân. Deepfake mang trong mình cả những mặt tích cực và tiêu cực. Hãy là một người khôn ngoan, tỉnh táo để lựa chọn con đường đúng đắn!