Cùng Bảo Đại tạo ra MV bằng mô hình AI

Nguyên Vân
Nguyên Vân
21/01/2023 07:00 GMT+7

Sau khi trình bày về ứng dụng mô hình AI "vẽ tranh" để "vẽ" cả MV ở Tech Awards 2022, Nguyễn Hoàng Bảo Đại nhận được nhiều thắc mắc về quá trình này. Và cùng với MV Hướng nội của mình, anh đã chia sẻ với Thanh Niên quá trình ra MV bằng mô hình AI đầy độc đáo này.

Theo Nguyễn Hoàng Bảo Đại (đang học thạc sĩ về trí tuệ nhân tạo tại Singapore, người Việt thứ 3 được Google vinh danh là ML Google Developer Expert), hiện tại, trào lưu sử dụng mô hình AI vẽ tranh đang xu hướng chung của giới trẻ, đặc biệt là các bạn digital artist (họa sĩ vẽ trên máy tính). Các mô hình này được các bạn sử dụng khá nhiều với để lấy cảm hứng ban đầu trước khi các bạn đặt bút cho các bức vẽ.

MV Hướng nội vẽ bằng mô hình AI

Trào lưu sử dụng mô hình AI vẽ tranh đang xu hướng chung của giới trẻ, đặc biệt là các bạn digital artist (họa sĩ vẽ trên máy tính)

TỪ MV

Để tránh tranh cãi về vấn đề bản quyền

Để tạo được các bức tranh từ mô hình AI, người thực hiện sẽ nhập vào một đoạn văn bản mô tả bức tranh đó (gọi là “text prompt”), mô hình sẽ xử lý đoạn văn bản này và thực hiện “vẽ” một bức tranh tương ứng với mô tả của văn bản.

Bảo Đại cho biếtt, các bức tranh được AI tạo ra khá chi tiết và đúng với mong muốn của artist vẽ tranh. Vậy nên, anh đã có một ý tưởng để khai thác sức mạnh của mô hình AI này cao hơn một bậc, có thể chia ra thành ba ý chính:

1. Thay vì chỉ sử dụng kỹ thuật này để tạo ảnh, ta sẽ lập trình để điều chỉnh một chút cho mô hình AI có thể tạo ra thật nhiều ảnh.

2.Sau đó, mình sẽ ghép các ảnh này lại với nhau với số lượng ít nhất khoảng 24 ảnh trên một giây để tạo sự di chuyển của khung hình (24 ảnh trên giây là số lượng khung hình tối thiểu để mắt người cảm thấy chuyển động ít bị giật nhất). Khi đó, chúng ta sẽ có được một video.

3.Và sẽ thú vị hơn nếu như text prompt của mình không chỉ là văn bản mô tả ảnh đơn thuần như các bạn artist hay sử dụng, mà text prompt sẽ là lyrics (phần lời của ca khúc) mà các ca sĩ, nhạc sĩ viết. Như vậy, có thể nói phần video mình tạo được bằng AI ở ý 2, sẽ là một Music Video (MV) mô tả chính xác ca khúc mà mình sử dụng phần lyrics như một văn bản đầu vào để AI “vẽ”.

Về dữ liệu huấn luyện mô hình AI, đa số sử dụng hình ảnh được lấy từ game để tránh gây tranh cãi về vấn đề bản quyền của các artist

từ mv

Cụ thể hơn, như Bảo Đại giải thích, cốt lõi của mô hình “vẽ” MV cũng chính là cốt lõi của các mô hình vẽ tranh hiện đang là kỹ thuật rất mới trong ngành trí tuệ nhân tạo, có tên là Mô hình khuếch tán (Diffusion Model). Mô hình này sẽ phân tích từ khóa trong phần lyrics để tạo ra được các khung hình cho MV.

Tuy nhiên, để tránh việc các khung hình trong MV quá “xa” nhau (về mặt màu sắc, phong cách, nét vẽ, chi tiết, nội dung...), mình sẽ lập trình để khung hình tiếp theo được tạo ra dựa trên một phần của khung hình trước đó, thay vì tạo mới hoàn toàn. Khi đó, chúng vì sự tương đối giống nhau giữa các khung hình, mình hoàn toàn có thể ghép chúng lại với thông số 24 ảnh trên giây để tạo ra một video. Bước này khá quan trọng, vì nếu các ảnh quá sai khác với nhau (như cách mà các bạn artist hay làm, các ảnh được tạo ra có thể hoàn toàn khác nhau với chung một văn bản mô tả), thì khó có thể tạo ra MV được, vì ghép chúng vào 24 khung hình trên giây sẽ rất… nhức mắt khi xem.

Về dữ liệu huấn luyện mô hình AI, Bảo Đạo cho biết đa số anh sử dụng hình ảnh được lấy từ game để tránh gây tranh cãi về vấn đề bản quyền của các artist. Hiện tại, ngành công nghiệp game rất phát triển với những game được xây dựng trên nền tảng Unreal Engine được phát triển bởi công ty Epic Games, những game này có đồ họa rất đẹp và có thể dùng những hình ảnh từ game để huấn luyện mô hình AI.

Trong quá trình tạo dựng MV, vì sức mạnh của máy móc dân dụng hiện tại không đủ để tạo ra một MV 4k với 60 khung hình trên giây để bảo đảm độ mượt lúc xem ngay từ đầu. Vì vậy, ban đầu MV chỉ được tạo ra với thông số Full HD (1080p) và 12 khung hình trên giây với lý do hạn chế trong năng lượng tính toán. Để có thể có một MV 4k từ một MV Full HD, mình kết hợp thêm kỹ thuật AI khác trong lĩnh vực thị giác máy tính để đẩy chi tiết khung hình lên 4K và 60 khung hình trên giây, giúp MV có thể rõ nét và mượt hơn khi xem.

Xây dựng mô hình AI trong việc mixing và mastering

* Vì sao MV mang tên Hướng nội?

- Bảo Đại: Hướng nội là ca khúc viết về tính cách của những người thích ở trong môi trường có ít sự kích thích, thậm chí ở mức độ tối thiểu và họ cần thời gian ở một mình để sạc lại năng lượng. Ca khúc này được viết để thể hiện suy nghĩ của những người hướng nội, đồng thời mục tiêu quan trọng hơn chính là thử sức mô hình AI trong việc vẽ một MV mang tính trừu tượng.

Nếu chỉ viết một bài hát về cảnh vật cụ thể, thì chắc chắn mô hình AI vẽ MV sẽ đưa ra những kết quả thuyết phục. Tuy nhiên, đối với những khái niệm mang tính trừu tượng và cần sự thể hiện cụ thể thông qua nghệ thuật tranh ảnh thì sẽ khó hơn. Mình đã cố tình đặt nhiều sự thử thách cho mô hình AI khi viết lời trừu tượng cho ca khúc này

* Công trình AI viết nhạc của Bảo Đại đến nay thế nào rồi?

- Ở thời điểm hiện tại, mô hình viết nhạc đã được cập nhật thêm tính năng đặt hòa âm cho ca khúc, song song với việc viết giai điệu. Cách hòa âm trong nhạc nhẹ đã có thể được mô hình AI học và thực hiện, như việc xây dựng cao trào và giải quyết cao trào bằng cấu trúc hòa âm 2-5-1.

Có thể nói, nếu chỉ đặt hợp âm vô một cách ngẫu nhiên hoặc chỉ để nghe mà không có cao trào thì mình có thể không cần đến AI, các kỹ thuật thông thường cũng có thể làm được. Đối với mô hình viết nhạc hiện tại, hòa âm và giai điệu được tạo ra song song (thay vì có giai điệu trước rồi đặt hòa âm, hoặc có hòa âm rồi viết giai điệu trên đó), và các lý thuyết trong hòa âm nhạc nhẹ đều có thể được mô hình học và mô phỏng lại.

Các bức tranh được AI tạo ra khá chi tiết và đúng với mong muốn của nghệ sĩ vẽ tranh

từ mv

* Cùng với mô hình này, trong năm 2023, Bảo Đại có những dự án nào khác?

- Sắp tới, trong lĩnh vực nghiên cứu kết hợp giữa AI và nghệ thuật, tôi đang dự sẽ xây dựng những tập dữ liệu đầu tiên để có thể xây dựng mô hình AI trong việc mixing và mastering (hai giai đoạn chính trong hậu kỳ âm thanh/âm nhạc). Hiện tại, đã có những công cụ sẵn có trên thị trường sử dụng AI để hoàn thiện âm thanh, tuy nhiên, tôi vẫn rất tò mò về nó và cũng muốn thực hiện một công cụ cho riêng mình, để có thể kết hợp vào bộ sưu tập “AI trong âm nhạc” của mình. Ngoài ra, việc tự xây dựng sẽ giúp tôi có thể biết cách điều chỉnh mô hình theo ý thích thay vì chỉ sử dụng và ngưng lại ở đó (cũng tương tự như AI vẽ tranh, nếu biết điều khiển sức mạnh của mô hình AI, mình sẽ có thể vẽ cả một MV thay vì chỉ vẽ một tranh).

Bảo Đại cho rằng "các bạn artist cũng sẽ có thể làm một MV high-res "xịn xò" tương tự để upload YouTube giống với cách mình đã làm Hướng nội"

nvcc

* Còn kế hoạch cá nhân cho Tết 2023?

- Tết này tôi sẽ tranh thủ thời gian để thư giãn và ở bên gia đình sau một thời gian dài học tập và nghiên cứu ở nước ngoài (Singapores). Ngoài ra, tôi cũng sắp xếp các cuộc hẹn với các bạn và anh chị sản xuất âm nhạc ở Việt Nam để trao đổi và học hỏi thêm; từ đó, mới có thể có đủ kiến thức trong quy trình sản xuất âm nhạc để kết hợp với kiến thức kỹ thuật trong trí tuệ nhân tạo.

Cảm ơn những chia sẻ của Bảo Đại!

Top

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.