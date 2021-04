Mô hình AI viết ca khúc theo ý mình

Bảo Đại (sinh năm 1994, tốt nghiệp ngành khoa học máy tính - Trường ĐH Khoa học tự nhiên TP.HCM, vừa trở thành người thứ ba ở Việt Nam được Google công nhận là Google Developer Expert trong lĩnh vực Machine Learning) cho biết với mô hình AI sáng tác nhạc hiện tại , anh có thể yêu cầu viết một đoạn nhạc dài 10 giây hoặc 5 phút, hoặc dài hơn tùy ý. “Mô hình AI này sẽ nhận vào một đoạn nhạc ngắn của mình, làm cơ sở đầu vào để nắm bắt được ý đồ phong cách, sau đó tạo ra những ca khúc đầy đủ đúng như mình mong muốn. Ví dụ, nếu mình mớm một đoạn giai điệu êm dịu thì sẽ có 10 ca khúc ballad trữ tình; nếu đưa vào đoạn nhạc có tiết tấu nhanh hơn một chút, sẽ nhận được 10 ca khúc sôi động. Thậm chí khi bí ý tưởng, mình có thể yêu cầu mô hình AI tự tạo ra ca khúc luôn mà không cần mớm giai điệu nữa”, anh mô tả.

Về hiệu quả, Bảo Đại nhìn nhận: “Mô hình đạt khoảng 80% kỳ vọng của mình. Tốc độ viết nhạc của mô hình cũng rất ấn tượng, khi chỉ cần 1 giây là có thể có 10 đoạn giai điệu khác nhau. Khả năng này của mô hình giúp tiết kiệm rất nhiều thời gian trong quá trình sáng tác và hoàn thiện tác phẩm”.

Vì muốn xây dựng mô hình AI có thể viết được nhạc theo phong cách pop ballad Việt, Bảo Đại chọn cách thức học có giám sát để huấn luyện mô hình. “Học có giám sát đòi hỏi rất nhiều dữ liệu để có thể huấn luyện được. Để chuẩn bị dữ liệu cho huấn luyện (hiện có khoảng 20.000 file .midi), mình đã tìm kiếm trên các diễn đàn chia sẻ file .midi, nhưng số lượng không nhiều và thường cần phải trải qua quá trình tiền xử lý - phải xóa hết những phần midi không cần thiết (midi trống, midi bass...) và chỉ giữ lại giai điệu chính. Ngoài ra, cần phải chuyển âm giai về C (đô trưởng) hoặc Am (la thứ), khi đó dữ liệu mới được chuẩn hóa và có thể dùng để huấn luyện được mô hình”, anh chia sẻ.

Cũng như các mô hình AI khác, tính ưu việt của nó chính là tốc độ và tiện dụng. “Vì tốc độ viết giai điệu của mô hình rất nhanh, thời gian còn lại có thể dành để tập trung vào những công đoạn khác để xuất bản ca khúc (viết lời, hòa âm phối khí…). Dù viết rất nhanh nhưng phong cách giai điệu AI viết vẫn có tính bắt tai, dễ nhớ và mang âm hưởng nhạc pop Việt”, Đại chia sẻ.

Bảo Đại và Adom Doledas (trái) - đồng sản xuất âm nhạc MV Dân IT của anh

Theo Đại, mục tiêu tạo ra mô hình AI có thể hỗ trợ viết nhạc là để thỏa mãn đam mê nghiên cứu về AI (Đại hiện là nhà nghiên cứu về AI cho một công ty của Singapore ) và muốn tìm câu trả lời cho bài toán “liệu AI có thể viết được nhạc pop Việt không?”, chứ không nhằm mục đích thương mại hóa nó. Cũng theo anh, mô hình AI này được sử dụng như một công cụ hỗ trợ trong quá trình viết giai điệu và bản quyền ca khúc vẫn thuộc về nhạc sĩ viết ra ca khúc đó, chứ không thuộc về bất cứ công cụ nào.

Vẫn cần con người chỉnh sửa

Dù AI tạo ra giai điệu rất nhanh, con người vẫn cần phải chỉnh sửa lại để có thể thỏa mãn ý đồ sáng tác. Song theo Đại, việc chỉnh sửa này diễn ra rất nhanh, không tốn quá nhiều công sức: “Mình hoàn toàn có thể bắt AI chỉnh sửa cho đến khi vừa ý. Quá trình này cũng diễn ra rất nhanh (10 giai điệu mới có thể tiếp tục được tạo ra trong 1 giây). Việc của con người cho giai đoạn này là nghe, sau đó chỉnh sửa, hoặc nghe và chọn nếu giai điệu đó đủ đẹp, đủ thuyết phục”.

Về cảm nhận ở khía cạnh cảm xúc sau khi nghe ca khúc do AI viết giai điệu, Bảo Đại chia sẻ: “Đối với những ca khúc được nhạc sĩ (là con người) viết, vẫn có trường hợp người này thấy hay, người khác bảo không. Điều này bình thường vì thế giới quan mỗi người khác nhau, gu âm nhạc khác nhau, hay - dở tùy thuộc vào sở thích riêng. Từ đó, nếu cảm thấy ca khúc hay, tự người đó sẽ sinh ra cảm xúc đối với ca khúc, chứ không phải ca khúc là nguồn gốc của cảm xúc”. Vì thế, đối với những giai điệu được viết bởi AI, theo Đại, nếu những giai điệu này đẹp và có nét tương đồng với những kỷ niệm của một người trong quá khứ thì người đó cũng sẽ có cảm xúc đối với giai điệu mình nghe, chứ giai điệu này không áp đặt cảm xúc cho họ.

Đại cho biết thêm: “Việc AI có thể diễn đạt tốt các giá trị này như nhạc sĩ là vì nó đã được huấn luyện dựa trên rất nhiều ca khúc, giai điệu được nhạc sĩ viết. Dù vậy, mình vẫn cần phải xây dựng thêm các mô hình AI khác để diễn đạt những giá trị khác của nhạc sĩ, như về mặt viết lời hay viết hòa âm cho ca khúc. Có một câu nói rất hay là “Beauty is in the eye of the beholder” (tạm dịch: Vẻ đẹp nằm trong trong mắt của người ngắm nhìn), mình nghĩ câu này cũng tương tự với tai người khi nghe nhạc”.