AI mới của Microsoft chỉ cần 3 giây âm thanh để sao chép giọng nói

Thấy hay chia sẻ cho bạn bè…

AI nhân bản giọng nói mới của Microsoft có thể mô phỏng giọng nói của con người với độ chính xác cao và tất cả những gì nó cần để bắt đầu là một đoạn mẫu trong vài giây trong số họ nói chuyện.

Nhân bản giọng nói 101: Nhân bản giọng nói không phải là mới. Tìm kiếm từ khoá trên Google và bạn sẽ nhận được một danh sách dài các liên kết đến các trang web và ứng dụng cung cấp dịch vụ đào tạo AI để tạo ra âm thanh giống như bạn. Sau đó, bạn có thể sử dụng bản sao để nghe chính mình “đọc” bất kỳ văn bản nào bạn thích.

Đối với một nhà văn, điều này có thể hữu ích để tạo phiên bản âm thanh do tác giả thuật lại cho cuốn sách của họ mà không phải mất nhiều ngày trong phòng thu âm. Trong khi đó, một diễn viên lồng tiếng có thể sao chép giọng nói của họ để có thể dùng AI cho các dự án mà họ không có thời gian tự giải quyết.

Tùy thuộc vào dịch vụ mà quá trình sao chép giọng nói có thể bắt đầu bằng việc bạn đọc thuộc lòng 50 câu định sẵn hoặc tải lên một đoạn clip chứa giọng nói của bạn về bất kỳ điều gì. Một số dịch vụ sẽ yêu cầu hàng giờ âm thanh để đào tạo AI của họ, trong khi những dịch vụ khác sẽ chỉ mất 5 giây.

AI mới của Microsoft chỉ cần 3 giây âm thanh để sao chép giọng nói

Ngắn gọn và súc tích: Trí tuệ nhân tạo mới về luyện giọng nói của Microsoft + VALL-E sẽ phá vỡ xu hướng này bằng cách tạo ra âm thanh rất giống với giọng nói của người nói gốc từ một mẫu giọng chỉ dài 3 giây.

Bạn không thể sao chép giọng nói của chính mình bằng VALL-E, nhưng Microsoft đã chia sẻ một bài báo nghiên cứu trên arXiv và tạo một trang Github, nơi bạn có thể so sánh các đoạn ngắn giọng nói của con người với giọng nói được tạo ra bởi VALL-E và một trí tuệ nhân tạo luyện giọng nói “cơ sở” (YourTSS).

Trí tuệ nhân tạo mới về luyện giọng nói của Microsoft + VALL-E

Trên trang này, Microsoft cũng cho thấy cách trí tuệ nhân tạo có thể bắt chước cảm xúc của người nói và môi trường âm thanh của một mẫu – nếu người nói có vẻ tức giận, VALL-E có thể tạo ra âm thanh giống như giọng nói tức giận, và nếu đoạn âm thanh gốc nghe như được ghi qua điện thoại, trí tuệ nhân tạo có thể tạo ra âm thanh phù hợp với tín hiệu âm thanh đó.

About The Author

Leave a Comment

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Scroll to Top