Nhân Bản Giọng Nói
Nhân bản bất kỳ giọng nói nào chỉ với 3-5 giây âm thanh mẫu. Không cần fine-tuning (zero-shot).
Cách Hoạt Động
- Bạn cung cấp đoạn âm thanh ngắn + bản ghi nội dung
- Codec mã hoá âm thanh thành token giọng nói
- Các token này được dùng làm ngữ cảnh cho LLM
- LLM tiếp tục tạo ra theo phong cách giọng nói tương tự
Nhân Bản Cơ Bản
from vieneu import Vieneu
tts = Vieneu()
audio = tts.infer(
text="Đây là giọng nói được clone.",
ref_audio="duong_dan/den/nguoi_noi.wav",
ref_text="Nội dung chính xác của những gì người nói đã nói trong âm thanh.",
)
tts.save(audio, "ket_qua_clone.wav")
Mẹo Để Đạt Kết Quả Tốt Nhất
- Chất lượng âm thanh: Dùng bản ghi sạch, không có tiếng ồn nền
- Thời lượng: 3-5 giây là lý tưởng. Quá ngắn = chất lượng kém, quá dài = lãng phí ngữ cảnh
- Độ chính xác bản ghi:
ref_textphải khớp chính xác với nội dung được nói - Ngôn ngữ: Âm thanh mẫu nên là tiếng Việt để đạt kết quả tốt nhất
Sử Dụng Mã Đã Được Mã Hoá Trực Tiếp
ref_codes = tts.encode_reference("nguoi_noi.wav")
for text in texts:
audio = tts.infer(
text=text,
ref_codes=ref_codes,
ref_text="Nội dung của âm thanh mẫu.",
)
Giọng Đặt Sẵn
voices = tts.list_preset_voices()
for description, voice_id in voices:
print(f"{voice_id}: {description}")
voice = tts.get_preset_voice("ten_giong")
audio = tts.infer(text="Chào bạn!", voice=voice)