Chuyển tới nội dung chính

Nhân Bản Giọng Nói

Nhân bản bất kỳ giọng nói nào chỉ với 3-5 giây âm thanh mẫu. Không cần fine-tuning (zero-shot).

Cách Hoạt Động

  1. Bạn cung cấp đoạn âm thanh ngắn + bản ghi nội dung
  2. Codec mã hoá âm thanh thành token giọng nói
  3. Các token này được dùng làm ngữ cảnh cho LLM
  4. LLM tiếp tục tạo ra theo phong cách giọng nói tương tự

Nhân Bản Cơ Bản

from vieneu import Vieneu

tts = Vieneu()

audio = tts.infer(
text="Đây là giọng nói được clone.",
ref_audio="duong_dan/den/nguoi_noi.wav",
ref_text="Nội dung chính xác của những gì người nói đã nói trong âm thanh.",
)
tts.save(audio, "ket_qua_clone.wav")

Mẹo Để Đạt Kết Quả Tốt Nhất

  • Chất lượng âm thanh: Dùng bản ghi sạch, không có tiếng ồn nền
  • Thời lượng: 3-5 giây là lý tưởng. Quá ngắn = chất lượng kém, quá dài = lãng phí ngữ cảnh
  • Độ chính xác bản ghi: ref_text phải khớp chính xác với nội dung được nói
  • Ngôn ngữ: Âm thanh mẫu nên là tiếng Việt để đạt kết quả tốt nhất

Sử Dụng Mã Đã Được Mã Hoá Trực Tiếp

ref_codes = tts.encode_reference("nguoi_noi.wav")

for text in texts:
audio = tts.infer(
text=text,
ref_codes=ref_codes,
ref_text="Nội dung của âm thanh mẫu.",
)

Giọng Đặt Sẵn

voices = tts.list_preset_voices()
for description, voice_id in voices:
print(f"{voice_id}: {description}")

voice = tts.get_preset_voice("ten_giong")
audio = tts.infer(text="Chào bạn!", voice=voice)