Nhân Bản Giọng Nói

Nhân bản bất kỳ giọng nói nào chỉ với 3-5 giây âm thanh mẫu. Không cần fine-tuning (zero-shot).

Cách Hoạt Động

Bạn cung cấp đoạn âm thanh ngắn + bản ghi nội dung
Codec mã hoá âm thanh thành token giọng nói
Các token này được dùng làm ngữ cảnh cho LLM
LLM tiếp tục tạo ra theo phong cách giọng nói tương tự

Nhân Bản Cơ Bản

from vieneu import Vieneu

tts = Vieneu()

audio = tts.infer(
    text="Đây là giọng nói được clone.",
    ref_audio="duong_dan/den/nguoi_noi.wav",
    ref_text="Nội dung chính xác của những gì người nói đã nói trong âm thanh.",
)
tts.save(audio, "ket_qua_clone.wav")

Mẹo Để Đạt Kết Quả Tốt Nhất

Chất lượng âm thanh: Dùng bản ghi sạch, không có tiếng ồn nền
Thời lượng: 3-5 giây là lý tưởng. Quá ngắn = chất lượng kém, quá dài = lãng phí ngữ cảnh
Độ chính xác bản ghi: ref_text phải khớp chính xác với nội dung được nói
Ngôn ngữ: Âm thanh mẫu nên là tiếng Việt để đạt kết quả tốt nhất

Sử Dụng Mã Đã Được Mã Hoá Trực Tiếp

ref_codes = tts.encode_reference("nguoi_noi.wav")

for text in texts:
    audio = tts.infer(
        text=text,
        ref_codes=ref_codes,
        ref_text="Nội dung của âm thanh mẫu.",
    )

Giọng Đặt Sẵn

voices = tts.list_preset_voices()
for description, voice_id in voices:
    print(f"{voice_id}: {description}")

voice = tts.get_preset_voice("ten_giong")
audio = tts.infer(text="Chào bạn!", voice=voice)

Cách Hoạt Động​

Nhân Bản Cơ Bản​

Mẹo Để Đạt Kết Quả Tốt Nhất​

Sử Dụng Mã Đã Được Mã Hoá Trực Tiếp​

Giọng Đặt Sẵn​

Cách Hoạt Động

Nhân Bản Cơ Bản

Mẹo Để Đạt Kết Quả Tốt Nhất

Sử Dụng Mã Đã Được Mã Hoá Trực Tiếp

Giọng Đặt Sẵn