Chuyển tới nội dung chính

Các Phương Thức Suy Luận

infer()

audio = tts.infer(
text: str,
ref_audio: str = None,
ref_codes: Tensor = None,
ref_text: str = None,
voice: dict = None,
max_chars: int = 256,
silence_p: float = 0.15,
crossfade_p: float = 0.0,
temperature: float = 1.0,
top_k: int = 50,
skip_normalize: bool = False,
)

Tham Số

Tham SốKiểuMô Tả
textstrVăn bản cần tổng hợp
ref_audiostrĐường dẫn âm thanh mẫu để nhân bản giọng nói
ref_codesTensorMã mẫu đã được mã hoá trước
ref_textstrBản ghi nội dung âm thanh mẫu
voicedictDict giọng đặt sẵn từ get_preset_voice()
max_charsintSố ký tự tối đa mỗi chunk (mặc định 256)
silence_pfloatThời gian im lặng giữa các chunk (giây)
crossfade_pfloatThời gian crossfade giữa các chunk
temperaturefloatNhiệt độ lấy mẫu
top_kintLấy mẫu top-k
skip_normalizeboolBỏ qua chuẩn hoá văn bản

Trả Về

numpy.ndarray — Sóng âm tại 24 kHz.

Thứ Tự Ưu Tiên Giọng Nói

  1. Dict voice (từ preset)
  2. ref_audio + ref_text
  3. ref_codes + ref_text
  4. Giọng preset mặc định

infer_batch()

audios = tts.infer_batch(texts: List[str], ...)

Trả về List[numpy.ndarray]. Chế độ PyTorch dùng batch generation thực sự; GGUF xử lý tuần tự.


infer_stream()

for chunk in tts.infer_stream(text: str, ...):
phat_am_thanh(chunk)

Yield các chunk numpy.ndarray (chỉ GGUF).


save()

tts.save(audio: numpy.ndarray, duong_dan_output: str)

encode_reference()

codes = tts.encode_reference(duong_dan_am_thanh_mau: str)
# Trả về: torch.Tensor

close()

tts.close()
# Hoặc dùng context manager:
with Vieneu() as tts:
audio = tts.infer(text="...")