Các Phương Thức Suy Luận

`infer()`

audio = tts.infer(
    text: str,
    ref_audio: str = None,
    ref_codes: Tensor = None,
    ref_text: str = None,
    voice: dict = None,
    max_chars: int = 256,
    silence_p: float = 0.15,
    crossfade_p: float = 0.0,
    temperature: float = 1.0,
    top_k: int = 50,
    skip_normalize: bool = False,
)

Tham Số

Tham Số	Kiểu	Mô Tả
`text`	`str`	Văn bản cần tổng hợp
`ref_audio`	`str`	Đường dẫn âm thanh mẫu để nhân bản giọng nói
`ref_codes`	`Tensor`	Mã mẫu đã được mã hoá trước
`ref_text`	`str`	Bản ghi nội dung âm thanh mẫu
`voice`	`dict`	Dict giọng đặt sẵn từ `get_preset_voice()`
`max_chars`	`int`	Số ký tự tối đa mỗi chunk (mặc định 256)
`silence_p`	`float`	Thời gian im lặng giữa các chunk (giây)
`crossfade_p`	`float`	Thời gian crossfade giữa các chunk
`temperature`	`float`	Nhiệt độ lấy mẫu
`top_k`	`int`	Lấy mẫu top-k
`skip_normalize`	`bool`	Bỏ qua chuẩn hoá văn bản

Trả Về

numpy.ndarray — Sóng âm tại 24 kHz.

Thứ Tự Ưu Tiên Giọng Nói

Dict voice (từ preset)
ref_audio + ref_text
ref_codes + ref_text
Giọng preset mặc định

`infer_batch()`

audios = tts.infer_batch(texts: List[str], ...)

Trả về List[numpy.ndarray]. Chế độ PyTorch dùng batch generation thực sự; GGUF xử lý tuần tự.

`infer_stream()`

for chunk in tts.infer_stream(text: str, ...):
    phat_am_thanh(chunk)

Yield các chunk numpy.ndarray (chỉ GGUF).

`save()`

tts.save(audio: numpy.ndarray, duong_dan_output: str)

`encode_reference()`

codes = tts.encode_reference(duong_dan_am_thanh_mau: str)
# Trả về: torch.Tensor

`close()`

tts.close()
# Hoặc dùng context manager:
with Vieneu() as tts:
    audio = tts.infer(text="...")

infer()​

Tham Số​

Trả Về​

Thứ Tự Ưu Tiên Giọng Nói​

infer_batch()​

infer_stream()​

save()​

encode_reference()​

close()​

`infer()`

Tham Số

Trả Về

Thứ Tự Ưu Tiên Giọng Nói

`infer_batch()`

`infer_stream()`

`save()`

`encode_reference()`

`close()`