Các Phương Thức Suy Luận
infer()
audio = tts.infer(
text: str,
ref_audio: str = None,
ref_codes: Tensor = None,
ref_text: str = None,
voice: dict = None,
max_chars: int = 256,
silence_p: float = 0.15,
crossfade_p: float = 0.0,
temperature: float = 1.0,
top_k: int = 50,
skip_normalize: bool = False,
)
Tham Số
| Tham Số | Kiểu | Mô Tả |
|---|---|---|
text | str | Văn bản cần tổng hợp |
ref_audio | str | Đường dẫn âm thanh mẫu để nhân bản giọng nói |
ref_codes | Tensor | Mã mẫu đã được mã hoá trước |
ref_text | str | Bản ghi nội dung âm thanh mẫu |
voice | dict | Dict giọng đặt sẵn từ get_preset_voice() |
max_chars | int | Số ký tự tối đa mỗi chunk (mặc định 256) |
silence_p | float | Thời gian im lặng giữa các chunk (giây) |
crossfade_p | float | Thời gian crossfade giữa các chunk |
temperature | float | Nhiệt độ lấy mẫu |
top_k | int | Lấy mẫu top-k |
skip_normalize | bool | Bỏ qua chuẩn hoá văn bản |
Trả Về
numpy.ndarray — Sóng âm tại 24 kHz.
Thứ Tự Ưu Tiên Giọng Nói
- Dict
voice(từ preset) ref_audio+ref_textref_codes+ref_text- Giọng preset mặc định
infer_batch()
audios = tts.infer_batch(texts: List[str], ...)
Trả về List[numpy.ndarray]. Chế độ PyTorch dùng batch generation thực sự; GGUF xử lý tuần tự.
infer_stream()
for chunk in tts.infer_stream(text: str, ...):
phat_am_thanh(chunk)
Yield các chunk numpy.ndarray (chỉ GGUF).
save()
tts.save(audio: numpy.ndarray, duong_dan_output: str)
encode_reference()
codes = tts.encode_reference(duong_dan_am_thanh_mau: str)
# Trả về: torch.Tensor
close()
tts.close()
# Hoặc dùng context manager:
with Vieneu() as tts:
audio = tts.infer(text="...")