Tổng Quan SDK
SDK VieNeu-TTS cung cấp giao diện Python để tổng hợp giọng nói từ văn bản.
Kiến Trúc
Vieneu(mode=...) # Hàm Factory
├── "standard" → VieNeuTTS (GGUF / PyTorch)
├── "fast" → FastVieNeuTTS (LMDeploy GPU)
├── "remote" → RemoteVieNeuTTS (API client)
└── "xpu" → XPUVieNeuTTS (Intel Arc GPU)
Chọn Chế Độ
| Chế Độ | Backend | Phù Hợp Cho |
|---|---|---|
standard | GGUF (CPU) hoặc PyTorch | Mặc định, hoạt động mọi nơi |
fast | LMDeploy | Thông lượng GPU tối đa |
remote | HTTP API | Client nhẹ, server mạnh |
xpu | Intel XPU | GPU Intel Arc |
Hai Thành Phần
Mỗi chế độ tải hai thành phần:
- Backbone — Transformer LLM tạo ra các token âm thanh
- Codec — NeuCodec giải mã token thành sóng âm
Mô hình tự động tải từ HuggingFace lần đầu sử dụng và lưu cache tại ~/.cache/huggingface/hub/.
Pattern Cơ Bản
from vieneu import Vieneu
tts = Vieneu(mode="standard")
audio = tts.infer(text="Xin chào bạn")
tts.save(audio, "output.wav")
tts.close()
Context Manager
with Vieneu() as tts:
audio = tts.infer(text="Xin chào")
tts.save(audio, "output.wav")
# Tài nguyên tự động giải phóng