Tổng Quan SDK

SDK VieNeu-TTS cung cấp giao diện Python để tổng hợp giọng nói từ văn bản.

Kiến Trúc

Vieneu(mode=...)          # Hàm Factory
  ├── "standard" → VieNeuTTS        (GGUF / PyTorch)
  ├── "fast"     → FastVieNeuTTS    (LMDeploy GPU)
  ├── "remote"   → RemoteVieNeuTTS  (API client)
  └── "xpu"      → XPUVieNeuTTS    (Intel Arc GPU)

Chọn Chế Độ

Chế Độ	Backend	Phù Hợp Cho
`standard`	GGUF (CPU) hoặc PyTorch	Mặc định, hoạt động mọi nơi
`fast`	LMDeploy	Thông lượng GPU tối đa
`remote`	HTTP API	Client nhẹ, server mạnh
`xpu`	Intel XPU	GPU Intel Arc

Hai Thành Phần

Mỗi chế độ tải hai thành phần:

Backbone — Transformer LLM tạo ra các token âm thanh
Codec — NeuCodec giải mã token thành sóng âm

Mô hình tự động tải từ HuggingFace lần đầu sử dụng và lưu cache tại ~/.cache/huggingface/hub/.

Pattern Cơ Bản

from vieneu import Vieneu

tts = Vieneu(mode="standard")
audio = tts.infer(text="Xin chào bạn")
tts.save(audio, "output.wav")
tts.close()

Context Manager

with Vieneu() as tts:
    audio = tts.infer(text="Xin chào")
    tts.save(audio, "output.wav")
# Tài nguyên tự động giải phóng

Kiến Trúc​

Chọn Chế Độ​

Hai Thành Phần​

Pattern Cơ Bản​

Context Manager​

Kiến Trúc

Chọn Chế Độ

Hai Thành Phần

Pattern Cơ Bản

Context Manager