Chuyển tới nội dung chính

Tổng Quan SDK

SDK VieNeu-TTS cung cấp giao diện Python để tổng hợp giọng nói từ văn bản.

Kiến Trúc

Vieneu(mode=...)          # Hàm Factory
├── "standard" → VieNeuTTS (GGUF / PyTorch)
├── "fast" → FastVieNeuTTS (LMDeploy GPU)
├── "remote" → RemoteVieNeuTTS (API client)
└── "xpu" → XPUVieNeuTTS (Intel Arc GPU)

Chọn Chế Độ

Chế ĐộBackendPhù Hợp Cho
standardGGUF (CPU) hoặc PyTorchMặc định, hoạt động mọi nơi
fastLMDeployThông lượng GPU tối đa
remoteHTTP APIClient nhẹ, server mạnh
xpuIntel XPUGPU Intel Arc

Hai Thành Phần

Mỗi chế độ tải hai thành phần:

  1. Backbone — Transformer LLM tạo ra các token âm thanh
  2. Codec — NeuCodec giải mã token thành sóng âm

Mô hình tự động tải từ HuggingFace lần đầu sử dụng và lưu cache tại ~/.cache/huggingface/hub/.

Pattern Cơ Bản

from vieneu import Vieneu

tts = Vieneu(mode="standard")
audio = tts.infer(text="Xin chào bạn")
tts.save(audio, "output.wav")
tts.close()

Context Manager

with Vieneu() as tts:
audio = tts.infer(text="Xin chào")
tts.save(audio, "output.wav")
# Tài nguyên tự động giải phóng