Giới Thiệu

VieNeu-TTS là hệ thống chuyển văn bản thành giọng nói (TTS) tiếng Việt tiên tiến, chạy hoàn toàn trên thiết bị với khả năng nhân bản giọng nói tức thì.

Chỉ cần cung cấp văn bản, hệ thống sẽ đọc lại bằng giọng nói tiếng Việt tự nhiên — hoàn toàn offline, không cần API đám mây.

Tính Năng Nổi Bật

Nhân Bản Giọng Nói Tức Thì — Nhân bản bất kỳ giọng nói nào chỉ với 3-5 giây âm thanh mẫu
Chuyển Đổi Ngôn Ngữ — Chuyển đổi liền mạch giữa tiếng Việt và tiếng Anh
Phát Trực Tuyến Thời Gian Thực — Bắt đầu phát âm thanh trước khi toàn bộ câu được tạo xong
Nhiều Backend — PyTorch (GPU), GGUF lượng tử hoá (CPU), LMDeploy (GPU nhanh), Remote API
Sẵn Sàng Cho Production — Tạo sóng âm 24 kHz, có watermark âm thanh

Cách Hoạt Động

VieNeu-TTS sử dụng mô hình ngôn ngữ nhân quả để tạo giọng nói. Pipeline cốt lõi:

Văn bản → Chuẩn hoá → Phiên âm (eSpeak NG) → LLM tạo token âm thanh → Codec giải mã thành audio

Chuẩn hoá văn bản — Chuyển đổi số, viết tắt, dấu câu thành dạng nói
Phiên âm — eSpeak NG chuyển đổi văn bản thành ký hiệu phát âm
Tạo token — Transformer LLM dự đoán các token âm thanh rời rạc
Giải mã âm thanh — NeuCodec chuyển đổi token thành sóng âm 24kHz

Các Mô Hình

Mô Hình	Định Dạng	Chất Lượng	Tốc Độ
VieNeu-TTS (0.5B)	PyTorch	Tốt nhất	Rất Nhanh (GPU)
VieNeu-TTS-0.3B	PyTorch	Tuyệt vời	Siêu Nhanh (2x)
GGUF Q8	GGUF	Tuyệt vời	Nhanh (CPU)
GGUF Q4	GGUF	Tốt	Rất Nhanh (CPU)

Tất cả mô hình được lưu trữ trên HuggingFace và tự động tải về lần đầu sử dụng.

Bắt Đầu Nhanh

git clone https://github.com/pnnbao97/VieNeu-TTS.git
cd VieNeu-TTS
uv sync
uv run vieneu-web

Mở http://127.0.0.1:7860 và bắt đầu tạo giọng nói.

Tính Năng Nổi Bật​

Cách Hoạt Động​

Các Mô Hình​

Bắt Đầu Nhanh​

Tính Năng Nổi Bật

Cách Hoạt Động

Các Mô Hình

Bắt Đầu Nhanh