Giới Thiệu
VieNeu-TTS là hệ thống chuyển văn bản thành giọng nói (TTS) tiếng Việt tiên tiến, chạy hoàn toàn trên thiết bị với khả năng nhân bản giọng nói tức thì.
Chỉ cần cung cấp văn bản, hệ thống sẽ đọc lại bằng giọng nói tiếng Việt tự nhiên — hoàn toàn offline, không cần API đám mây.
Tính Năng Nổi Bật
- Nhân Bản Giọng Nói Tức Thì — Nhân bản bất kỳ giọng nói nào chỉ với 3-5 giây âm thanh mẫu
- Chuyển Đổi Ngôn Ngữ — Chuyển đổi liền mạch giữa tiếng Việt và tiếng Anh
- Phát Trực Tuyến Thời Gian Thực — Bắt đầu phát âm thanh trước khi toàn bộ câu được tạo xong
- Nhiều Backend — PyTorch (GPU), GGUF lượng tử hoá (CPU), LMDeploy (GPU nhanh), Remote API
- Sẵn Sàng Cho Production — Tạo sóng âm 24 kHz, có watermark âm thanh
Cách Hoạt Động
VieNeu-TTS sử dụng mô hình ngôn ngữ nhân quả để tạo giọng nói. Pipeline cốt lõi:
Văn bản → Chuẩn hoá → Phiên âm (eSpeak NG) → LLM tạo token âm thanh → Codec giải mã thành audio
- Chuẩn hoá văn bản — Chuyển đổi số, viết tắt, dấu câu thành dạng nói
- Phiên âm — eSpeak NG chuyển đổi văn bản thành ký hiệu phát âm
- Tạo token — Transformer LLM dự đoán các token âm thanh rời rạc
- Giải mã âm thanh — NeuCodec chuyển đổi token thành sóng âm 24kHz
Các Mô Hình
| Mô Hình | Định Dạng | Chất Lượng | Tốc Độ |
|---|---|---|---|
| VieNeu-TTS (0.5B) | PyTorch | Tốt nhất | Rất Nhanh (GPU) |
| VieNeu-TTS-0.3B | PyTorch | Tuyệt vời | Siêu Nhanh (2x) |
| GGUF Q8 | GGUF | Tuyệt vời | Nhanh (CPU) |
| GGUF Q4 | GGUF | Tốt | Rất Nhanh (CPU) |
Tất cả mô hình được lưu trữ trên HuggingFace và tự động tải về lần đầu sử dụng.
Bắt Đầu Nhanh
git clone https://github.com/pnnbao97/VieNeu-TTS.git
cd VieNeu-TTS
uv sync
uv run vieneu-web
Mở http://127.0.0.1:7860 và bắt đầu tạo giọng nói.