Chuyển tới nội dung chính

Giới Thiệu

VieNeu-TTS là hệ thống chuyển văn bản thành giọng nói (TTS) tiếng Việt tiên tiến, chạy hoàn toàn trên thiết bị với khả năng nhân bản giọng nói tức thì.

Chỉ cần cung cấp văn bản, hệ thống sẽ đọc lại bằng giọng nói tiếng Việt tự nhiên — hoàn toàn offline, không cần API đám mây.

Tính Năng Nổi Bật

  • Nhân Bản Giọng Nói Tức Thì — Nhân bản bất kỳ giọng nói nào chỉ với 3-5 giây âm thanh mẫu
  • Chuyển Đổi Ngôn Ngữ — Chuyển đổi liền mạch giữa tiếng Việt và tiếng Anh
  • Phát Trực Tuyến Thời Gian Thực — Bắt đầu phát âm thanh trước khi toàn bộ câu được tạo xong
  • Nhiều Backend — PyTorch (GPU), GGUF lượng tử hoá (CPU), LMDeploy (GPU nhanh), Remote API
  • Sẵn Sàng Cho Production — Tạo sóng âm 24 kHz, có watermark âm thanh

Cách Hoạt Động

VieNeu-TTS sử dụng mô hình ngôn ngữ nhân quả để tạo giọng nói. Pipeline cốt lõi:

Văn bản → Chuẩn hoá → Phiên âm (eSpeak NG) → LLM tạo token âm thanh → Codec giải mã thành audio
  1. Chuẩn hoá văn bản — Chuyển đổi số, viết tắt, dấu câu thành dạng nói
  2. Phiên âm — eSpeak NG chuyển đổi văn bản thành ký hiệu phát âm
  3. Tạo token — Transformer LLM dự đoán các token âm thanh rời rạc
  4. Giải mã âm thanh — NeuCodec chuyển đổi token thành sóng âm 24kHz

Các Mô Hình

Mô HìnhĐịnh DạngChất LượngTốc Độ
VieNeu-TTS (0.5B)PyTorchTốt nhấtRất Nhanh (GPU)
VieNeu-TTS-0.3BPyTorchTuyệt vờiSiêu Nhanh (2x)
GGUF Q8GGUFTuyệt vờiNhanh (CPU)
GGUF Q4GGUFTốtRất Nhanh (CPU)

Tất cả mô hình được lưu trữ trên HuggingFace và tự động tải về lần đầu sử dụng.

Bắt Đầu Nhanh

git clone https://github.com/pnnbao97/VieNeu-TTS.git
cd VieNeu-TTS
uv sync
uv run vieneu-web

Mở http://127.0.0.1:7860 và bắt đầu tạo giọng nói.