Chuyển tới nội dung chính

Phát Trực Tuyến Thời Gian Thực

VieNeu-TTS hỗ trợ phát trực tuyến với độ trễ cực thấp — âm thanh bắt đầu phát trước khi toàn bộ câu được tạo xong.

Hiệu Suất

  • Độ trễ: Dưới 300ms cho chunk đầu tiên trên CPU i3/i5 hiện đại
  • Tối ưu cho: Backend GGUF trên CPU
  • Tần số lấy mẫu: 24 kHz

Demo Web

uv run vieneu-stream

Mở http://localhost:8001 trên trình duyệt.

SDK Streaming

from vieneu import Vieneu

tts = Vieneu()

for chunk in tts.infer_stream(text="Một đoạn văn rất dài..."):
phat_am_thanh(chunk)

Tham Số

tts.infer_stream(
text="Văn bản của bạn",
max_chars=256,
temperature=1.0,
top_k=50,
voice=du_lieu_giong,
ref_audio="mau.wav",
ref_text="...",
)

Cách Hoạt Động

  1. Văn bản được chia thành các chunk
  2. Mỗi chunk được phiên âm
  3. Mô hình GGUF tạo token theo luồng
  4. Cứ mỗi N token, một giải mã một phần tạo ra chunk âm thanh
  5. Overlap-add làm mượt ranh giới giữa các chunk

Các tham số cấu hình streaming:

  • streaming_frames_per_chunk: 25 frame mỗi chunk âm thanh
  • streaming_overlap_frames: 1 frame overlap để chuyển tiếp mượt
  • streaming_lookforward: 10 frame lookahead để đảm bảo chất lượng