Phát Trực Tuyến Thời Gian Thực
VieNeu-TTS hỗ trợ phát trực tuyến với độ trễ cực thấp — âm thanh bắt đầu phát trước khi toàn bộ câu được tạo xong.
Hiệu Suất
- Độ trễ: Dưới 300ms cho chunk đầu tiên trên CPU i3/i5 hiện đại
- Tối ưu cho: Backend GGUF trên CPU
- Tần số lấy mẫu: 24 kHz
Demo Web
uv run vieneu-stream
Mở http://localhost:8001 trên trình duyệt.
SDK Streaming
from vieneu import Vieneu
tts = Vieneu()
for chunk in tts.infer_stream(text="Một đoạn văn rất dài..."):
phat_am_thanh(chunk)
Tham Số
tts.infer_stream(
text="Văn bản của bạn",
max_chars=256,
temperature=1.0,
top_k=50,
voice=du_lieu_giong,
ref_audio="mau.wav",
ref_text="...",
)
Cách Hoạt Động
- Văn bản được chia thành các chunk
- Mỗi chunk được phiên âm
- Mô hình GGUF tạo token theo luồng
- Cứ mỗi N token, một giải mã một phần tạo ra chunk âm thanh
- Overlap-add làm mượt ranh giới giữa các chunk
Các tham số cấu hình streaming:
streaming_frames_per_chunk: 25 frame mỗi chunk âm thanhstreaming_overlap_frames: 1 frame overlap để chuyển tiếp mượtstreaming_lookforward: 10 frame lookahead để đảm bảo chất lượng