You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

VibeVoice-1.5B-Vietnamese-LoRA

This repository contains a LoRA (Low-Rank Adaptation) fine-tuned version of VibeVoice-1.5B for Vietnamese text-to-speech synthesis. The model has been adapted to generate natural-sounding Vietnamese speech with high fidelity and long-form synthesis capabilities.

Model Description

VibeVoice is a novel framework designed for generating expressive, long-form, multi-speaker conversational audio from text. It addresses significant challenges in traditional Text-to-Speech (TTS) systems, particularly in scalability, speaker consistency, and natural turn-taking.

A core innovation of VibeVoice is its use of continuous speech tokenizers (Acoustic and Semantic) operating at an ultra-low frame rate of 7.5 Hz. These tokenizers efficiently preserve audio fidelity while significantly boosting computational efficiency for processing long sequences. VibeVoice employs a next-token diffusion framework, leveraging a Large Language Model (LLM) to understand textual context and dialogue flow, and a diffusion head to generate high-fidelity acoustic details.

Key Features

  • Language: Vietnamese
  • Base Model: VibeVoice-1.5B
  • Architecture: LoRA fine-tuning on LLM backbone + full fine-tuning on diffusion head
  • Maximum Audio Length: Up to 3 minutes (tested)
  • Training Data: ~650K samples from PhoAudioBook dataset

Training Details

Dataset

The model was fine-tuned on the PhoAudioBook dataset, a Vietnamese audiobook corpus. The dataset underwent the following preprocessing steps:

  • Filtered out audio samples shorter than 2 seconds
  • Re-transcribed to ensure low Word Error Rate (WER)
  • Final dataset size: approximately 650,000 samples

Training Configuration

Parameter Value
Hardware 1x NVIDIA H200 GPU
Training Duration 2 days
Epochs 1
Training Steps 5,100
Batch Size 8 per device
Gradient Accumulation 16 steps
Learning Rate 2.5e-5
LR Scheduler Cosine with 3% warmup
Precision BF16
LoRA Target Modules q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
Diffusion Loss Weight 1.4
CE Loss Weight 0.04
Voice Prompt Drop Rate 0.1

Training Approach

  • LoRA fine-tuning applied to the LLM backbone for efficient adaptation
  • Full fine-tuning of the diffusion head for high-quality audio generation
  • Gradient clipping (max norm: 0.8) for training stability
  • Minimum audio duration: 2.0 seconds

Usage

Installation

# Clone the VibeVoice repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Install dependencies
pip install -r requirements.txt

Inference

python demo/inference_from_file.py \
    --model_path /path/to/merged/model \
    --txt_path /path/to/text_file.txt \
    --speaker_names "Speaker Name"

For detailed inference instructions, please refer to the VibeVoice repository.

Merging LoRA Weights

To merge the LoRA weights with the base model, use the provided merge script:

# Download merge_vibevoice_models.py from:
# https://github.com/user-attachments/files/22679889/merge_vibevoice_models.py

python merge_vibevoice_models.py \
    --base_model_path /path/to/VibeVoice-1.5B \
    --lora_path /path/to/lora \
    --output_path /path/to/merged/model

Evaluation Examples

Example 1:

Input Text:

Speaker 1: Hôm nay mình dậy sớm hơn mọi ngày gần một tiếng để chuẩn bị cho buổi thuyết trình quan trọng ở công ty. Trời hơi se lạnh nên mình tranh thủ tập vài động tác thể dục nhẹ cho tỉnh táo.

Speaker 1: Sau đó mình pha một ly cà phê nóng và ngồi xem lại toàn bộ slide, chỉnh sửa lại những chỗ còn dài dòng hoặc chưa rõ ý. Mình cũng ghi chú thêm vài ví dụ minh họa để phần trình bày sinh động hơn.

Speaker 1: Trước khi ra khỏi nhà, mình kiểm tra lại email và tin nhắn để đảm bảo không bỏ sót thông báo nào từ đồng nghiệp. May là không có thay đổi đột xuất nào về lịch họp.

Speaker 1: Mình hy vọng buổi thuyết trình sẽ diễn ra suôn sẻ và nhận được nhiều góp ý tích cực. Nếu mọi thứ thuận lợi, mình sẽ đề xuất thêm một số ý tưởng mới cho dự án sắp tới.

Reference Voice Prompt:

Generated Audio:

Example 2: Long-Form Synthesis

Input Text:

Speaker 1: Hôm nay mình quyết định dành toàn bộ thời gian để ghi lại thật chi tiết những suy nghĩ và trải nghiệm trong một ngày làm việc bình thường, nhằm kiểm tra xem hệ thống có thể xử lý một đoạn văn bản rất dài với cùng một tiền tố lặp lại hay không. Ngay từ sáng sớm, khi thành phố còn chưa hoàn toàn thức giấc, mình đã ngồi vào bàn làm việc, mở máy tính và bắt đầu lên danh sách những việc cần hoàn thành. Danh sách đó bao gồm việc đọc tài liệu chuyên môn, viết báo cáo tiến độ, trao đổi với đồng nghiệp về một số vấn đề kỹ thuật và rà soát lại các ghi chú còn dang dở từ tuần trước.

Speaker 1: Trong quá trình đọc tài liệu, mình cố gắng không chỉ lướt qua bề mặt mà còn phân tích từng khái niệm một cách cẩn thận, đặt câu hỏi về mục đích, bối cảnh và khả năng áp dụng thực tế của chúng. Có những đoạn mình phải đọc đi đọc lại nhiều lần để đảm bảo hiểu đúng tinh thần của tác giả. Thỉnh thoảng mình dừng lại để ghi chú thêm suy nghĩ cá nhân, liên hệ với các dự án hiện tại và tưởng tượng xem nếu áp dụng ý tưởng đó thì quy trình làm việc sẽ thay đổi như thế nào.

Speaker 1: Đến giữa buổi sáng, mình chuyển sang viết báo cáo tiến độ. Phần này đòi hỏi sự chính xác và mạch lạc, vì bất kỳ sai sót nhỏ nào về số liệu hoặc diễn đạt cũng có thể dẫn đến hiểu nhầm. Mình kiểm tra lại từng con số, từng mốc thời gian, đảm bảo rằng mọi thông tin đều thống nhất với dữ liệu gốc. Đồng thời, mình cố gắng diễn đạt sao cho người đọc có thể nhanh chóng nắm được bức tranh tổng thể mà không cần phải hỏi lại quá nhiều.

Speaker 1: Sau giờ nghỉ trưa ngắn, mình tiếp tục với việc trao đổi cùng đồng nghiệp. Dù chỉ là những cuộc trò chuyện qua tin nhắn và cuộc gọi trực tuyến, mình vẫn cố gắng trình bày vấn đề một cách rõ ràng, đưa ra ví dụ cụ thể và lắng nghe phản hồi của họ. Có những lúc quan điểm khác nhau, nhưng mình nhận ra rằng chính sự khác biệt đó giúp nhóm nhìn vấn đề từ nhiều góc độ hơn, từ đó tìm ra giải pháp tối ưu.

Speaker 1: Buổi chiều trôi qua khá nhanh khi mình bắt đầu rà soát lại toàn bộ các ghi chú cũ. Mình phát hiện ra một vài ý tưởng trước đây từng bị bỏ qua vì chưa đủ thời gian phát triển, và giờ đây chúng lại trở nên phù hợp trong bối cảnh mới. Mình dành thêm thời gian để mở rộng những ý tưởng đó, viết thành từng đoạn phân tích dài hơn, cố gắng làm rõ mục tiêu, phương pháp thực hiện và các rủi ro có thể phát sinh.

Speaker 1: Khi trời bắt đầu tối, mình nhìn lại toàn bộ khối lượng văn bản đã viết trong ngày và nhận ra rằng việc duy trì một tiền tố lặp lại ở đầu mỗi đoạn không hề ảnh hưởng đến dòng suy nghĩ của mình. Ngược lại, nó còn tạo ra một cấu trúc rõ ràng, giúp phân tách từng phần nội dung một cách tự nhiên. Mình tiếp tục viết thêm, mở rộng câu chữ, thêm nhiều chi tiết miêu tả hơn về bối cảnh làm việc, cảm xúc cá nhân và những bài học rút ra trong quá trình làm việc liên tục.

Speaker 1: Cuối cùng, mình kết thúc ngày làm việc bằng cách tổng hợp lại những gì đã hoàn thành, tự đánh giá mức độ hiệu quả và đặt mục tiêu cho ngày mai. Việc viết một văn bản dài với cùng một tiền tố lặp đi lặp lại hóa ra lại là một trải nghiệm thú vị, vì nó buộc mình phải duy trì sự nhất quán trong cấu trúc trong khi vẫn đảm bảo nội dung đủ phong phú và đa dạng để không trở nên nhàm chán.

Reference Voice Prompt:

Generated Audio:

Limitations

  • The model has been primarily tested on text up to 3 minutes of audio output
  • Performance on longer sequences (>3 minutes) has not been extensively evaluated
  • The model is optimized for Vietnamese language and may not perform well on other languages

Citation

If you use this model in your research, please cite:

VibeVoice

@article{vibevoice2025,
  title={VibeVoice: A Frontier Open-Source Text-to-Speech Model},
  author={Microsoft Research},
  journal={arXiv preprint arXiv:2508.19205},
  year={2025},
  url={https://arxiv.org/abs/2508.19205}
}

PhoAudioBook Dataset

@inproceedings{vu2025zeroshottexttospeechvietnamese,
  title={Zero-Shot Text-to-Speech for Vietnamese}, 
  author={Thi Vu and Linh The Nguyen and Dat Quoc Nguyen},
  year={2025},
  booktitle={Proceedings of ACL}
}

Acknowledgments

Links

License

This project follows the CC BY-NC 4.0 License, consistent with the base PhoAudioBook Dataset.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nmcuong/VibeVoice-Vietnamese-LoRA

Adapter
(13)
this model

Dataset used to train nmcuong/VibeVoice-Vietnamese-LoRA

Paper for nmcuong/VibeVoice-Vietnamese-LoRA