Spaces:

WillHeld
/

diva-audio-chat

Paused

WillHeld commited on Oct 18, 2024

Commit

67da1a1

1 Parent(s): 3583d5c

Add Buffering to Avoid Speech Gaps due to Orca Slowdown

Files changed (2) hide show

app.py CHANGED Viewed

@@ -69,7 +69,7 @@ def response(state: AppState, audio: tuple):
     if not audio:
         return AppState()
-    file_name = f"/tmp/{xxhash.xxh32(bytes(audio[1])).hexdigest()}.wav"
     sf.write(file_name, audio[1], audio[0], format="wav")
@@ -103,7 +103,8 @@ def response(state: AppState, audio: tuple):
     state.model_outs = None
     prev_outs = causal_outs
     stream = orca.stream_open()
     for resp, outs in diva_audio(
         (audio[0], audio[1]),
         prev_outs=(prev_outs if prev_outs is not None else None),
@@ -112,15 +113,18 @@ def response(state: AppState, audio: tuple):
         if prev_resp == LOADER_STR:
             prev_resp = ""
         state.conversation[-1]["content"] = resp
-        pcm = stream.synthesize(resp[len(prev_resp) :])
         audio_chunk = None
         if pcm is not None:
             mp3_io = io.BytesIO()
             sf.write(
-                mp3_io, np.asarray(pcm).astype(np.int16), orca.sample_rate, format="mp3"
             )
             audio_chunk = mp3_io.getvalue()
             mp3_io.close()
         yield state, state.conversation, audio_chunk
     del outs.logits
@@ -256,4 +260,4 @@ with gr.Blocks(theme=theme, js=js) as demo:
     )
 if __name__ == "__main__":
-    demo.launch()

     if not audio:
         return AppState()
+    file_name = f"./{xxhash.xxh32(bytes(audio[1])).hexdigest()}.wav"
     sf.write(file_name, audio[1], audio[0], format="wav")
     state.model_outs = None
     prev_outs = causal_outs
     stream = orca.stream_open()
+    i = 0
+    buff = []
     for resp, outs in diva_audio(
         (audio[0], audio[1]),
         prev_outs=(prev_outs if prev_outs is not None else None),
         if prev_resp == LOADER_STR:
             prev_resp = ""
         state.conversation[-1]["content"] = resp
         audio_chunk = None
+        pcm = stream.synthesize(resp[len(prev_resp) :])
         if pcm is not None:
+            buff.extend(pcm)
+        if len(buff) > (orca.sample_rate*2):
             mp3_io = io.BytesIO()
             sf.write(
+                mp3_io, np.asarray(buff[:orca.sample_rate]).astype(np.int16), orca.sample_rate, format="mp3"
             )
             audio_chunk = mp3_io.getvalue()
             mp3_io.close()
+            buff = buff[orca.sample_rate:]
         yield state, state.conversation, audio_chunk
     del outs.logits
     )
 if __name__ == "__main__":
+    demo.launch(share=True)

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
 transformers==4.43.3
-gradio==5.0.1
 spaces
 accelerate

 transformers==4.43.3
+gradio==5.1.0
 spaces
 accelerate