Spaces:

BSC-LT
/

SalamandraTAV

Running on Zero

App Files Files Community

uri-pareras commited on Aug 6, 2025

Commit

31c417c

verified ·

1 Parent(s): b0fd395

[FEAT] Added detected language textbox

Browse files

Files changed (1) hide show

app.py +19 -6

app.py CHANGED Viewed

@@ -32,10 +32,10 @@ def process_audio(audio, source_lang_name, target_lang_name):
     Processes the audio input to perform speech-to-text translation or transcription.
     """
     if audio is None:
-        return "Please provide an audio file or record one."
     if target_lang_name is None:
-        return "Please select a target language."
     source_lang = LANG_TO_NAME.get(source_lang_name)
     target_lang = LANG_TO_NAME.get(target_lang_name)
@@ -46,7 +46,9 @@ def process_audio(audio, source_lang_name, target_lang_name):
     if source_lang != "autodetect":
         pipe_kwargs["src_lang"] = source_lang
     # If source and target languages are the same, perform transcription
     if source_lang == target_lang:
         pipe_kwargs["mode"] = "asr"
@@ -55,7 +57,17 @@ def process_audio(audio, source_lang_name, target_lang_name):
         pipe_kwargs["tgt_lang"] = target_lang_name
     result = pipe(audio, **pipe_kwargs)
-    return result[0]["text"] if isinstance(result, list) else result
 # Create the Gradio interface
@@ -82,11 +94,12 @@ with gr.Blocks() as demo:
         with gr.Column():
             output_text = gr.Textbox(label="Output", lines=10, interactive=False)
     submit_button.click(
         fn=process_audio,
         inputs=[audio_input, source_lang_dropdown, target_lang_dropdown],
-        outputs=output_text,
     )
     gr.Markdown("## Examples")
@@ -104,7 +117,7 @@ with gr.Blocks() as demo:
             ],
         ],
         inputs=[audio_input, source_lang_dropdown, target_lang_dropdown],
-        outputs=output_text,
         fn=process_audio,
     )

     Processes the audio input to perform speech-to-text translation or transcription.
     """
     if audio is None:
+        return "Please provide an audio file or record one.", ""
     if target_lang_name is None:
+        return "Please select a target language.", ""
     source_lang = LANG_TO_NAME.get(source_lang_name)
     target_lang = LANG_TO_NAME.get(target_lang_name)
     if source_lang != "autodetect":
         pipe_kwargs["src_lang"] = source_lang
+    pipe_kwargs["return_timestamps"] = True # To get the language
     # If source and target languages are the same, perform transcription
     if source_lang == target_lang:
         pipe_kwargs["mode"] = "asr"
         pipe_kwargs["tgt_lang"] = target_lang_name
     result = pipe(audio, **pipe_kwargs)
+    text = result["text"] if isinstance(result, dict) else result
+    detected_language = ""
+    if source_lang == "autodetect":
+        try:
+            detected_language = result["chunks"][0]["language"]
+        except (KeyError, IndexError):
+            detected_language = "N/A"
+    return text, detected_language
 # Create the Gradio interface
         with gr.Column():
             output_text = gr.Textbox(label="Output", lines=10, interactive=False)
+            detected_lang_output = gr.Textbox(label="Detected Source Language", interactive=False)
     submit_button.click(
         fn=process_audio,
         inputs=[audio_input, source_lang_dropdown, target_lang_dropdown],
+        outputs=[output_text, detected_lang_output],
     )
     gr.Markdown("## Examples")
             ],
         ],
         inputs=[audio_input, source_lang_dropdown, target_lang_dropdown],
+        outputs=[output_text, detected_lang_output],
         fn=process_audio,
     )