english-speech-grader

Runtime error

LJKJHI commited on 9 days ago

Commit

4904365

1 Parent(s): 08929e1

refactor: Externalize `espeak` dependency to `packages.txt` and refine Gradio app initialization and input handling.

Files changed (3) hide show

app.py CHANGED Viewed

@@ -1,35 +1,44 @@
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import torch
-import gradio as gr
-import librosa
 import os
-import subprocess
-# Install system dependencies
-subprocess.run(["apt-get", "update"], check=True)
-subprocess.run(["apt-get", "install", "-y", "espeak"], check=True)
-# load model and processor
-processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
-model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-lv-60-espeak-cv-ft")
-# define prediction function
 def audio2phoneme(audio_path):
-  audio, sr = librosa.load(audio_path, sr=16000)
-  input_values = processor(audio, return_tensors="pt", padding=True).input_values
-  with torch.no_grad():
-    logits = model(input_values).logits
-  predicted_ids = torch.argmax(logits, dim=-1)
-  transcription = processor.batch_decode(predicted_ids)
-  return ' '.join(transcription)
 app = gr.Interface(
     fn=audio2phoneme,
-    inputs=gr.Audio(sources=["upload","microphone"], type="filepath"),
-    outputs=gr.Textbox(label="Phoneme Transcription", show_copy_button=True, show_label=True),
-    description="Get phonemes from audio",
-    title="Audio to Phoneme Transcription using facebook/wav2vec2-lv-60-espeak-cv",
-    )
-# start space
-app.launch(share=True)

+import gradio as gr
 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import torch
+import librosa
 import os
+# 1. Load Model (Chạy 1 lần khi khởi động)
+print("Đang tải model...")
+MODEL_ID = "facebook/wav2vec2-lv-60-espeak-cv-ft"
+processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
+model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
+print("Model đã sẵn sàng!")
+# 2. Hàm xử lý chính
 def audio2phoneme(audio_path):
+    if audio_path is None:
+        return "Không tìm thấy file âm thanh."
+    # Load file âm thanh, ép về 16kHz
+    audio, sr = librosa.load(audio_path, sr=16000)
+    # Xử lý qua Model
+    input_values = processor(audio, return_tensors="pt", padding=True).input_values
+    with torch.no_grad():
+        logits = model(input_values).logits
+    # Giải mã ra âm vị
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = processor.batch_decode(predicted_ids)
+    return ' '.join(transcription)
+# 3. Tạo giao diện và API
+# Lưu ý: "api_name" chính là tên endpoint bạn sẽ gọi
 app = gr.Interface(
     fn=audio2phoneme,
+    inputs=gr.Audio(type="filepath"),
+    outputs=gr.Textbox(label="Phoneme Transcription"),
+    title="API Phân tích Âm vị (Phoneme)",
+    description="Gửi file ghi âm giọng đọc tiếng Anh để nhận về chuỗi âm vị IPA."
+)
+if __name__ == "__main__":
+    app.launch()

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ espeak-ng

requirements.txt CHANGED Viewed

@@ -6,3 +6,9 @@ transformers==4.44.2
 datasets==3.0.2
 librosa==0.10.2.post1
 phonemizer==3.3.0

 datasets==3.0.2
 librosa==0.10.2.post1
 phonemizer==3.3.0
+torch
+torchaudio
+transformers
+librosa
+phonemizer
+gradio