Spaces:

tan-z-tan
/

speech_language_detection

Sleeping

App Files Files Community

tan-z-tan commited on Jun 28, 2024

Commit

9b5cb27

1 Parent(s): 6274b4a

Commit

Browse files

Files changed (4) hide show

app.py +20 -6
lang_id.py +2 -1
poetry.lock +0 -0
pyproject.toml +20 -0

app.py CHANGED Viewed

@@ -33,7 +33,12 @@ def resample_audio(audio, orig_sr, target_sr=16000):
 def process_chunk(chunk, language_set) -> pd.DataFrame:
     print(f"Processing audio chunk of length {len(chunk)}")
-    volume_norm = np.linalg.norm(chunk)
     length = len(chunk) / SAMPLING_RATE  # 音声データの長さ（秒）
     s = datetime.now()
     selected_scores, all_scores = identify_languages(chunk, language_set)
@@ -55,8 +60,8 @@ def process_chunk(chunk, language_set) -> pd.DataFrame:
     return pd.DataFrame({
         "Length (s)": [length],
-        "Volume": [volume_norm],
-        "Japanese_English": [f"{ja_en} ({ja_prob:.2f}, {en_prob:.2f})"],
         "Language": [top3_languages],
         "Lang ID Time": [lang_id_time],
         "Transcribe Time": [transcribe_time],
@@ -80,9 +85,6 @@ def process_audio_stream(audio, chunk_duration, language_set):
     audio_data = resample_audio(audio_data, sr, target_sr=SAMPLING_RATE)
     audio_sec = 0
-    # 音量の正規化
-    audio_data = normalize_audio(audio_data)
     current_chunk.append(audio_data)
     total_chunk = np.concatenate(current_chunk)
@@ -93,7 +95,14 @@ def process_audio_stream(audio, chunk_duration, language_set):
         total_chunk = total_chunk[SAMPLING_RATE * chunk_duration:]
         audio_sec += chunk_duration
         df = process_chunk(chunk, language_set)
         data_df = pd.concat([data_df, df], ignore_index=True)
         current_chunk = [total_chunk]
@@ -124,6 +133,11 @@ def process_audio(audio, chunk_duration, language_set):
     audio_data = resample_audio(audio_data, sr, target_sr=SAMPLING_RATE)
     audio_sec = 0
     # 音量の正規化
     audio_data = normalize_audio(audio_data)

 def process_chunk(chunk, language_set) -> pd.DataFrame:
     print(f"Processing audio chunk of length {len(chunk)}")
+    rms = np.sqrt(np.mean(chunk**2))
+    db_level = 20 * np.log10(rms + 1e-9)  # 加えた小さな値で-inf値を防ぐ
+    # 音量の正規化
+    chunk = normalize_audio(chunk)
     length = len(chunk) / SAMPLING_RATE  # 音声データの長さ（秒）
     s = datetime.now()
     selected_scores, all_scores = identify_languages(chunk, language_set)
     return pd.DataFrame({
         "Length (s)": [length],
+        "db_level": [db_level],
+        "Japanese_English": [f"{ja_en} ({ja_prob:.2f}, {en_prob:.2f})"] if db_level > 50 else ["Silent"],
         "Language": [top3_languages],
         "Lang ID Time": [lang_id_time],
         "Transcribe Time": [transcribe_time],
     audio_data = resample_audio(audio_data, sr, target_sr=SAMPLING_RATE)
     audio_sec = 0
     current_chunk.append(audio_data)
     total_chunk = np.concatenate(current_chunk)
         total_chunk = total_chunk[SAMPLING_RATE * chunk_duration:]
         audio_sec += chunk_duration
+        # Check if the audio in the window is too quiet
+        # rms = np.sqrt(np.mean(chunk**2))
+        # db_level = 20 * np.log10(rms + 1e-9)  # 加えた小さな値で-inf値を防ぐ
+        # print(db_level)
         df = process_chunk(chunk, language_set)
+        # add db_level
+        # df["dB Level"] = db_level
         data_df = pd.concat([data_df, df], ignore_index=True)
         current_chunk = [total_chunk]
     audio_data = resample_audio(audio_data, sr, target_sr=SAMPLING_RATE)
     audio_sec = 0
+    # Check if the audio in the window is too quiet
+    rms = np.sqrt(np.mean(audio_data**2))
+    db_level = 20 * np.log10(rms + 1e-9)  # 加えた小さな値で-inf値を防ぐ
+    print(db_level)
     # 音量の正規化
     audio_data = normalize_audio(audio_data)

lang_id.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from speechbrain.inference.classifiers import EncoderClassifier
 import numpy as np
 import torch
@@ -42,7 +43,7 @@ def identify_languages(chunk: np.ndarray, languages: list[str] = ["Japanese", "E
     lang_scores, _, _, _ = language_id.classify_batch(torch.from_numpy(chunk).unsqueeze(0))
     # 結果の整形
-    all_scores = {INDEX_TO_LANG[i]: score for i, score in enumerate(lang_scores[0])}
     selected_scores = {lang: float(all_scores[lang]) for lang in languages}
     return selected_scores, all_scores

+import math
 from speechbrain.inference.classifiers import EncoderClassifier
 import numpy as np
 import torch
     lang_scores, _, _, _ = language_id.classify_batch(torch.from_numpy(chunk).unsqueeze(0))
     # 結果の整形
+    all_scores = {INDEX_TO_LANG[i]: 100 * math.exp(score) for i, score in enumerate(lang_scores[0])}
     selected_scores = {lang: float(all_scores[lang]) for lang in languages}
     return selected_scores, all_scores

poetry.lock ADDED Viewed

The diff for this file is too large to render. See raw diff

pyproject.toml ADDED Viewed

	@@ -0,0 +1,20 @@

+[tool.poetry]
+name = "speech-language-detection"
+version = "0.1.0"
+description = ""
+authors = ["Makoto Tanji <tanji.makoto@gmail.com>"]
+readme = "README.md"
+[tool.poetry.dependencies]
+python = "^3.10"
+transformers = "^4.41.2"
+gradio = "^4.36.1"
+sounddevice = "^0.4.7"
+numpy = "^2.0.0"
+pandas = "^2.2.2"
+speechbrain = "^1.0.0"
+[build-system]
+requires = ["poetry-core"]
+build-backend = "poetry.core.masonry.api"