kotoba-tech
/

kotoba-whisper-v1.1

Automatic Speech Recognition

hf-asr-leaderboard

Model card Files Files and versions

asahi417 commited on May 7, 2024

Commit

e447805

·

verified ·

1 Parent(s): 59da090

Update pipeline/test_pipeline.py

Files changed (1) hide show

pipeline/test_pipeline.py +72 -0

pipeline/test_pipeline.py CHANGED Viewed

@@ -80,3 +80,75 @@ for i in dataset:
     pprint(prediction)
     break

     pprint(prediction)
     break
+print("""### P + S ###""")
+pipe = pipeline(model=model_alias,
+                punctuator=True,
+                stable_ts=True,
+                chunk_length_s=15,
+                batch_size=16,
+                trust_remote_code=True)
+dataset = load_dataset("kotoba-tech/kotoba-whisper-eval", split="train")
+for i in dataset:
+    if i["audio"]["path"] == "long_interview_1.mp3":
+        i["audio"]["array"] = i["audio"]["array"][:7938000]
+    prediction = pipe(
+        i["audio"],
+        generate_kwargs={"language": "japanese", "task": "transcribe"}
+    )
+    pprint(prediction)
+    break
+print("""### P ###""")
+pipe = pipeline(model=model_alias,
+                punctuator=True,
+                stable_ts=False,
+                chunk_length_s=15,
+                batch_size=16,
+                trust_remote_code=True)
+dataset = load_dataset("kotoba-tech/kotoba-whisper-eval", split="train")
+for i in dataset:
+    if i["audio"]["path"] == "long_interview_1.mp3":
+        i["audio"]["array"] = i["audio"]["array"][:7938000]
+    prediction = pipe(
+        i["audio"],
+        generate_kwargs={"language": "japanese", "task": "transcribe"}
+    )
+    pprint(prediction)
+    break
+print("""### S ###""")
+pipe = pipeline(model=model_alias,
+                punctuator=False,
+                stable_ts=True,
+                chunk_length_s=15,
+                batch_size=16,
+                trust_remote_code=True)
+dataset = load_dataset("kotoba-tech/kotoba-whisper-eval", split="train")
+for i in dataset:
+    if i["audio"]["path"] == "long_interview_1.mp3":
+        i["audio"]["array"] = i["audio"]["array"][:7938000]
+    prediction = pipe(
+        i["audio"],
+        generate_kwargs={"language": "japanese", "task": "transcribe"}
+    )
+    pprint(prediction)
+    break
+print("""### RAW ###""")
+pipe = pipeline(model=model_alias,
+                punctuator=False,
+                stable_ts=False,
+                chunk_length_s=15,
+                batch_size=16,
+                trust_remote_code=True)
+dataset = load_dataset("kotoba-tech/kotoba-whisper-eval", split="train")
+for i in dataset:
+    if i["audio"]["path"] == "long_interview_1.mp3":
+        i["audio"]["array"] = i["audio"]["array"][:7938000]
+    prediction = pipe(
+        i["audio"],
+        generate_kwargs={"language": "japanese", "task": "transcribe"}
+    )
+    pprint(prediction)
+    break