Skip to content

Latest commit

 

History

History
152 lines (107 loc) · 8.39 KB

File metadata and controls

152 lines (107 loc) · 8.39 KB

(English|简体中文|日本語|한국어)

FunASR

産業グレードの音声認識。最大340倍リアルタイム、Whisperより26倍高速。50以上の言語に対応。
話者分離 · 感情認識 · ストリーミング · ワンコールで完結

PyPI Stars Downloads Docs

modelscope%2FFunASR | Trendshift

クイックスタート · Colab · モデル選択 · ベンチマーク · Migration guide · Use cases · Deployment matrix · モデル一覧 · Agent連携 · ドキュメント


クイックスタート

pip install funasr
from funasr import AutoModel

model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")

出力 — 話者ラベル・タイムスタンプ・句読点付きの構造化テキスト:

[00:00.4 → 00:03.8] 話者0: Q3の計画について話し合いましょう。
[00:04.2 → 00:07.1] 話者1: いいですね。3つのポイントがあります。
[00:07.5 → 00:12.3] 話者0: どうぞ。あと30分あります。

1つのモデル、1回の呼び出し — VADセグメンテーション、音声認識、句読点復元、話者分離がすべて自動で実行されます。

初めて使う場合は Colab クイックスタート から試せます。どのモデルを選ぶか迷う場合は モデル選択ガイド を参照してください。

APIサーバーとしてデプロイ: funasr-server --device cuda → localhost:8000でOpenAI互換エンドポイント

AIエージェント連携: MCPサーバー Claude/Cursor対応 · OpenAI API LangChain/Dify/AutoGen対応

なぜFunASRを選ぶのか?

Whisper は単一モデルですが、FunASR はツールキットです——用途に応じてモデルを選べます:Fun-ASR-Nano(フラッグシップ LLM-ASR、GPU が必要、vLLM で 340 倍リアルタイム、31 言語)、SenseVoice(CPU に優しく、感情・音声イベントも)、Paraformer(低遅延ストリーミング)。下の表は、単一の Whisper モデルに対してツールキットが提供できるものです——各機能にはそれを提供するモデルを併記しています:

FunASR(ツールキット) Whisper クラウドAPI
最高速度 340倍リアルタイム(Fun-ASR-Nano + vLLM) 13倍リアルタイム 〜1倍リアルタイム
話者認識 ✅ 内蔵 ❌ pyannoteが必要 ✅ 追加料金
感情認識 ✅ SenseVoice による
言語数 50以上(Qwen3-ASR 52、Nano 31) 57 サービスにより異なる
ストリーミング ✅ WebSocket(Paraformer)
CPU対応 ✅ 17倍リアルタイム(SenseVoice) ❌ 遅すぎる 該当なし
セルフホスト ✅ MITライセンス ✅ MITライセンス ❌ クラウドのみ
コスト 無料 無料 $0.006/分〜

ベンチマーク

184件の長時間音声(計192分)。詳細レポート →

モデル 中国語 CER ↓ GPU速度 CPU速度 Whisper-large-v3比
Fun-ASR-Nano(vLLM) 8.20% 340倍リアルタイム 🚀 26倍高速
SenseVoice-Small 7.81% 170倍リアルタイム 17倍リアルタイム 🚀 13倍高速
Paraformer-Large 10.18% 120倍リアルタイム 15倍リアルタイム 🚀 9倍高速
Whisper-large-v3-turbo 21.71% 46倍リアルタイム 3.4倍高速
Whisper-large-v3 20.02% 13倍リアルタイム ベースライン

ポイント: FunASRのCPU速度は、WhisperのGPU速度より速い。


最新情報

  • 2026/05/24:v1.3.3funasr-server CLI、OpenAI互換API、MCPサーバー。pip install --upgrade funasr
  • 2026/05/20:Qwen3-ASR (0.6B/1.7B) 追加 — 52言語対応。
  • 2026/05/20:GLM-ASR-Nano (1.5B) 追加 — 17言語、方言対応。
  • 2025/12/15:Fun-ASR-Nano-2512 — 31言語対応。

インストール

pip install funasr

要件:Python ≥ 3.8、PyTorch ≥ 1.13、torchaudio


モデル一覧

モデル タスク 言語 パラメータ リンク
Fun-ASR-Nano 認識 + タイムスタンプ 31言語 800M 🤗
SenseVoiceSmall 認識 + 感情 + イベント 中/英/日/韓/粤 234M 🤗
Paraformer-zh 認識 + タイムスタンプ 中/英 220M 🤗
Qwen3-ASR 認識、52言語 多言語 1.7B 使用法
GLM-ASR-Nano 認識、17言語 多言語 1.5B 使用法
Whisper-large-v3-turbo 認識 + 翻訳 多言語 809M 使用法

デプロイ

# OpenAI互換API(推奨)
pip install funasr fastapi uvicorn python-multipart
funasr-server --device cuda

# Dockerストリーミングサービス
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

Colab quickstart → · OpenAI API example → · Client recipes → · Workflow recipes → · Postman collection → · OpenAPI spec → · Security guide → · Deployment matrix → · デプロイドキュメント → · Agent連携 →


コミュニティ

📖 ドキュメント 🐛 Issues
💬 Discussions 🤗 HuggingFace

ライセンス

MIT License