FunASR/README_ja.md at main · modelscope/FunASR

産業グレードの音声認識。最大340倍リアルタイム、Whisperより26倍高速。50以上の言語に対応。
話者分離 · 感情認識 · ストリーミング · ワンコールで完結

クイックスタート · Colab · モデル選択 · ベンチマーク · Migration guide · Use cases · Deployment matrix · モデル一覧 · Agent連携 · ドキュメント

クイックスタート

pip install funasr

from funasr import AutoModel

model = AutoModel(model="iic/SenseVoiceSmall", vad_model="fsmn-vad", spk_model="cam++", device="cuda")
result = model.generate(input="meeting.wav")

出力 — 話者ラベル・タイムスタンプ・句読点付きの構造化テキスト：

[00:00.4 → 00:03.8] 話者0: Q3の計画について話し合いましょう。
[00:04.2 → 00:07.1] 話者1: いいですね。3つのポイントがあります。
[00:07.5 → 00:12.3] 話者0: どうぞ。あと30分あります。

1つのモデル、1回の呼び出し — VADセグメンテーション、音声認識、句読点復元、話者分離がすべて自動で実行されます。

初めて使う場合は Colab クイックスタートから試せます。どのモデルを選ぶか迷う場合はモデル選択ガイドを参照してください。

APIサーバーとしてデプロイ： funasr-server --device cuda → localhost:8000でOpenAI互換エンドポイント

AIエージェント連携： MCPサーバー Claude/Cursor対応 · OpenAI API LangChain/Dify/AutoGen対応

なぜFunASRを選ぶのか？

Whisper は単一モデルですが、FunASR はツールキットです——用途に応じてモデルを選べます：Fun-ASR-Nano（フラッグシップ LLM-ASR、GPU が必要、vLLM で 340 倍リアルタイム、31 言語）、SenseVoice（CPU に優しく、感情・音声イベントも）、Paraformer（低遅延ストリーミング）。下の表は、単一の Whisper モデルに対してツールキットが提供できるものです——各機能にはそれを提供するモデルを併記しています：

	FunASR（ツールキット）	Whisper	クラウドAPI
最高速度	340倍リアルタイム（Fun-ASR-Nano + vLLM）	13倍リアルタイム	〜1倍リアルタイム
話者認識	✅ 内蔵	❌ pyannoteが必要	✅ 追加料金
感情認識	✅ SenseVoice による	❌	❌
言語数	50以上（Qwen3-ASR 52、Nano 31）	57	サービスにより異なる
ストリーミング	✅ WebSocket（Paraformer）	❌	✅
CPU対応	✅ 17倍リアルタイム（SenseVoice）	❌ 遅すぎる	該当なし
セルフホスト	✅ MITライセンス	✅ MITライセンス	❌ クラウドのみ
コスト	無料	無料	$0.006/分〜

ベンチマーク

184件の長時間音声（計192分）。詳細レポート →

モデル	中国語 CER ↓	GPU速度	CPU速度	Whisper-large-v3比
Fun-ASR-Nano（vLLM）	8.20%	340倍リアルタイム	—	🚀 26倍高速
SenseVoice-Small	7.81%	170倍リアルタイム	17倍リアルタイム	🚀 13倍高速
Paraformer-Large	10.18%	120倍リアルタイム	15倍リアルタイム	🚀 9倍高速
Whisper-large-v3-turbo	21.71%	46倍リアルタイム	❌	3.4倍高速
Whisper-large-v3	20.02%	13倍リアルタイム	❌	ベースライン

ポイント： FunASRのCPU速度は、WhisperのGPU速度より速い。

インストール

pip install funasr

要件：Python ≥ 3.8、PyTorch ≥ 1.13、torchaudio

モデル一覧

モデル	タスク	言語	パラメータ	リンク
Fun-ASR-Nano	認識 + タイムスタンプ	31言語	800M	⭐ 🤗
SenseVoiceSmall	認識 + 感情 + イベント	中/英/日/韓/粤	234M	⭐ 🤗
Paraformer-zh	認識 + タイムスタンプ	中/英	220M	⭐ 🤗
Qwen3-ASR	認識、52言語	多言語	1.7B	使用法
GLM-ASR-Nano	認識、17言語	多言語	1.5B	使用法
Whisper-large-v3-turbo	認識 + 翻訳	多言語	809M	使用法

デプロイ

# OpenAI互換API（推奨）
pip install funasr fastapi uvicorn python-multipart
funasr-server --device cuda

# Dockerストリーミングサービス
docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.12

Colab quickstart → · OpenAI API example → · Client recipes → · Workflow recipes → · Postman collection → · OpenAPI spec → · Security guide → · Deployment matrix → · デプロイドキュメント → · Agent連携 →

コミュニティ


📖 ドキュメント	🐛 Issues
💬 Discussions	🤗 HuggingFace

ライセンス

MIT License

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

クイックスタート

なぜFunASRを選ぶのか？

ベンチマーク

最新情報

インストール

モデル一覧

デプロイ

コミュニティ

ライセンス

Uh oh!

FilesExpand file tree

README_ja.md

Latest commit

History

README_ja.md

File metadata and controls

クイックスタート

なぜFunASRを選ぶのか？

ベンチマーク

最新情報

インストール

モデル一覧

デプロイ

コミュニティ

ライセンス