VoiceInput 是一款 macOS 上的語音輸入工具,讓您可以透過語音將文字輸入到任何應用程式中。受到 VoiceInk 的啟發,開發了這款工具,完全免費且自由,不需要授權。
- 按住說話,放開轉寫:使用修飾鍵(Command、Option、Fn)作為快捷鍵,按住開始錄音,放開後自動將文字插入到當前焦點的輸入框
- 即時語音辨識:錄音期間即時顯示辨識結果
- 多語言支援:支援繁體中文、簡體中文、英文、日文
- 靈活的設定:可自訂快捷鍵、語言、切換自動插入功能
- 浮動面板:錄音時顯示美觀的浮動膠囊視窗
- LLM 智慧修正:內建語言模型處理流程,可自動修正錯字與語句不順
- 自訂字典:支援個人化詞彙取代規則(如將「水平致中」取代為「水平置中」)
| 快捷鍵 | 說明 |
|---|---|
| 右邊 Command (⌘) | 預設快捷鍵 |
| 左邊 Command (⌘) | |
| 右邊 Option (⌥) | |
| 左邊 Option (⌥) | |
| Fn 鍵 |
- macOS 12.0 或更高版本
- 麥克風權限
- 語音辨識權限
- 輔助功能權限(用於模擬鍵盤輸入文字)
首次使用時,系統會要求您授予以下權限:
- 麥克風權限:用於錄製您的語音
- 語音辨識權限:用於將語音轉換為文字
- 輔助功能權限:用於將文字輸入到其他應用程式中
-
複製專案:
git clone https://github.com/tenyi/VoiceInput.git cd VoiceInput -
使用 Xcode 開啟
VoiceInput.xcodeproj -
在 Xcode 中設定您的開發者簽名
-
編譯並執行 (⌘R)
- 首次執行後,系統會彈出權限請求對話框,請點擊「允許」
- 若權限被拒絕,可前往 系統偏好設定 > 隱私權與安全性 手动开启
- 點擊選單列中的 VoiceInput 圖示,選擇「設定」來查看權限狀態
- 開始錄音:按住設定的快捷鍵(例如右邊 Command 或 fn 鍵)
- 說話:對著麥克風說話
- 停止並輸入:放開快捷鍵,語音會自動轉換為文字並插入到您正在使用的輸入框中
- 點擊選單列中的 VoiceInput 圖示
- 選擇「設定」開啟設定視窗
- 您可以設定:
- 辨識語言:選擇語音辨識的語言
- 快捷鍵:選擇用於觸發錄音的按鍵
- 自動插入:切換轉錄完成後是否自動輸入文字
- 語音辨識:
- Apple Speech Framework:macOS 內建的語音辨識服務,無需額外設定即可使用
- Whisper:支援本地端 Whisper 模型,可離線使用且辨識效果更佳
- 音訊處理:使用 AVAudioEngine 進行錄音
- 鍵盤模擬:使用 CGEvent 模擬 Cmd+V 貼上文字
- 快捷鍵監控:使用 CGEventTap 監聽鍵盤事件
對於繁體中文辨識,推薦使用聯發科(MediaTek)的 Breeze ASR 模型:
下載連結:https://huggingface.co/alan314159/Breeze-ASR-25-whispercpp/tree/main
推薦版本:
ggml-model-q4_k.bin(4 bit 量化):平衡了模型大小與辨識效果,推薦首選ggml-model-q8_k.bin(8 bit 量化):如果需要高精度且磁碟空間允許
使用方法:
- 從上述連結下載
ggml-model-q4_k.bin模型檔案 - 打開 VoiceInput 設定
- 前往「模型」頁面
- 點擊「匯入模型」並選擇下載的模型檔案
- 選擇該模型作為 Whisper 引擎
為什麼選擇 Breeze ASR:
- 專為中文語音設計,繁體中文辨識效果優異
- 經過 whisper.cpp 優化,可在 Apple Silicon 上高效運行
- 4 bit 量化版本體積小(約 900MB),記憶體佔用低
除了本地端的語音辨識外,VoiceInput 也支援強大的後處理功能,讓輸入更精準:
您可以設定 OpenAI 相容的 API 端點(支援官方 OpenAI、OpenRouter 等各種自訂供應商),讓語言模型自動為您修正轉錄文字的錯字。
💡 強烈推薦使用 google/gemini-2.5-flash-lite 模型:
- 速度極快:修正步驟造成的延遲時間短
- 價格極便宜:API 呼叫成本非常低,是日常大量語音輸入的完美選擇
在設定中的「字典」分頁,您可以加入專屬的常用詞彙取代規則。系統會在最終文字輸出前,套用您的自訂字典,確保您的專有名詞或特定用語永遠正確無誤。
- 作者:Tenyi
本專案採用 Apache License 2.0 授權。