實時聽寫要求每次 inference都只辨識最新 5秒的音頻,而不是回到最一開始的地方。 https://github.com/FunAudioLLM/Fun-ASR/blob/main/demo2.py#L32 每次都從音頻的第 0秒辨識,導致 inference花的時間越來越長,喪失實時的意義。 具體來說,demo2.py呼叫 `load_audio`時,應該帶入 `offset`的參數,使得每次 `inference`處理的長度都是 5秒。