實時聽寫的範例 demo2.py並不是真正的實時

實時聽寫要求每次 inference都只辨識最新 5秒的音頻，而不是回到最一開始的地方。

https://github.com/FunAudioLLM/Fun-ASR/blob/main/demo2.py#L32 每次都從音頻的第 0秒辨識，導致 inference花的時間越來越長，喪失實時的意義。

具體來說，demo2.py呼叫 `load_audio`時，應該帶入 `offset`的參數，使得每次 `inference`處理的長度都是 5秒。