RT,我看到返回的timestamp字段,每个字的开始时间都是上一个字的结束时间,这与现实情况明显不符,实际的音频中间有较多的时间停顿,请问这类问题有办法解决吗?比如('哪', 2.74, 2.94), ('位', 2.94, 5.261), ('什', 5.261, 9.1), ('么', 9.1, 9.22), ('东', 9.22, 9.34), ('西', 9.34, 9.5), ('啊', 9.5, 11.821)。实际音频在哪位之后有较长的停顿,才继续说的“什么东西”