字级别的timestamp完全没有停顿时间

RT，我看到返回的timestamp字段，每个字的开始时间都是上一个字的结束时间，这与现实情况明显不符，实际的音频中间有较多的时间停顿，请问这类问题有办法解决吗？比如('哪', 2.74, 2.94), ('位', 2.94, 5.261), ('什', 5.261, 9.1), ('么', 9.1, 9.22), ('东', 9.22, 9.34), ('西', 9.34, 9.5), ('啊', 9.5, 11.821)。实际音频在哪位之后有较长的停顿，才继续说的“什么东西”