Hello, 感谢开源这么棒的工作!想请教一下,您们RL和SFT训练时,最大帧是128,每帧最多64 token吗,相当于每个视频最多4096个token?
Hello, 感谢开源这么棒的工作!想请教一下,您们RL和SFT训练时,最大帧是128,每帧最多64 token吗,相当于每个视频最多4096个token?