为什么在推理时需要classifier-free guidance式的输入,即将无条件的文本嵌入和条件的文本嵌入拼接在一起?无条件的文本嵌入和条件的文本嵌入拼接在一起的这种方式是为了获得加权的预测噪声用于采样,但是这里只是获得去噪Unet的注意力分数矩阵,并不是为了获得用于采样的预测噪声,似乎并不需要将无条件的文本嵌入和条件的文本嵌入拼接在一起。