https://rob2468.github.io/2026/03/14/transformer-theory/ 基本概念 向量:一维数组 输入 输入:“我想买苹果手机” 模型收到输入后,先切词(token):[ “我”, “想”, “买”, “苹果”, “手机” ] 向量化 (Embedding):每个词(token)变成一个初始向量,称为 X 向量。比如“苹果”变成了 [0.1, -0.3, 0.5…],表示为 X苹果。后续计算的核心,就是迭代 X 向量。 位置编码:模型同时对所有 tok
https://rob2468.github.io/2026/03/14/transformer-theory/
基本概念 向量:一维数组 输入 输入:“我想买苹果手机” 模型收到输入后,先切词(token):[ “我”, “想”, “买”, “苹果”, “手机” ] 向量化 (Embedding):每个词(token)变成一个初始向量,称为 X 向量。比如“苹果”变成了 [0.1, -0.3, 0.5…],表示为 X苹果。后续计算的核心,就是迭代 X 向量。 位置编码:模型同时对所有 tok