Transformer工作原理 | Jam

https://rob2468.github.io/2026/03/14/transformer-theory/ 

 基本概念 向量：一维数组    输入 输入：“我想买苹果手机” 模型收到输入后，先切词（token）：[ “我”, “想”, “买”, “苹果”, “手机” ] 向量化 (Embedding)：每个词（token）变成一个初始向量，称为 X 向量。比如“苹果”变成了 [0.1, -0.3, 0.5…]，表示为 X苹果。后续计算的核心，就是迭代 X 向量。    位置编码：模型同时对所有 tok