Transformer 是不是缺乏跨维度关系捕捉能力?

24次阅读

共计 390 个字符,预计需要花费 1 分钟才能阅读完成。

如题,用别人开源的模型做 NLP 任务有几年了,第一次认真看了下 Transformer 的公式,感觉这东西是不是除了 NLP 其他领域迁移能力差,因为本身夸维度捕捉能力就差。

假设有三个中文输入:“你好”,每个字被编码为一个三维的向量,那么也许可以写成这样一个 3×2 矩阵:

input = [[a1, b1],
  [a2, b2],
  [a3, b3],
]

我仔细看了一下 attention 的公式,所以注意力结果应该是

z = Softmax(Q·K/sqrt(x))·V

其中 QKV 是三个矩阵乘出来的

那么整个运算过程中从单个变量的三个维度出发的话,在上文的 2 字例子中,Q 的第一维只会和 K 的第一维发生关系,似乎并不会参与其他维度运算,这是否导致跨维度捕捉能力的缺失?

所以只有 NLP 做得好,因为 NLP 的多维度量基是人为构建的,而且尽量使其分布平均。一到涉及现实世界的任务就拉了胯了,VIT 近视眼,其他现实建模量基不同的全都寄

正文完
 0