因為覺得寫得好,遂去翻看了係列第5篇。覺得兩篇有點矛盾。
(here): Transformer 本質上是“短記憶動物”。它的表示空間天生偏向保留局部模式,
VS
(第五篇:)它既不健忘,也不近視。
能不能再具體說說。這是因為在不同的要求下看問題嗎,一個目的是宏觀敘事,另一個要追問更多細節?