我的理解: 它的訓練主要是基於數據的遞歸, 是完形填空, 通過一些機製, 迫使它抽提上下文之間的關聯, 抽提信息, 而不是強記海量的數據。
你可以把它看成一個壓縮器, 壓縮的主要是信息, 而不是數據, 是語義, 而不是文本, 當信息回吐的時候, 一定不是100%原始數據, 所以它不適合直接拿來做考證, 不適合 facts check。也可以這樣理解, 它回吐的信息, 它編造的那些個出處, 放到平行宇宙裏, 是合理的, 是可以發生的, 但是未必是這個宇宙發生的事情.
你也是可以把它看成一個模擬機, 你給它看全世界所有的數據, 它能很好的擬合, 但是它有個抽提過程, 舉個極端簡化的例子, 如果全世界所有的數據是一個正態分布, 我們用一個公式可以擬合, 這個公式就是抽提出來的虛擬機, 公式算出的數據在這個分布上, 但未必是真實數據。
至於 Hinton 說的那些話, 至少有兩層意思, 人們引用的時候, 往往把兩層意思混淆了。第一層意思, 這個壓縮機也好, 模擬器也好, 是個黑盒子, 具體到某一個結果, 我們不知道它是怎麽算出來的, 如果需要改正, 要通過訓練數據來改正, 而很難直接修改機器, 我直覺這個倒不是 Hinton 特別擔心的地方。第二層意思, 智慧的生物機理可能並沒有超出今天的神經網絡, 單個神經元的機理極其簡單, 但是量變引發質變, 質變就是智慧的產生, 這裏量變包括神經元的數量和數據量, 而這兩個量人工都能堆出新的數量級來, 結果會是什麽, 就不可而知了, 這可能是 Hinton 真正擔心的地方。