GPT在訓練過的文檔或代碼裏總結出詞之間的聯係的多少,在生成文檔或代碼時根據詞之間的聯係的probability的大小來生成下一個詞, 其實是一種變相的COPY&PASTE,比如他經常把NY time的文檔大段不改變的抄過來,就是NY time的文檔在他訓練的文檔中比重很大。文檔中的詞之間關聯度的probability大。
另外他用人工加tag的方法來糾錯, 比如夫妻肺片訓練的結果不是個菜名,他就得人工加tag的方法point到人工指定的詞,就是一種變相的IF else, 有專門的公司雇各領域的專業人員去檢查訓練的模型結果, 不對就打個TAG.