8月31日,百度、百川智能、商湯科技等8家企業或機構已首批通過《生成式人工智能服務管理暫行辦法》備案,可正式上線並麵向公眾提供服務。記者通過實際測評,發現文心一言部分文字、圖片等問題回答比較精準,但一些容易引起歧義或有一定深度的問題,則容易回答不準確,甚至會出現類似於ChatGPT“一本正經胡說”的情況。
對此,齊魯工業大學(山東省科學院)計算機係教授鹿文鵬解讀稱,大模型都是通過大量數據“喂”出來的,而且要靠高質量的數據。目前在文字、圖像、設計等方麵,AI聊天軟件已經成為不錯的輔助工具。在部分領域,大模型仍處於“幼兒期”,無法準確把握用戶的意圖,對此應該包容,後期通過不斷學習、進化,當數據量大到一定程度,它所達到的能力將比我們想象地要強很多。
實測“文心一言”:會順著用戶的話說,畫老婆餅仍會有“老婆”
31日,記者打開文心一言官網測評體驗。對於同一問題,用戶如果認為文心一言回答不準確,可以點擊左下方的“重新生成”,當前最多支持5次重新回答。文心一言會提供“本次回答相較上次回答:更好、更差、差不多”的評價選項,供用戶對於不同的回答進行評價和反饋。
記者通過多個問題對文心一言進行了測試。在“濟南一日遊規劃”中,文心一言給出了千佛山、大明湖、珍珠泉、美食街、山東省博物館等景點推薦,並根據這幾個景點的實際位置分布,給出了比較合理的遊覽路線規劃。
3歲孩子叛逆如何教育
對於“3歲孩子叛逆,怎麽教育?”的問題,文心一言從“給予安全感、建立良好的溝通方式、設立明確的規則和限製、培養孩子的自我控製能力、給予正麵激勵”等5個方麵給出了較為合理的建議,並總結“根據孩子的具體情況,采取適當的教育方法,幫助孩子克服叛逆情緒,健康成長”。
但在回答“泰山是濟南哪裏的景點?”這一問題時,文心一言並未糾正提問中的錯誤,而是先在第一段順著用戶的說法回答“泰山位於山東省濟南市泰安市,是濟南的著名景點之一”。在第二段的介紹中,文心一言又給出了正確的回答“泰山位於泰安市泰山區”。除了第一段的錯誤回答,回答中的其他信息都非常準確、精煉。
麵對“寫一張請假條”的問題,文心一言並未詢問或讓用戶選擇是學校請假條還是公司請假條,而是直接給出了一張學生請假條。從內容來看,這張請假條做到了用語禮貌、文字簡潔、格式準確、要素齊全,並給出了“我已安排好相關的學習計劃,並會盡快補上課堂上的內容”的內容,堪稱學生請假條的範本。
記者提問“用柱狀圖展示山東省各市GDP情況”,文心一言用柱狀圖畫出了青島、濟南、煙台、濰坊、東營、濱州6個市的2021年GDP統計數據,並按數據大小分別排列,但未完整展示山東省16市的GDP情況。
左圖為今年3月文心一言測試階段畫圖,右圖為8月31日文心一言畫的圖
隨後,記者用文心一言畫了幾幅圖。在“畫一個夫妻肺片”的問題中,文心一言相對準確的畫出了5張“一盤切成片的中式涼菜”,並有辣椒、香菜末、醬汁等元素。就在今年3月份剛推出測試版時,麵對這個問題,文心一言給出的答案還是在夫妻二人的卡通圖片畫上未知動物的肺。由此可見,文心一言已經根據用戶反饋和數據訓練,做出了更為精準的回答。
然而麵對“畫一個老婆餅”的問題,文心一言給出的5張圖片中,有3張是將“老婆”和餅這兩種元素融合在了一張圖片中,另外2張隻畫了餅。
專業學者:寬容對待大模型高質量的大數據訓練將使它超乎人類想象
根據網友們反饋的問答結果,有業內人士總結稱,目前文心一言的缺點之一是語義理解能力有限,在處理一些語義模糊或不確定的文本時,可能會出現理解偏差或誤判。這主要是由於語言本身的複雜性和多樣性,以及模型在學習過程中可能存在的數據偏差或模型參數優化不足等問題。
“其實如果隻是看‘老婆’、‘餅’,文心一言已經做的不錯了,關鍵是大模型還沒有人那麽強的語義理解能力。”齊魯工業大學(山東省科學院)計算機科學與技術係鹿文鵬教授分析稱,AI大模型在畫圖時擅長分析用戶要求裏的關鍵字並進行體現,而對一些比較高深、需要意會的內容,目前它理解起來還是有一定困難的。
鹿文鵬教授分析稱,人工智能大模型都是通過大量數據“喂”出來的,目前訓練大模型從技術上來講難度不大,但關鍵還是要靠高質量的數據。“它不可能剛開始就很完美,但它的學習能力很強,有人類的反饋進步改善會非常快。當模型的(數據量)大到一定程度時,就會發現它的能力比我們想象的要強很多。”
同時,對於“泰山是濟南哪裏的景點?”這類故意誘導的問題,鹿文鵬教授分析認為,麵對這種可能引起歧義的問題,大模型的理解能力會相對弱一些,無法準確把握用戶的意圖,有時也會在用戶的故意誘導下說一些不準確的話。
因此,鹿文鵬建議用戶對大模型要有一定的包容性。他類比稱,如果把“泰山是濟南哪裏的景點?”“畫一個老婆餅”這類問題拿給人類的小朋友,他們也不知道什麽意思,也很可能也會畫錯、說錯。
“類似地也可以理解為大模型正處於幼兒階段,後期會有越來越多的人教它,它是會學習的,後麵肯定會進化。(老婆餅之類的問題)現在可能不行,到下個月估計就畫得很好了。”鹿文鵬稱。
“現在我就用一些AI大模型去幫助批改學生論文,它在檢查、文字校對方麵做得非常好,可以幫助減輕一些負擔,但最後肯定要由人去把關。”鹿文鵬觀察認為,在實際應用領域,文字、圖像、設計、編程等領域的工作者把文新一言、ChatGPT等當成輔助工具是非常好的。
他舉例稱,目前讓這些大模型寫個摘要、會議日程、發言稿等,它們都能做得很好;設計工作者通過給出一個設計草圖,AI軟件就能生成一批類似的圖供挑選,不需要再自己絞盡腦汁地一張張設計,其中有些圖甚至能超過人的創意。
鹿文鵬分析,AI大模型的未來應用前景很廣。目前大模型正往多模態、垂直領域等方向發展。一方麵,它從簡單的文字交互發展到圖片、數據圖等更多模態,另一方麵,在政務自動問答服務、法律谘詢、醫療谘詢等特定領域,大模型也能做出一些相對精確的回答。