閑來無事隨筆

理科女,文史愛好者,職業IT人,為子女喝彩的啦啦隊長
正文

大學的Data Science專業以及AI

(2024-09-16 21:39:20) 下一個

9月份,德州有個data stream platform的conference。不出意外,現在所有的在Big Data有關的會議都是圍繞AI的,包括春季在LA的亞馬遜AI專場。整個conference有一天的閉門高層會議和兩天的Open Conference,都是在講GenAI的趨勢。閉門會議有個專場討論,講到今後AI的發展對今天data management領域工作的影響,有人預計目前依賴的data science的數據處理工作,會被LLM替代。具體的說,今天GenAI需要的數據,80%靠data science engineers, 20%靠工具,趨勢是今後80%靠LLM,20%靠engineer。

注:閉門會議的所有錄像都不會在YouTube上公開發布,閉門會議的對象都是公司高層管理人員或者技術高層,這段談話應該在網上找不到,但對今後job market肯定有影響。

且不說,預測是否正確。事實是,除了那些專注於提供AI platform的平台公司,過去十年,工業界的leader們都慢慢接受一個事實,原來大數據提倡的數據好處,過去十年中,很多公司沒有享受到。大量的項目和金錢花費在數據搬運上,而不是數據分析和數據產品。有些公司得到一些即時數據的好處,但是相比於對大數據的大量資金人力的投入,這點產出不是正向比例的盈利。 大數據提倡的數據schema自由的理念,慢慢成為今天大多數公司麵臨海量的垃圾數據的緣由。garbage in garbage out是目前業界的共識。隨著而來對data science的職位需求,也會有相連的反思。

閉門會談提出的口號是shift the right to the left。什麽意思呢,就是push到數據源頭去定義和控製數據的質量。然後把ML和AI功能move到靠近數據源頭,而不是類似今天,把各種數據堆積到數據湖中,再由ML,LLM來分析生成。

這樣的話,可預見對data science職位的需求的減少是可能的。

所謂數據源頭,放到職位上的解釋就是讓SWE負起定義數據和數據質量管理,而不是讓下遊的data science來在數據湖中潛水挖寶。也就是說,原來指望data science能在浩瀚的數據海洋中幫我們找到珍寶的想法,現在SLT們都知道這是不切實際了。過去十年,我一直在幫公司留意尋找合適的數據定義工具,然而市麵上的各種工具,都不能被高效應用。那麽我們今天又回到了原點。

2010年最早的大數據產品之一,MONGODB發布會上,developer在台上振臂高呼,schema free的景象好像就在眼前。今天的garbage data,與其說是SWE技術問題不如說是一代SWE的文化和信仰,數據定義自由,數據獲得自由。造就今天廣泛的數據垃圾和數據安全問題。

我本人對2018年後,大學匆忙上馬“data science“ 專業一直有保留想法。

文學城子女教育版麵,還有不少家長為孩子鋪設的大學教育,依然考慮選擇data science這個專業。所以我專門寫了這個帖子,提醒家長幫孩子選專業時,多知道一些背景資料。

https://bbs.wenxuecity.com/znjy/7058504.html

原帖甚含蓄,在論壇發帖,很容易引起誤會和不必要的爭論,特別是那些子女已經在讀data science專業或者畢業在職位上的父母的緊張,這種心情都可以理解,同時也讓理性討論變得困難重重。

言歸正傳。如果有將要升學的孩子,喜歡CS,專業還是CS好。Data Science 專業慎重。一家之言,僅供參考。CS專業不會消失,而是會隨著科技的發展,調整課程。內核算法,數學應用,邏輯,數據結構這些核心內容變化不會太大。

現如今最火的AI,屬於GenAI(Generative AI)的類別,中文可理解為內容生成性AI。比如CHATGPT。GenAI的性能好壞,嚴重依靠海量的數據和數據的準確度。這就是為什麽Chatgpt可以寫文章,因為可靠的用來學習的文章是海量,從有出版開始到今天網絡,有幾百年的文章都可以用來學習和參考。為什麽AI可以寫code?因為開源代碼的存在,各種考編程的題庫,還有各種論壇中討論和分享的code。有題庫就有答案,有成功項目的source code就能夠判斷什麽是可行的code,這些都是可靠數據,可以用來學習判斷,可以AI化。還有為什麽AI考Step One可以通過,是一樣的道理。Step One考試,依靠是現存的知識,特別是記憶的比重還是很大的。Google的AI醫療係統,我沒有查到他的病人數據來源。很難想象他們能夠用美國病人的數據而沒有被公眾知道。要知道病人數據的privacy是非常嚴格的regulation。如果說他們用印度病人的數據,或者病人數據來自其他沒有privacy保護的國家,我就不會吃驚了。所以AI 看病離我們還很遙遠。扯遠了。

那麽AI真可以替代CS嗎?目前還沒看到。每家公司的應用有大眾性的場景也有特殊的場景,大眾場景的AI可能可以提供,這是基於既然是大眾場景,那麽場景數據也是大眾的,可得到的,可判斷的,而且夠多夠海量。但是特殊場景AI沒有可依靠的大量數據用來學習,這還是需要人工來思考設計。

從事CS專業有個特點就是不斷的迭代更新。比較合適學習能力特別是自學能力強的人,或者有強烈好奇心,navigate能力強的孩子,不一定要考試成績好,不一定要數學比賽好。成績和比賽都是基於已經知道的知識,navigation(找不到合適的中文)是消化知識後的串聯,是創意,是解決問題。用中文描述就是腦子靈光的孩子。不然,每隔十年的技術升級淘汰,可能就給拍在沙灘上了。不斷更新才能做個弄潮者。

如果在DS火的時候,選這個專業順利畢業入了行,即使這個職位沒了,自然有新的職位可以轉。而現在在高中的孩子,知道一下趨勢,還是有用的。

Data Science 作為正式的本科專業是非常短的時間。2018前後,各大TOP University才相繼開出這個專業,然後遍地開花。而大數據紅利已接近尾聲。我們幸運的是,大數據泡沫沒有爆。市場充足的資金,讓這個新技術直接無縫連接到GenAI。 而在大數據紅火的時候,MIT和Standford都是最早提供相關的Online program(Coursera - S 和 edX - MIT)

但是DS本身發展速度非常快,淘汰的也快,比如Hadoop,眼看他起高樓,眼看他樓倒了。DS類知識,更合適用提供即時緊跟技術的選修課或者技術培訓的方式,而不是一個新專業的設立。當然這隻是我個人意見。MIT好像至今都沒有DS專業,但是有很多相關課程,MIT果然是老牌STEM學校,這種做法是非常成熟且對學生負責的。

現在的網友不知道還有多少人記得MIS(信息管理專業),30年前很火吧。現在不見了蹤影。Data Science作為本科專業,會不會像MIS那樣,曇花一現呢?

 

 

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.