有關 data science說兩句

看到data science 首先要問的是這個問題:

Is data science to be understood as the science of data, or as science with data?

其實兩者都包含,發明牛逼的工具來處理data,然後從data中獲取有用的知識,反過來再推動工具的發展。

Data science is concerned with all aspects of the creation, management, analysis, and communication of data focusing particularly on the application of computational methods to digital data。

說白了就是data science的目的就是為了從 data 中獲取有用的知識。

Data science = Data Curation + Data Analytics,在實際中,人們花費了大部分人的人力金錢和時間在data curation, 我知道花了大概 80% 時間在處理數據上。

由於data science的範圍太廣了,所以它的工種也是萬千種,大家崇拜的 ML/AI也可以歸到data science.

Data science並不像紫檀理解的那麽低門檻,相反相當的高大上。沒有好的data,ML/AI喝西北風。

所有跟帖: 

開始CS鄙視鏈。啥排第一? -其樂無窮- 給 其樂無窮 發送悄悄話 (0 bytes) () 09/23/2024 postreply 12:46:45

ML模型都不難,難的是high quality data -留仙之二九零零年右移- 給 留仙之二九零零年右移 發送悄悄話 (0 bytes) () 09/23/2024 postreply 12:47:04

現在厲害的那些AI公司發展快是因為他們能拿到高質量的data麽? -trivial- 給 trivial 發送悄悄話 (0 bytes) () 09/23/2024 postreply 12:50:51

說的是傳統或特定行業的模型。LLM是brute force,彼此在data上區別不大,幾乎把所有的數據都塞進去了 -成功的飛過- 給 成功的飛過 發送悄悄話 (0 bytes) () 09/23/2024 postreply 12:57:08

對。生成性AI,針對普遍話題,比如Chat GPT是有可靠數據,圖形生成也是,這些都垂手可得的 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (800 bytes) () 09/23/2024 postreply 13:06:15

解釋的通俗易懂了:) -兩女寶媽- 給 兩女寶媽 發送悄悄話 兩女寶媽 的博客首頁 (0 bytes) () 09/23/2024 postreply 13:20:51

長知識了:) -兩女寶媽- 給 兩女寶媽 發送悄悄話 兩女寶媽 的博客首頁 (0 bytes) () 09/23/2024 postreply 12:47:11

snowflake, databricks這類的數據公司,待遇也相當的不錯啊 -青裁- 給 青裁 發送悄悄話 (0 bytes) () 09/23/2024 postreply 12:52:33

databrick是數據公司麽??? -成功的飛過- 給 成功的飛過 發送悄悄話 (0 bytes) () 09/23/2024 postreply 12:59:29

怎麽不算? -青裁- 給 青裁 發送悄悄話 (0 bytes) () 09/23/2024 postreply 13:08:00

靠賣數據謀生的才是數據公司吧?比如布隆伯格、Reuters -我是誰的誰- 給 我是誰的誰 發送悄悄話 (0 bytes) () 09/23/2024 postreply 13:47:55

這些都屬於data platform service provider,不是data provider。 -加州lalin- 給 加州lalin 發送悄悄話 加州lalin 的博客首頁 (0 bytes) () 09/23/2024 postreply 16:17:17

給這個壇子說的我以為DS是CS界的二等公民 -trivial- 給 trivial 發送悄悄話 (120 bytes) () 09/23/2024 postreply 12:47:51

問題是data science本科生有多少去做了AI/ML? -violinpiano- 給 violinpiano 發送悄悄話 (167 bytes) () 09/23/2024 postreply 12:51:07

不是說CS本科也很難嗎?這種職位對接的就不是本科生吧? -兩女寶媽- 給 兩女寶媽 發送悄悄話 兩女寶媽 的博客首頁 (0 bytes) () 09/23/2024 postreply 12:54:09

主要還是運用 Azure,AWS 上的一些 AI 相關的工具 -TTFAN- 給 TTFAN 發送悄悄話 (0 bytes) () 09/23/2024 postreply 13:47:08

哈哈哈。好多 AI 工作者讀不懂別人給的數據,對 schema 一頭霧水的多的是,原因是 data sciencee沒學 -青裁- 給 青裁 發送悄悄話 (0 bytes) () 09/23/2024 postreply 12:51:37

所以做AI的需要多學一些DS方麵非AI的課程? 比如什麽呢 -trivial- 給 trivial 發送悄悄話 (0 bytes) () 09/23/2024 postreply 12:56:25

我想不出來,基礎都是統計都要學。DS總體偏數據:要懂得數據的來龍去脈;AI偏建模和實施。DS/AI/SWE之間有很多交叉 -成功的飛過- 給 成功的飛過 發送悄悄話 (0 bytes) () 09/23/2024 postreply 13:02:22

數據庫 pandas/numpy 必須非常熟,族基本功,然後data curation的方方麵麵… -青裁- 給 青裁 發送悄悄話 (0 bytes) () 09/23/2024 postreply 13:02:00

整LLM的跟數據庫、Pandas不搭界 -成功的飛過- 給 成功的飛過 發送悄悄話 (0 bytes) () 09/23/2024 postreply 13:04:32

10年前Data science剛紅火的時候,可能CS的本科生或是馬工都可以稱自己是Data scientist,其實幹 -Pilsung- 給 Pilsung 發送悄悄話 (454 bytes) () 09/23/2024 postreply 12:59:15

數據科學家的大多數是學統計或其他專業轉行的,計算機係出來的會自稱機器學習或人工智能專家 -whaled- 給 whaled 發送悄悄話 (0 bytes) () 09/23/2024 postreply 14:12:18

DATA SCIENCE 本科專業類似萬金油,為了短平快地找工作。 -Numero- 給 Numero 發送悄悄話 Numero 的博客首頁 (0 bytes) () 09/23/2024 postreply 13:02:12

今天一主播說, DS會是被AI替換很快的專業 -多多少少運動- 給 多多少少運動 發送悄悄話 (0 bytes) () 09/23/2024 postreply 14:13:11

高級的data science 是需要數學或統計學的博士吧? -小鬆鬆- 給 小鬆鬆 發送悄悄話 (0 bytes) () 09/23/2024 postreply 13:09:30

很多學校DS在社科學院,ML在計算機學院。DS用工具處理數據解決應用問題,ML開發算法和原始工具。 -whaled- 給 whaled 發送悄悄話 (0 bytes) () 09/23/2024 postreply 14:02:29

請您先登陸,再發跟帖!