其他大多數公司都忙著怎麽搬運數據,從原來restrict的數據庫,搬到各種platform上。或者忙著收集各種數據,各種json, avro數據。最早出現的大數據都是打著不要scheme,自由,不受數據定義的旗號。
然後今天,大多數商業公司的數據都是一團糟。花費大量的金錢在processing and storing 數據,make 數據available。現在工業界都認清了 garbage data in, garbage data out 的現實。再厲害的ML, 對垃圾數據還是沒辦法。現在的趨勢是shift the right to the left,push back到數據源頭去control數據的正確性和定義性。把ML的功能,move close to the source of the data.
套句電影台詞: 革命尚未成功,同誌還需努力。哈哈哈。