簡體 | 繁體

loading...

熱點論壇

全部論壇列表

不要太大驚小怪，DeepSeek主要用的技術都是已知的，例如

來源: 未知於 2025-01-26 21:31:01 [檔案] [博客] [舊帖] [給我悄悄話] 閱讀數 : (1033 bytes)

字體:調大/重置/調小 | 加入書簽 | 打印 | 所有跟帖 | 加跟貼 | 當前最熱討論主題

回答: AI 泡泡剛吹起來，突然飄來了陣陳東風！由 Tianyazi 於 2025-01-26 21:12:54

Model Distillation 模型蒸餾： https://labelbox.com/guides/model-distillation/

Mixture of Experts (MoE) https://huggingface.co/blog/moe

Quantization: https://huggingface.co/docs/optimum/en/concept_guides/quantization 用FP8，INT8，甚至INT4，壓縮模型早已廣泛應用了（在Huggingface上的開源模式都是壓縮的）

DeepSeek 對開源人工智能長遠的貢獻，是證明了用這些已知的技術，可以降低運作費用，這條路可行，普及人工智能更加容易了。

AI的泡泡，因此會更短的時間裏，被吹的更大，更家喻戶曉了。

您的位置：文學城 » 論壇 » 投資理財 » 不要太大驚小怪，DeepSeek主要用的技術都是已知的，例如

所有跟帖：

• Model Distillation應該是把原始數據做簡化吧，這樣精確度會降低，但是普通問題應該OK了 -cnrhm2017- ♂ (0 bytes) () 01/26/2025 postreply 21:45:04

• 全世界能看懂你貼的這些文章的人估計沒多少。大家都是外行，戈培爾那句話怎麽說的來著？ -Wei_PDX- ♂ (158 bytes) () 01/26/2025 postreply 22:53:58

• 要這樣說的話，全世界的LLM用的已知技術 -maniac63- ♂ (259 bytes) () 01/26/2025 postreply 23:45:27

• 已知的技術也是用在芯片 dis對芯片的使用方式不一樣沒有release code 這是老美技術上不行的地方 -littlegreen- ♀ (0 bytes) () 01/27/2025 postreply 07:16:23

請您先登陸，再發跟帖！