最近梁文鋒的DeepSeek很火,震驚了華爾街。那么,問題來了,既然DeepSeek是蒸餾出來的大模型,其他人會不會效仿這種方法。第一個叫板DeepSeek的是華裔李飛飛,據(jù)透露,她僅用50美元,短時間就蒸餾出類似DeepSeek-R1的推理模型S1,該模型在數(shù)學及編碼能力方面,與OpenAI O1和DeepSeek R1幾乎處于同一水平。
參與研制S1模型的,是李飛飛團隊(包括斯坦福大學及華盛頓大學的研究人員)等,花費50美元,折合人民幣大約360元。當然,這只是部分成本(云計算費用)。該團隊使用了16個英偉達H100 GPU,用時26分鐘完成了訓練過程?。
當然,李飛飛團隊的S1模型,同樣是站在前人肩膀上的,秘訣同樣是蒸餾。其以阿里通義團隊的Qwen2.5- 32B-Instruct作為基礎(chǔ)模型,并通過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實驗版,最終蒸餾出S1模型。目前,該模型已宣布開源,李飛飛研究團隊公布了訓練數(shù)據(jù)及代碼。
李飛飛何許人也?她1976年出生于北京,有“AI教母”之稱。據(jù)公開信息,她16歲隨家人移民美國新澤西。她是人工智能方面的專家,美國斯坦福大學首位紅杉講席教授,長期研究人工智能。2013年至2018年,她擔任斯坦福人工智能實驗室主任,她還曾擔任過Google副總裁以及Google Cloud AI/ML首席科學家。
李飛飛集多重榮耀于一身,是美國國家工程院院士、美國國家醫(yī)學院院士、美國藝術(shù)與科學院院士。李飛飛的研究領(lǐng)域主要包括計算機視覺、認知神經(jīng)科學、計算神經(jīng)科學和大數(shù)據(jù)分析。
美國工程院對李飛飛的評價是:她為建立大型機器學習和視覺理解知識庫做出了貢獻。斯坦福大學對李飛飛給出了高度評價,認為她是ImageNet和ImageNet Challenge的發(fā)明者,為深度學習和AI的最新發(fā)展做出了貢獻。并且,斯坦福大學還稱贊她,除了技術(shù)貢獻外,還是倡導STEM及AI多樣性的全國領(lǐng)導者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.