DeepSeek超越OpenAI的秘密武器:創(chuàng )新
專(zhuān)題:DeepSeek為何能震動(dòng)全球AI圈
來(lái)源:麻省理工科技評論
作者:Caiwei Chen
當前,全球AI社區正在瘋狂熱議一種新的開(kāi)源推理模型DeepSeek R1。
該模型由中國AI初創(chuàng )公司DeepSeek開(kāi)發(fā),該公司聲稱(chēng)R1在多個(gè)關(guān)鍵基準上與OpenAI的ChatGPT o1相媲美,甚至還有所超越,但成本只是后者的一小部分(有報道稱(chēng)約為3%至5%)。
美國埃默里大學(xué)(Emory University)信息系統助理教授Hancheng Cao表示:“這可能是一個(gè)真正的均衡突破,對資源有限的研究人員和開(kāi)發(fā)人員來(lái)說(shuō)是件好事,尤其是來(lái)自南半球的研究人員?!?/p>
考慮到硬件等資源方面的限制,DeepSeek的成功更加引人注目。DeepSeek等初創(chuàng )公司正以?xún)?yōu)先考慮效率、資源共享和協(xié)作的方式進(jìn)行創(chuàng )新。
DeepSeek前員工、現任美國西北大學(xué)(Northwestern University)計算機科學(xué)博士生Zihan Wang表示,為了創(chuàng )建R1,DeepSeek不得不重新設計其訓練過(guò)程,以減輕其GPU的壓力。
DeepSeek R1因其處理復雜推理任務(wù)的能力而受到研究人員的稱(chēng)贊,特別是在數學(xué)和編碼方面。該模型采用了一種類(lèi)似于ChatGPT o1的“思維鏈”方法,通過(guò)逐步處理查詢(xún)來(lái)解決問(wèn)題。
微軟AI前沿研究實(shí)驗室的首席研究員Dimitris Papailiopoulos表示,R1最讓他驚訝的是它的工程簡(jiǎn)單性。他說(shuō):“DeepSeek旨在獲得準確的答案,而不是詳細說(shuō)明每個(gè)邏輯步驟,從而在保持高水平效率的同時(shí)顯著(zhù)減少計算時(shí)間?!?/p>
DeepSeek還發(fā)布了六個(gè)較小版本的R1,這些版本足夠小,可以在筆記本電腦上本地運行。該公司稱(chēng),其中一個(gè)甚至在某些基準測試中表現優(yōu)于OpenAI的o1-mini。
盡管R1備受關(guān)注,但DeepSeek仍然相對不為人知。該公司總部位于中國杭州,由浙江大學(xué)信息與電子工程專(zhuān)業(yè)校友梁文峰于2023年7月創(chuàng )立。該公司由梁文峰在2015年創(chuàng )立的對沖基金幻方(High-Flyer Quant)孵化。與OpenAI的薩姆·奧特曼(Sam Altman)一樣,梁文峰的目標是建立通用人工智能(AGI),即一種可以在一系列任務(wù)上與人類(lèi)匹敵甚至擊敗人類(lèi)的AI。
訓練大型語(yǔ)言模型(LLM)需要一個(gè)訓練有素的研究人員團隊和強大的計算能力。資深企業(yè)家、谷歌中國前負責人李開(kāi)復近日在接受媒體采訪(fǎng)時(shí)表示,只有“一線(xiàn)玩家”通常會(huì )參與構建ChatGPT等基礎模型,因為它需要大量資源。
據報道,為了訓練其模型,DeepSeek購買(mǎi)了10000多塊英偉達GPU,隨后又擴大到50000塊。與OpenAI、谷歌和Anthropic等領(lǐng)先的AI實(shí)驗室相比,這明顯相形見(jiàn)絀,因為這些實(shí)驗室每個(gè)都有超過(guò)50萬(wàn)塊GPU。
盡管如此,DeepSeek前員工Zihan Wang表示,他在DeepSeek工作時(shí)可以獲得豐富的計算資源,并可以自由地進(jìn)行實(shí)驗,這對應屆畢業(yè)生來(lái)說(shuō)是一種少有的奢侈。
梁文峰稱(chēng),除了硬件方面的限制,公司面臨的另一個(gè)挑戰是,他們的AI工程技術(shù)往往效率較低。他說(shuō):“我們(大多數中國公司)必須消耗兩倍的計算能力才能達到同樣的結果。再加上數據效率差距,這可能意味著(zhù)需要高達四倍的計算力。我們的目標是不斷縮小這些差距?!?/p>
但DeepSeek找到了在不顯著(zhù)犧牲準確性的情況下,減少內存使用和加速計算的方法。Zihan Wang說(shuō):“團隊喜歡把硬件挑戰變成創(chuàng )新的機會(huì )?!?/p>
梁文峰本人仍然深度參與DeepSeek的研究過(guò)程,與他的團隊一起進(jìn)行實(shí)驗。王說(shuō):“整個(gè)團隊都有一種協(xié)作文化,并致力于核心研究?!?/p>
除了優(yōu)先考慮效率,DeepSeek還越來(lái)越多地接受開(kāi)源原則。阿里云已經(jīng)發(fā)布了100多個(gè)新的開(kāi)源AI模型,支持29種語(yǔ)言,迎合了包括編碼和數學(xué)在內的各種應用。同樣,像Minimax和01.AI(零一萬(wàn)物)這樣的初創(chuàng )公司也將他們的模型開(kāi)源。
根據中國信息通信研究院(CAICT)去年發(fā)布的一份白皮書(shū),全球AI大型語(yǔ)言模型的數量已達到1328個(gè),其中36%來(lái)自中國。這使中國成為AI的第二大貢獻者。
塔夫茨大學(xué)(Tufts University)技術(shù)政策助理教授Thomas Qitong Cao表示:“這一代年輕的中國研究人員強烈認同開(kāi)源文化,因為他們從中受益匪淺?!?/p>
卡內基國際和平基金會(huì )(Carnegie Endowment for International Peace)的AI研究員馬特·希恩(Matt Sheehan)稱(chēng):“中國公司必須利用有限的計算資源提高效率。將來(lái),我們可能會(huì )看到很多與缺乏計算相關(guān)的整合?!?/p>
事實(shí)上,這種情況可能已經(jīng)開(kāi)始發(fā)生了。兩周前,阿里云宣布與李開(kāi)復創(chuàng )立的北京初創(chuàng )公司“零一萬(wàn)物”合作,合并研究團隊,建立“工業(yè)大型模型實(shí)驗室”。
Thomas Qitong Cao說(shuō):“AI行業(yè)出現某種分工是節能和自然的。AI的快速發(fā)展要求中國企業(yè)保持敏捷才能生存?!?/p>
轉載原創(chuàng )文章請注明,轉載自東莞厚街佰勝機械設備廠(chǎng),原文地址:http://www.fauchierpartners.com/post/36545.html