AV无码免费一区二区三区_99国产欧美久久久精品蜜桃_久久久久久精品免费免费英国_97久久精品人人做人人爽

可用數據面臨枯竭 大模型迭代或被迫按下暫停鍵

  來(lái)源:中國經(jīng)營(yíng)報

  本報記者 秦梟 北京報道

  在人工智能飛速發(fā)展的當下,隨著(zhù)模型規模的不斷擴大,一個(gè)嚴峻的問(wèn)題正逐漸浮現——可用數據面臨枯竭。數據,作為AI大模型的“血液”,其質(zhì)量與數量直接決定了模型性能的上限。研究機構Epoch AI近日公布的研究預測,到2028年,用于訓練AI模型的典型數據集的規模將達到公共在線(xiàn)文本總量的估計規模。這意味著(zhù),未來(lái)幾年內,AI大模型可能會(huì )耗盡可用于訓練的高質(zhì)量數據資源?!蹲匀弧冯s志最近也在頭版敲響警鐘——AI革命正“吸干”互聯(lián)網(wǎng)數據的海洋。

  《中國經(jīng)營(yíng)報》記者在采訪(fǎng)中了解到,雖然算力的提升使得大模型能夠處理海量數據(維權),但高質(zhì)量、貼合特定場(chǎng)景的數據供應可能沒(méi)有同步跟上。這并不意味著(zhù)數據完全枯竭,而是符合需求的優(yōu)質(zhì)數據難以獲取。同時(shí),還會(huì )出現邊際效益遞減,即隨著(zhù)模型規模擴大,增加額外數據所帶來(lái)的收益逐漸變小。如果想進(jìn)一步提升模型能力,所需的數據可能需要更高質(zhì)量、更有針對性,導致對數據的需求更為苛刻。

  互聯(lián)網(wǎng)數據見(jiàn)底?

  AI大模型對數據的需求量是巨大的。以GPT-4為例,其參數量達到了萬(wàn)億級別,需要海量的數據來(lái)進(jìn)行訓練。

  一位智算中心的工作人員告訴記者:“大模型的數據來(lái)源主要有幾種,第一種互聯(lián)網(wǎng)公開(kāi)數據是常見(jiàn)的數據來(lái)源,涵蓋網(wǎng)頁(yè)、社交媒體、論壇、學(xué)術(shù)論文和開(kāi)源數據集等,可通過(guò)爬蟲(chóng)或API獲取。第二種是企業(yè)內部數據,包括用戶(hù)行為、交易和產(chǎn)品日志等,對特定行業(yè)的大模型更有價(jià)值。第三種是第三方數據提供商則提供專(zhuān)業(yè)整理的行業(yè)數據?!?/p>

  然而,互聯(lián)網(wǎng)上可用的高質(zhì)量數據資源卻十分有限。雖然互聯(lián)網(wǎng)上每天都在產(chǎn)生大量的數據,但這些數據的生成速度遠遠無(wú)法滿(mǎn)足AI大模型的需求。

  OpenAI原科學(xué)家蘇茨克維爾曾表示,“我們只有一個(gè)互聯(lián)網(wǎng)”,數據的增長(cháng)正在放緩,而這一推動(dòng)AI飛躍的“化石燃料”正逐漸枯竭。

  上述工作人員坦言:“互聯(lián)網(wǎng)數據面臨枯竭的說(shuō)法并不準確,準確地說(shuō)是目前高質(zhì)量的數據已經(jīng)見(jiàn)頂。社交媒體上的虛假信息、冗余內容,以及網(wǎng)絡(luò )上的偏見(jiàn)言論以及AI自己生成的數據等,都嚴重影響了數據的質(zhì)量。這些低質(zhì)量的數據不僅無(wú)法為模型提供有效的訓練素材,還可能對模型的判斷產(chǎn)生誤導,導致模型性能的下降。低質(zhì)量數據對大模型來(lái)說(shuō)不是養料,而是毒藥?!?/p>

  他舉例道:“之前(有報道稱(chēng))Gemini說(shuō)自己就是文心一言,聽(tīng)起來(lái)挺搞笑的,但背后就是互聯(lián)網(wǎng)上的資料可能被AI嚴重污染了?!?/p>

  八友科技創(chuàng )始人、CEO梁斌表示:“在2023年的市場(chǎng)上,所有大模型的客戶(hù),包括各類(lèi)企業(yè),都在拼命購買(mǎi)數據,但他們并不完全了解那些數據是好或是壞。到了2024年,客戶(hù)只購買(mǎi)那些有著(zhù)嚴格標準的數據,例如購買(mǎi)圖片時(shí),他們會(huì )指定圖片中景物的大小和所需包含的內容。因此,客戶(hù)現在已經(jīng)能夠識別出什么是好的數據,也就是說(shuō)高質(zhì)量數據的重要性正在日益增加?!?/p>

  “而對于數據來(lái)源的后兩者來(lái)說(shuō),獲取的難度是極大的?!鄙鲜龉ぷ魅藛T表示,“現在A(yíng)I大模型用得越來(lái)越多了,數據所有者也開(kāi)始管得越來(lái)越嚴,對內容的使用規則更加嚴格了?!?/p>

  工信部信息通信經(jīng)濟專(zhuān)家委員會(huì )委員、DCCI互聯(lián)網(wǎng)研究院院長(cháng)劉興亮向記者分析道,隱私與安全法規是限制數據獲取的主要原因之一,全球范圍內對數據隱私和安全的關(guān)注度持續提升,如《歐盟通用數據保護條例(GDPR)》和《數據安全法》等法律法規限制了數據的采集、存儲和使用。用戶(hù)對隱私保護的需求增加,許多企業(yè)和平臺不愿意或無(wú)法提供大規模用戶(hù)數據。

  除上述原因之外,高質(zhì)量數據獲取的成本之高,使得企業(yè)難負其重。目前大模型廠(chǎng)商正在投入巨資清洗數據,但代價(jià)高昂。

  “原始數據中存在大量噪聲,進(jìn)行清洗和標注的成本極高,尤其是在一些高精度需求的領(lǐng)域(如醫療、法律)?!眲⑴d亮表示,“與此同時(shí),數據獲取還面臨數據版權問(wèn)題,許多高價(jià)值數據(如文學(xué)作品、科研論文等)受版權保護,導致數據獲取和使用受到法律約束?!?/p>

  業(yè)內普遍認為,久久未能發(fā)布的GPT-5正是因為數據瓶頸顯現,導致訓練之路困難重重。

  不過(guò),OpenAI、谷歌等幾家頭部公司也堅稱(chēng),AI并沒(méi)有遇到所謂的“壁壘”和“瓶頸”。他們依然對AI的前景感到樂(lè )觀(guān),并認為通過(guò)開(kāi)發(fā)新型數據源、增加模型推理能力以及應用合成數據,AI模型將繼續保持進(jìn)步。

  突破數據瓶頸

  數據枯竭問(wèn)題的漸顯,為AI大模型的發(fā)展敲響了警鐘。企業(yè)也開(kāi)始正視這一問(wèn)題,積極尋找解決之道。通過(guò)挖掘現有數據的潛力、利用合成數據、建立數據共享平臺、加強數據治理以及探索新的數據來(lái)源等多方面的努力。比如,OpenAI成立了一個(gè)基礎團隊,該團隊主要探索如何應對訓練數據的匱乏,調整規模法則的應用,保持模型改進(jìn)的穩定性。

  “現在大模型頻繁地降價(jià),一方面是成本因素,另一方面也是為了獲得更多的數據?!鄙鲜鲋撬阒行牡墓ぷ魅藛T直言,“通過(guò)低價(jià)甚至免費吸引用戶(hù)使用模型,從而獲得更多的數據來(lái)優(yōu)化模型效果,使用更多的數據能帶來(lái)更出色的模型效果,進(jìn)而吸引更多用戶(hù),形成良性循環(huán)?!?/p>

  在大部分業(yè)內人士看來(lái),在數據資源有限的情況下,如何促進(jìn)不同機構、不同行業(yè)之間的數據共享與合作,是解決數據荒的有效途徑。通過(guò)數據共享平臺,企業(yè)、研究機構等可以將自己的數據資源進(jìn)行整合和共享,實(shí)現數據的互聯(lián)互通。

  知名經(jīng)濟學(xué)者、工信部信息通信經(jīng)濟專(zhuān)家委員會(huì )委員盤(pán)和林認為:“最直接的辦法,AI企業(yè)和互聯(lián)網(wǎng)平臺企業(yè)合作,共同打造AI大模型?;ヂ?lián)網(wǎng)平臺的算力、資金、數據都很充足?!?/p>

  中國科學(xué)院院士梅宏在接受記者采訪(fǎng)時(shí)表示:“舉個(gè)例子,現在的公交車(chē)、出租車(chē)、地鐵等各種出行方式的數據,均是由各自獨立的信息系統來(lái)匯聚的,形成了一系列的數據孤島。如果要把這些數據匯在一起共享融合,需要實(shí)現各系統間的互操作。如果每個(gè)機構都做一遍,成本很高,效率也很低。因此,需要構建一套以數據為中心的新型基礎設施,從根本上支撐數據在互聯(lián)網(wǎng)上的互聯(lián)互通,這就是所謂的數據基礎設施,它本質(zhì)上是互聯(lián)網(wǎng)技術(shù)體系的一次拓展和延伸?!?/p>

  “鼓勵建立行業(yè)間或科研領(lǐng)域的開(kāi)放數據平臺,同時(shí)制定合理的數據共享與使用規范,確保合規性?!眲⑴d亮表示,“‘數據荒’更像是數據獲取和使用效率的問(wèn)題,而非絕對的數據匱乏。隱私與安全法規確實(shí)對數據的自由流通提出了更高要求,但也推動(dòng)了技術(shù)手段和商業(yè)模式的創(chuàng )新。未來(lái),人工智能行業(yè)需要在數據獲取效率、技術(shù)突破和法規遵循之間找到平衡點(diǎn)?!?/p>

轉載原創(chuàng )文章請注明,轉載自東莞厚街佰勝機械設備廠(chǎng),原文地址:http://www.fauchierpartners.com/post/31330.html

上一篇:科技巨頭集體大跌!英偉達、阿斯麥盤(pán)前均跌超8%!什么情況?

下一篇:A股大逆轉!深交所重磅消息

評論

◎歡迎參與討論,請在這里發(fā)表您的看法、交流您的觀(guān)點(diǎn)。
AV无码免费一区二区三区_99国产欧美久久久精品蜜桃_久久久久久精品免费免费英国_97久久精品人人做人人爽