大模型長文本處理能力突破 40萬token 新一輪技術競爭開啓

長文本能力:大模型廠商新一輪角力場

大模型正以驚人的速度提升其長文本處理能力,從4000 token飆升至40萬 token。這一技術進步似乎成爲了大模型公司的新"標配"。

國際上,OpenAI、Anthropic等公司紛紛將上下文長度擴展到數萬甚至10萬 token。國內,月之暗面推出的Kimi Chat更是支持高達40萬 token的輸入。港中文和MIT聯合開發的LongLoRA技術也將模型文本長度大幅提升。

衆多頂級大模型公司和研究機構都將長文本能力作爲重點升級方向。這些企業也恰恰是當前資本市場的寵兒,獲得了大量融資支持。

長文本技術的突破意味着什麼?表面上看,這使得模型可以處理更長的輸入文本,閱讀能力顯著增強。更深層次來看,它推動了大模型在金融、法律、科研等專業領域的應用落地。

然而,文本長度並非越長越好。研究表明,模型支持更長上下文與效果提升並不能直接畫等號。關鍵在於模型如何有效利用上下文信息。

目前業界對長文本的探索仍在繼續,40萬 token可能只是個開始。這項技術有望解決大模型的一些痛點問題,同時推動產業應用落地,標志着大模型進入了新的發展階段。

爲何要"卷"長文本?

月之暗面創始人楊植麟表示,正是由於輸入長度限制,造成了許多大模型應用落地困境。例如在虛擬角色、遊戲開發、專業領域分析等場景中,短文本能力不足會嚴重影響效果。

長文本技術對未來的Agent和AI原生應用也很重要。它能幫助Agent進行更好的規劃決策,爲AI應用提供連貫的用戶體驗。

楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,其中執行步驟數即上下文長度。長文本能提供更多上下文和細節信息,有助於模型更準確地理解和推理。

通過月之暗面新發布的Kimi Chat,我們可以一窺長文本時代大模型的新功能:

  • 對超長文本進行信息提取、總結和分析
  • 將整篇論文直接轉化爲代碼
  • 實現更深度的角色扮演對話

這些功能顯示,對話機器人正向着專業化、個性化、深度化的方向發展,有望成爲產業落地的新抓手。

楊植麟預計,國內大模型市場將分爲toB和toC兩個陣營,在toC領域可能會出現基於自研模型的超級應用。

長文本的"不可能三角"困境

長文本技術面臨着文本長度、注意力和算力的"不可能三角"困境:

  • 文本越長,越難聚焦關鍵信息
  • 注意力有限,短文本又難以表達復雜信息
  • 處理長文本需要大量算力,成本高昂

這一困境的根源在於Transformer結構中的自注意力機制。該機制使計算量隨上下文長度呈平方級增長,導致長文本處理面臨巨大挑戰。

目前主要有三種解決方案:

  1. 借助外部工具輔助處理長文本
  2. 優化自注意力機制計算
  3. 利用模型優化方法

第一種方案通過切分長文本並檢索短文本片段來處理。第二種方案重構自注意力計算方式,如LongLoRA技術。第三種方案則專注於模型本身的優化。

長文本的"不可能三角"困境暫時還無解,但明確了大模型廠商的探索方向:在文本長度、注意力和算力三者間尋求最佳平衡點,以處理足夠信息的同時兼顧注意力計算和算力成本。

TOKEN3.78%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 5
  • 分享
留言
0/400
ForkItAllDayvip
· 22小時前
真卷 全靠堆显存
回復0
GasFeePhobiavip
· 08-06 09:24
记忆量爆涨 钱包也跟着爆炸
回復0
Token小灵通vip
· 08-06 09:21
这token数,挖矿的时候都没见过这么大的数啊,老项目早期上主网都没这么吓人
回復0
LiquidityHuntervip
· 08-06 09:17
啧 突破40w token的量级 看看哪家先撑不住算力透支
回復0
Token风暴vip
· 08-06 09:03
token最大4K就套牢,现在40W了,谁给我加个杠杆冲一波
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)