大模型長文本處理能力突破 40萬token 新一輪技術競爭開啓

2025-08-06 08:58:59

長文本能力：大模型廠商新一輪角力場

大模型正以驚人的速度提升其長文本處理能力，從4000 token飆升至40萬 token。這一技術進步似乎成爲了大模型公司的新"標配"。

國際上，OpenAI、Anthropic等公司紛紛將上下文長度擴展到數萬甚至10萬 token。國內，月之暗面推出的Kimi Chat更是支持高達40萬 token的輸入。港中文和MIT聯合開發的LongLoRA技術也將模型文本長度大幅提升。

衆多頂級大模型公司和研究機構都將長文本能力作爲重點升級方向。這些企業也恰恰是當前資本市場的寵兒，獲得了大量融資支持。

長文本技術的突破意味着什麼?表面上看，這使得模型可以處理更長的輸入文本,閱讀能力顯著增強。更深層次來看，它推動了大模型在金融、法律、科研等專業領域的應用落地。

然而,文本長度並非越長越好。研究表明,模型支持更長上下文與效果提升並不能直接畫等號。關鍵在於模型如何有效利用上下文信息。

目前業界對長文本的探索仍在繼續,40萬 token可能只是個開始。這項技術有望解決大模型的一些痛點問題,同時推動產業應用落地,標志着大模型進入了新的發展階段。

爲何要"卷"長文本?

月之暗面創始人楊植麟表示,正是由於輸入長度限制,造成了許多大模型應用落地困境。例如在虛擬角色、遊戲開發、專業領域分析等場景中,短文本能力不足會嚴重影響效果。

長文本技術對未來的Agent和AI原生應用也很重要。它能幫助Agent進行更好的規劃決策,爲AI應用提供連貫的用戶體驗。

楊植麟認爲,大模型的上限由單步能力和執行步驟數共同決定,其中執行步驟數即上下文長度。長文本能提供更多上下文和細節信息,有助於模型更準確地理解和推理。

通過月之暗面新發布的Kimi Chat,我們可以一窺長文本時代大模型的新功能:

對超長文本進行信息提取、總結和分析
將整篇論文直接轉化爲代碼
實現更深度的角色扮演對話

這些功能顯示,對話機器人正向着專業化、個性化、深度化的方向發展,有望成爲產業落地的新抓手。

楊植麟預計,國內大模型市場將分爲toB和toC兩個陣營,在toC領域可能會出現基於自研模型的超級應用。

長文本的"不可能三角"困境

長文本技術面臨着文本長度、注意力和算力的"不可能三角"困境:

文本越長,越難聚焦關鍵信息
注意力有限,短文本又難以表達復雜信息
處理長文本需要大量算力,成本高昂

這一困境的根源在於Transformer結構中的自注意力機制。該機制使計算量隨上下文長度呈平方級增長,導致長文本處理面臨巨大挑戰。

目前主要有三種解決方案:

借助外部工具輔助處理長文本
優化自注意力機制計算
利用模型優化方法

第一種方案通過切分長文本並檢索短文本片段來處理。第二種方案重構自注意力計算方式,如LongLoRA技術。第三種方案則專注於模型本身的優化。

長文本的"不可能三角"困境暫時還無解,但明確了大模型廠商的探索方向:在文本長度、注意力和算力三者間尋求最佳平衡點,以處理足夠信息的同時兼顧注意力計算和算力成本。

TOKEN3.78%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

14人點讚了這條動態

讚賞
14
5
分享

留言

0/400

ForkItAllDay

· 22小時前

真卷全靠堆显存

回復0

GasFeePhobia

· 08-06 09:24

记忆量爆涨钱包也跟着爆炸

回復0

Token小灵通

· 08-06 09:21

这token数，挖矿的时候都没见过这么大的数啊，老项目早期上主网都没这么吓人

回復0

LiquidityHunter

· 08-06 09:17

啧突破40w token的量级看看哪家先撑不住算力透支

回復0

Token风暴

· 08-06 09:03

token最大4K就套牢，现在40W了，谁给我加个杠杆冲一波

回復0