大模型长文本处理能力突破 40万token 新一轮技术竞争开启

长文本能力:大模型厂商新一轮角力场

大模型正以惊人的速度提升其长文本处理能力,从4000 token飙升至40万 token。这一技术进步似乎成为了大模型公司的新"标配"。

国际上,OpenAI、Anthropic等公司纷纷将上下文长度扩展到数万甚至10万 token。国内,月之暗面推出的Kimi Chat更是支持高达40万 token的输入。港中文和MIT联合开发的LongLoRA技术也将模型文本长度大幅提升。

众多顶级大模型公司和研究机构都将长文本能力作为重点升级方向。这些企业也恰恰是当前资本市场的宠儿,获得了大量融资支持。

长文本技术的突破意味着什么?表面上看,这使得模型可以处理更长的输入文本,阅读能力显著增强。更深层次来看,它推动了大模型在金融、法律、科研等专业领域的应用落地。

然而,文本长度并非越长越好。研究表明,模型支持更长上下文与效果提升并不能直接画等号。关键在于模型如何有效利用上下文信息。

目前业界对长文本的探索仍在继续,40万 token可能只是个开始。这项技术有望解决大模型的一些痛点问题,同时推动产业应用落地,标志着大模型进入了新的发展阶段。

为何要"卷"长文本?

月之暗面创始人杨植麟表示,正是由于输入长度限制,造成了许多大模型应用落地困境。例如在虚拟角色、游戏开发、专业领域分析等场景中,短文本能力不足会严重影响效果。

长文本技术对未来的Agent和AI原生应用也很重要。它能帮助Agent进行更好的规划决策,为AI应用提供连贯的用户体验。

杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,其中执行步骤数即上下文长度。长文本能提供更多上下文和细节信息,有助于模型更准确地理解和推理。

通过月之暗面新发布的Kimi Chat,我们可以一窥长文本时代大模型的新功能:

  • 对超长文本进行信息提取、总结和分析
  • 将整篇论文直接转化为代码
  • 实现更深度的角色扮演对话

这些功能显示,对话机器人正向着专业化、个性化、深度化的方向发展,有望成为产业落地的新抓手。

杨植麟预计,国内大模型市场将分为toB和toC两个阵营,在toC领域可能会出现基于自研模型的超级应用。

长文本的"不可能三角"困境

长文本技术面临着文本长度、注意力和算力的"不可能三角"困境:

  • 文本越长,越难聚焦关键信息
  • 注意力有限,短文本又难以表达复杂信息
  • 处理长文本需要大量算力,成本高昂

这一困境的根源在于Transformer结构中的自注意力机制。该机制使计算量随上下文长度呈平方级增长,导致长文本处理面临巨大挑战。

目前主要有三种解决方案:

  1. 借助外部工具辅助处理长文本
  2. 优化自注意力机制计算
  3. 利用模型优化方法

第一种方案通过切分长文本并检索短文本片段来处理。第二种方案重构自注意力计算方式,如LongLoRA技术。第三种方案则专注于模型本身的优化。

长文本的"不可能三角"困境暂时还无解,但明确了大模型厂商的探索方向:在文本长度、注意力和算力三者间寻求最佳平衡点,以处理足够信息的同时兼顾注意力计算和算力成本。

TOKEN2.23%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 分享
评论
0/400
ForkItAllDayvip
· 14小时前
真卷 全靠堆显存
回复0
GasFeePhobiavip
· 21小时前
记忆量爆涨 钱包也跟着爆炸
回复0
Token小灵通vip
· 21小时前
这token数,挖矿的时候都没见过这么大的数啊,老项目早期上主网都没这么吓人
回复0
LiquidityHuntervip
· 21小时前
啧 突破40w token的量级 看看哪家先撑不住算力透支
回复0
Token风暴vip
· 21小时前
token最大4K就套牢,现在40W了,谁给我加个杠杆冲一波
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)