大模型上下文长度100倍增长 长文本技术成新标配

robot
摘要生成中

长文本技术成为大模型新标配,上下文长度扩大100倍意味着什么?

大模型的上下文长度正以惊人的速度增长,从4000 token飙升至40万token。长文本能力似乎已成为大模型厂商的新"标配"。

国外方面,OpenAI通过多次升级将GPT-4的上下文长度提升至3.2万token。Anthropic则一举将其模型Claude的上下文长度扩展到10万token。LongLLaMA更是将这一数字推至25.6万token。

国内也不甘示弱。据悉,初创公司月之暗面推出的Kimi Chat可支持输入约40万token。港中文和MIT联合开发的LongLoRA技术则可将70B模型的文本长度扩展到3.2万token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在内的众多顶级大模型公司都将拓展上下文长度作为升级重点。这些公司无一例外都是资本市场的宠儿。例如,OpenAI已获得近120亿美元投资;Anthropic估值有望达300亿美元;月之暗面成立半年即完成两轮共近20亿元融资。

大模型公司如此重视长文本技术,上下文长度扩大100倍究竟意味着什么?

表面上看,这意味着模型可处理的文本量大幅增加。40万token的Kimi Chat已能阅读一整本长篇小说。但更深层的意义在于,长文本技术正推动大模型在金融、司法、科研等专业领域的应用落地。

然而,文本长度并非越长越好。研究表明,模型支持更长上下文输入与效果提升并非简单等同。关键在于模型如何有效利用上下文内容。

目前,业界对文本长度的探索还远未达到"临界点"。40万token或许只是一个开始。

月之暗面创始人杨植麟表示,长文本技术可解决大模型早期的一些问题,增强某些功能,同时也是推进产业应用落地的关键技术。这标志着大模型发展进入了从LLM到Long LLM的新阶段。

长文本技术的突破带来了一系列新功能,如超长文本的关键信息提取、总结分析,复杂代码生成,以及个性化的角色扮演对话等。这些功能正推动对话机器人向专业化、个性化、深度化方向发展。

然而,长文本技术也面临"不可能三角"困境:文本长度、注意力和算力三者难以兼顾。主要挑战来自Transformer结构中的自注意力机制,其计算量随上下文长度呈平方级增长。

目前主要有三种解决方案:利用外部工具辅助处理、优化自注意力机制计算、以及模型本身优化。不同方案各有优劣,关键在于在文本长度、注意力和算力之间找到最佳平衡点。

尽管长文本技术仍面临诸多挑战,但它无疑是推动大模型产业化落地的重要一步。未来,随着技术的不断突破,我们有望看到更多基于长文本技术的创新应用。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 6
  • 分享
评论
0/400
破产豆豆vip
· 07-15 01:21
长长长 记不住啊
回复0
汤米老师1vip
· 07-15 01:20
1.这速度跟不上啊 累断腿
回复0
Crypto段子手vip
· 07-15 01:11
大模型狂增文本长度 智商还是没涨
回复0
Pump策略师vip
· 07-15 00:57
典型的噱头过大,kpi都出来了吧
回复0
LiquidityOraclevip
· 07-15 00:55
玩这么长算啥本事
回复0
梭哈爸爸vip
· 07-15 00:53
这波还得梭
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)