O comprimento do contexto do grande modelo aumentou 100 vezes, a tecnologia de texto longo tornou-se um novo padrão.

robot
Geração do resumo em andamento

A tecnologia de texto longo torna-se o novo padrão para grandes modelos, o que significa aumentar a extensão do contexto em 100 vezes?

O comprimento do contexto dos grandes modelos está a crescer a uma velocidade impressionante, subindo de 4000 tokens para 400000 tokens. A capacidade de lidar com textos longos parece ter-se tornado um novo "padrão" para os fornecedores de grandes modelos.

No exterior, a OpenAI aumentou o comprimento do contexto do GPT-4 para 32.000 tokens através de várias atualizações. A Anthropic, por sua vez, expandiu o comprimento do contexto do seu modelo Claude para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens.

O país não está disposto a ficar para trás. Sabe-se que o Kimi Chat, lançado pela startup Lado Escuro da Lua, suporta a entrada de cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto do modelo de 70B para 32 mil tokens.

Atualmente, várias das principais empresas de grandes modelos, incluindo OpenAI, Anthropic, Meta e a Face da Lua, estão a focar na expansão do comprimento do contexto como uma prioridade de atualização. Todas essas empresas são, sem exceção, queridinhas do mercado de capitais. Por exemplo, a OpenAI já recebeu quase 12 mil milhões de dólares em investimentos; a Anthropic tem uma avaliação que pode alcançar os 30 mil milhões de dólares; a Face da Lua completou duas rondas de financiamento totalizando quase 2 mil milhões de yuans em apenas seis meses.

As empresas de grandes modelos estão a dar tanta importância à tecnologia de textos longos, o que significa realmente aumentar a extensão do contexto em 100 vezes?

À primeira vista, isso significa que a quantidade de texto que o modelo pode processar aumentou significativamente. O Kimi Chat, com 400 mil tokens, já consegue ler um romance longo. Mas o significado mais profundo é que a tecnologia de longos textos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica.

No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não se traduz de maneira simples em uma melhoria de desempenho. A chave está em como o modelo utiliza eficazmente o conteúdo do contexto.

Atualmente, a exploração do comprimento do texto na indústria ainda está longe de alcançar o "ponto crítico". 400 mil tokens podem ser apenas o começo.

O fundador da Face Oculta da Lua, Yang Zhilin, afirmou que a tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos, aprimorar certas funcionalidades e também é uma tecnologia chave para a implementação de aplicações industriais. Isso marca a transição do desenvolvimento de grandes modelos de LLM para Long LLM.

A quebra da tecnologia de longos textos trouxe uma série de novas funcionalidades, como a extração de informações-chave de textos muito longos, análise de resumos, geração de códigos complexos e diálogos personalizados de interpretação de papéis. Estas funcionalidades estão a impulsionar os bots de conversa na direção da especialização, personalização e profundidade.

No entanto, a tecnologia de longos textos também enfrenta a dificuldade do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e a capacidade de cálculo. O principal desafio vem do mecanismo de autoatenção na estrutura do Transformer, cujo volume de cálculo cresce em proporção quadrática com o comprimento do contexto.

Atualmente, existem três soluções principais: usar ferramentas externas para auxiliar no processamento, otimizar o cálculo do mecanismo de autoatenção e otimizar o próprio modelo. Cada solução tem suas vantagens e desvantagens, e a chave está em encontrar o melhor equilíbrio entre o comprimento do texto, a atenção e a capacidade de computação.

Apesar de a tecnologia de texto longo ainda enfrentar muitos desafios, sem dúvida é um passo importante para a industrialização e implementação de grandes modelos. No futuro, à medida que a tecnologia continuar a avançar, esperamos ver mais aplicações inovadoras baseadas na tecnologia de texto longo.

TOKEN-6.69%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 7
  • Compartilhar
Comentário
0/400
DeadTrades_Walkingvip
· 07-17 08:36
Os recursos estão a ser mais consumidos.
Ver originalResponder0
BrokeBeansvip
· 07-15 01:21
Longo longo longo, não consigo lembrar.
Ver originalResponder0
TommyTeacher1vip
· 07-15 01:20
1. Esta velocidade não dá para acompanhar, estou a ficar exausto.
Ver originalResponder0
CryptoPunstervip
· 07-15 01:11
O comprimento do texto dos grandes modelos aumentou drasticamente, mas o QI ainda não subiu.
Ver originalResponder0
PumpStrategistvip
· 07-15 00:57
Um típico exagero, os KPIs já saíram, certo?
Ver originalResponder0
LiquidityOraclevip
· 07-15 00:55
Jogar tanto não é grande coisa.
Ver originalResponder0
AllInDaddyvip
· 07-15 00:53
Esta onda ainda precisa de uma corrida.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)