O comprimento do contexto do grande modelo aumentou 100 vezes, a tecnologia de texto longo tornou-se um novo padrão.

2025-07-15 00:51:40

Geração do resumo em andamento

A tecnologia de texto longo torna-se o novo padrão para grandes modelos, o que significa aumentar a extensão do contexto em 100 vezes?

O comprimento do contexto dos grandes modelos está a crescer a uma velocidade impressionante, subindo de 4000 tokens para 400000 tokens. A capacidade de lidar com textos longos parece ter-se tornado um novo "padrão" para os fornecedores de grandes modelos.

No exterior, a OpenAI aumentou o comprimento do contexto do GPT-4 para 32.000 tokens através de várias atualizações. A Anthropic, por sua vez, expandiu o comprimento do contexto do seu modelo Claude para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens.

O país não está disposto a ficar para trás. Sabe-se que o Kimi Chat, lançado pela startup Lado Escuro da Lua, suporta a entrada de cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto do modelo de 70B para 32 mil tokens.

Atualmente, várias das principais empresas de grandes modelos, incluindo OpenAI, Anthropic, Meta e a Face da Lua, estão a focar na expansão do comprimento do contexto como uma prioridade de atualização. Todas essas empresas são, sem exceção, queridinhas do mercado de capitais. Por exemplo, a OpenAI já recebeu quase 12 mil milhões de dólares em investimentos; a Anthropic tem uma avaliação que pode alcançar os 30 mil milhões de dólares; a Face da Lua completou duas rondas de financiamento totalizando quase 2 mil milhões de yuans em apenas seis meses.

As empresas de grandes modelos estão a dar tanta importância à tecnologia de textos longos, o que significa realmente aumentar a extensão do contexto em 100 vezes?

À primeira vista, isso significa que a quantidade de texto que o modelo pode processar aumentou significativamente. O Kimi Chat, com 400 mil tokens, já consegue ler um romance longo. Mas o significado mais profundo é que a tecnologia de longos textos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica.

No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não se traduz de maneira simples em uma melhoria de desempenho. A chave está em como o modelo utiliza eficazmente o conteúdo do contexto.

Atualmente, a exploração do comprimento do texto na indústria ainda está longe de alcançar o "ponto crítico". 400 mil tokens podem ser apenas o começo.

O fundador da Face Oculta da Lua, Yang Zhilin, afirmou que a tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos, aprimorar certas funcionalidades e também é uma tecnologia chave para a implementação de aplicações industriais. Isso marca a transição do desenvolvimento de grandes modelos de LLM para Long LLM.

A quebra da tecnologia de longos textos trouxe uma série de novas funcionalidades, como a extração de informações-chave de textos muito longos, análise de resumos, geração de códigos complexos e diálogos personalizados de interpretação de papéis. Estas funcionalidades estão a impulsionar os bots de conversa na direção da especialização, personalização e profundidade.

No entanto, a tecnologia de longos textos também enfrenta a dificuldade do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e a capacidade de cálculo. O principal desafio vem do mecanismo de autoatenção na estrutura do Transformer, cujo volume de cálculo cresce em proporção quadrática com o comprimento do contexto.

Atualmente, existem três soluções principais: usar ferramentas externas para auxiliar no processamento, otimizar o cálculo do mecanismo de autoatenção e otimizar o próprio modelo. Cada solução tem suas vantagens e desvantagens, e a chave está em encontrar o melhor equilíbrio entre o comprimento do texto, a atenção e a capacidade de computação.

Apesar de a tecnologia de texto longo ainda enfrentar muitos desafios, sem dúvida é um passo importante para a industrialização e implementação de grandes modelos. No futuro, à medida que a tecnologia continuar a avançar, esperamos ver mais aplicações inovadoras baseadas na tecnologia de texto longo.

TOKEN-6.69%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

21 Curtidas

Recompensa
21
7
Compartilhar

Comentário

0/400

DeadTrades_Walking

· 07-17 08:36

Os recursos estão a ser mais consumidos.

Ver originalResponder0

BrokeBeans

· 07-15 01:21

Longo longo longo, não consigo lembrar.

Ver originalResponder0

TommyTeacher1

· 07-15 01:20

1. Esta velocidade não dá para acompanhar, estou a ficar exausto.

Ver originalResponder0

CryptoPunster

· 07-15 01:11

O comprimento do texto dos grandes modelos aumentou drasticamente, mas o QI ainda não subiu.

Ver originalResponder0

PumpStrategist

· 07-15 00:57

Um típico exagero, os KPIs já saíram, certo?

Ver originalResponder0

LiquidityOracle

· 07-15 00:55

Jogar tanto não é grande coisa.

Ver originalResponder0

AllInDaddy

· 07-15 00:53

Esta onda ainda precisa de uma corrida.

Ver originalResponder0

Tema
1/3
1ETH Breaks Through $3,800
18k Popularidade
2Gate June Transparency Report
10k Popularidade
3Altcoins on the Rise
18k Popularidade
4Gate Square Creator Spark Program
143k Popularidade
5Content Mining & Earn Rich Commission
1836k Popularidade

Marcar

sitemap