A tecnologia de texto longo torna-se o novo padrão para grandes modelos, o que significa aumentar a extensão do contexto em 100 vezes?
O comprimento do contexto dos grandes modelos está a crescer a uma velocidade impressionante, subindo de 4000 tokens para 400000 tokens. A capacidade de lidar com textos longos parece ter-se tornado um novo "padrão" para os fornecedores de grandes modelos.
No exterior, a OpenAI aumentou o comprimento do contexto do GPT-4 para 32.000 tokens através de várias atualizações. A Anthropic, por sua vez, expandiu o comprimento do contexto do seu modelo Claude para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens.
O país não está disposto a ficar para trás. Sabe-se que o Kimi Chat, lançado pela startup Lado Escuro da Lua, suporta a entrada de cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto do modelo de 70B para 32 mil tokens.
Atualmente, várias das principais empresas de grandes modelos, incluindo OpenAI, Anthropic, Meta e a Face da Lua, estão a focar na expansão do comprimento do contexto como uma prioridade de atualização. Todas essas empresas são, sem exceção, queridinhas do mercado de capitais. Por exemplo, a OpenAI já recebeu quase 12 mil milhões de dólares em investimentos; a Anthropic tem uma avaliação que pode alcançar os 30 mil milhões de dólares; a Face da Lua completou duas rondas de financiamento totalizando quase 2 mil milhões de yuans em apenas seis meses.
As empresas de grandes modelos estão a dar tanta importância à tecnologia de textos longos, o que significa realmente aumentar a extensão do contexto em 100 vezes?
À primeira vista, isso significa que a quantidade de texto que o modelo pode processar aumentou significativamente. O Kimi Chat, com 400 mil tokens, já consegue ler um romance longo. Mas o significado mais profundo é que a tecnologia de longos textos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não se traduz de maneira simples em uma melhoria de desempenho. A chave está em como o modelo utiliza eficazmente o conteúdo do contexto.
Atualmente, a exploração do comprimento do texto na indústria ainda está longe de alcançar o "ponto crítico". 400 mil tokens podem ser apenas o começo.
O fundador da Face Oculta da Lua, Yang Zhilin, afirmou que a tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos, aprimorar certas funcionalidades e também é uma tecnologia chave para a implementação de aplicações industriais. Isso marca a transição do desenvolvimento de grandes modelos de LLM para Long LLM.
A quebra da tecnologia de longos textos trouxe uma série de novas funcionalidades, como a extração de informações-chave de textos muito longos, análise de resumos, geração de códigos complexos e diálogos personalizados de interpretação de papéis. Estas funcionalidades estão a impulsionar os bots de conversa na direção da especialização, personalização e profundidade.
No entanto, a tecnologia de longos textos também enfrenta a dificuldade do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e a capacidade de cálculo. O principal desafio vem do mecanismo de autoatenção na estrutura do Transformer, cujo volume de cálculo cresce em proporção quadrática com o comprimento do contexto.
Atualmente, existem três soluções principais: usar ferramentas externas para auxiliar no processamento, otimizar o cálculo do mecanismo de autoatenção e otimizar o próprio modelo. Cada solução tem suas vantagens e desvantagens, e a chave está em encontrar o melhor equilíbrio entre o comprimento do texto, a atenção e a capacidade de computação.
Apesar de a tecnologia de texto longo ainda enfrentar muitos desafios, sem dúvida é um passo importante para a industrialização e implementação de grandes modelos. No futuro, à medida que a tecnologia continuar a avançar, esperamos ver mais aplicações inovadoras baseadas na tecnologia de texto longo.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
21 Curtidas
Recompensa
21
7
Compartilhar
Comentário
0/400
DeadTrades_Walking
· 07-17 08:36
Os recursos estão a ser mais consumidos.
Ver originalResponder0
BrokeBeans
· 07-15 01:21
Longo longo longo, não consigo lembrar.
Ver originalResponder0
TommyTeacher1
· 07-15 01:20
1. Esta velocidade não dá para acompanhar, estou a ficar exausto.
Ver originalResponder0
CryptoPunster
· 07-15 01:11
O comprimento do texto dos grandes modelos aumentou drasticamente, mas o QI ainda não subiu.
O comprimento do contexto do grande modelo aumentou 100 vezes, a tecnologia de texto longo tornou-se um novo padrão.
A tecnologia de texto longo torna-se o novo padrão para grandes modelos, o que significa aumentar a extensão do contexto em 100 vezes?
O comprimento do contexto dos grandes modelos está a crescer a uma velocidade impressionante, subindo de 4000 tokens para 400000 tokens. A capacidade de lidar com textos longos parece ter-se tornado um novo "padrão" para os fornecedores de grandes modelos.
No exterior, a OpenAI aumentou o comprimento do contexto do GPT-4 para 32.000 tokens através de várias atualizações. A Anthropic, por sua vez, expandiu o comprimento do contexto do seu modelo Claude para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens.
O país não está disposto a ficar para trás. Sabe-se que o Kimi Chat, lançado pela startup Lado Escuro da Lua, suporta a entrada de cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto do modelo de 70B para 32 mil tokens.
Atualmente, várias das principais empresas de grandes modelos, incluindo OpenAI, Anthropic, Meta e a Face da Lua, estão a focar na expansão do comprimento do contexto como uma prioridade de atualização. Todas essas empresas são, sem exceção, queridinhas do mercado de capitais. Por exemplo, a OpenAI já recebeu quase 12 mil milhões de dólares em investimentos; a Anthropic tem uma avaliação que pode alcançar os 30 mil milhões de dólares; a Face da Lua completou duas rondas de financiamento totalizando quase 2 mil milhões de yuans em apenas seis meses.
As empresas de grandes modelos estão a dar tanta importância à tecnologia de textos longos, o que significa realmente aumentar a extensão do contexto em 100 vezes?
À primeira vista, isso significa que a quantidade de texto que o modelo pode processar aumentou significativamente. O Kimi Chat, com 400 mil tokens, já consegue ler um romance longo. Mas o significado mais profundo é que a tecnologia de longos textos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não se traduz de maneira simples em uma melhoria de desempenho. A chave está em como o modelo utiliza eficazmente o conteúdo do contexto.
Atualmente, a exploração do comprimento do texto na indústria ainda está longe de alcançar o "ponto crítico". 400 mil tokens podem ser apenas o começo.
O fundador da Face Oculta da Lua, Yang Zhilin, afirmou que a tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos, aprimorar certas funcionalidades e também é uma tecnologia chave para a implementação de aplicações industriais. Isso marca a transição do desenvolvimento de grandes modelos de LLM para Long LLM.
A quebra da tecnologia de longos textos trouxe uma série de novas funcionalidades, como a extração de informações-chave de textos muito longos, análise de resumos, geração de códigos complexos e diálogos personalizados de interpretação de papéis. Estas funcionalidades estão a impulsionar os bots de conversa na direção da especialização, personalização e profundidade.
No entanto, a tecnologia de longos textos também enfrenta a dificuldade do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e a capacidade de cálculo. O principal desafio vem do mecanismo de autoatenção na estrutura do Transformer, cujo volume de cálculo cresce em proporção quadrática com o comprimento do contexto.
Atualmente, existem três soluções principais: usar ferramentas externas para auxiliar no processamento, otimizar o cálculo do mecanismo de autoatenção e otimizar o próprio modelo. Cada solução tem suas vantagens e desvantagens, e a chave está em encontrar o melhor equilíbrio entre o comprimento do texto, a atenção e a capacidade de computação.
Apesar de a tecnologia de texto longo ainda enfrentar muitos desafios, sem dúvida é um passo importante para a industrialização e implementação de grandes modelos. No futuro, à medida que a tecnologia continuar a avançar, esperamos ver mais aplicações inovadoras baseadas na tecnologia de texto longo.