Augmentation de 100 fois de la longueur de contexte des grands modèles, la technologie des longs textes devient la norme.

robot
Création du résumé en cours

La technologie du long texte devient la nouvelle norme pour les grands modèles, que signifie une augmentation de 100 fois de la longueur du contexte ?

La longueur du contexte des grands modèles augmente à une vitesse incroyable, passant de 4000 tokens à 400 000 tokens. La capacité à traiter de longs textes semble être devenue la nouvelle "norme" pour les fournisseurs de grands modèles.

À l'étranger, OpenAI a augmenté la longueur du contexte de GPT-4 à 32 000 tokens grâce à plusieurs mises à jour. Anthropic a quant à lui étendu la longueur de contexte de son modèle Claude à 100 000 tokens. LongLLaMA a même porté ce chiffre à 256 000 tokens.

Le pays ne se laisse pas faire non plus. Selon les informations, la startup Mois de l'Obscurité a lancé Kimi Chat, qui peut prendre en charge l'entrée d'environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur du texte d'un modèle de 70B à 32 000 tokens.

Actuellement, de nombreuses entreprises de modèles de grande taille de premier plan, y compris OpenAI, Anthropic, Meta et Moon's Dark Side, mettent l'accent sur l'expansion de la longueur du contexte comme point de mise à niveau. Aucune de ces entreprises n'échappe à l'attention du marché des capitaux. Par exemple, OpenAI a reçu près de 12 milliards de dollars d'investissements ; la valorisation d'Anthropic devrait atteindre 30 milliards de dollars ; Moon's Dark Side a complété deux tours de financement totalisant près de 2 milliards de yuans en seulement six mois.

Pourquoi les entreprises de grands modèles accordent-elles une si grande importance à la technologie des longs textes, que signifie réellement l'augmentation de la longueur du contexte par un facteur de 100 ?

En apparence, cela signifie que la quantité de texte que le modèle peut traiter a considérablement augmenté. Le Kimi Chat de 400 000 tokens peut déjà lire un roman entier. Mais la signification plus profonde réside dans le fait que la technologie des longs textes est en train de propulser l'application des grands modèles dans des domaines spécialisés tels que la finance, la justice et la recherche.

Cependant, la longueur du texte n'est pas nécessairement meilleure si elle est plus longue. Des études montrent que le soutien des modèles pour des entrées de contexte plus longues ne se traduit pas simplement par une amélioration des performances. La clé réside dans la manière dont le modèle utilise efficacement le contenu du contexte.

Actuellement, l'exploration de la longueur des textes dans l'industrie n'a pas encore atteint le "point critique". 400 000 tokens n'est peut-être qu'un début.

Le fondateur de l'ombre de la lune, Yang Zhilin, a déclaré que la technologie des longs textes peut résoudre certains problèmes précoces des grands modèles, améliorer certaines fonctionnalités, et est également une technologie clé pour faire progresser l'application industrielle. Cela marque l'entrée du développement des grands modèles dans une nouvelle phase, passant de LLM à Long LLM.

La percée de la technologie des longs textes a apporté une série de nouvelles fonctionnalités, telles que l'extraction des informations clés des longs textes, l'analyse de résumé, la génération de code complexe, ainsi que des dialogues de jeu de rôle personnalisés. Ces fonctionnalités poussent les chatbots vers une évolution spécialisée, personnalisée et approfondie.

Cependant, la technologie des longs textes est également confrontée au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, l'attention et la puissance de calcul. Le principal défi provient du mécanisme d'auto-attention dans la structure Transformer, dont la charge de calcul augmente de manière exponentielle avec la longueur du contexte.

Il existe actuellement trois solutions principales : utiliser des outils externes pour aider au traitement, optimiser le calcul du mécanisme d'attention, et optimiser le modèle lui-même. Chaque solution a ses avantages et ses inconvénients, et l'essentiel est de trouver le meilleur compromis entre la longueur du texte, l'attention et la puissance de calcul.

Bien que la technologie des longs textes soit encore confrontée à de nombreux défis, elle constitue sans aucun doute une étape importante vers l'industrialisation des grands modèles. À l'avenir, avec les percées technologiques, nous pouvons nous attendre à voir davantage d'applications innovantes basées sur la technologie des longs textes.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Partager
Commentaire
0/400
BrokeBeansvip
· 07-15 01:21
Long long long, je ne peux pas m'en souvenir.
Voir l'originalRépondre0
TommyTeacher1vip
· 07-15 01:20
1. Cette vitesse ne suit pas, je suis épuisé.
Voir l'originalRépondre0
CryptoPunstervip
· 07-15 01:11
Le modèle augmente considérablement la longueur du texte, mais le QI n'a toujours pas augmenté.
Voir l'originalRépondre0
PumpStrategistvip
· 07-15 00:57
Un coup de marketing typique, les KPI sont déjà sortis, n'est-ce pas ?
Voir l'originalRépondre0
LiquidityOraclevip
· 07-15 00:55
Jouer aussi longtemps, c'est quoi le talent ?
Voir l'originalRépondre0
AllInDaddyvip
· 07-15 00:53
Il faut encore tirer cette vague.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)