Длина контекста больших моделей увеличилась в 100 раз, технологии длинного текста стали новым стандартом.

robot
Генерация тезисов в процессе

Длинный текст стал новой стандартной конфигурацией для больших моделей, что означает увеличение длины контекста в 100 раз?

Длина контекста больших моделей растет с удивительной скоростью, поднимаясь с 4000 токенов до 400000 токенов. Способность обрабатывать длинные тексты, похоже, стала новой "стандартной функцией" для производителей больших моделей.

За границей OpenAI несколько раз обновила GPT-4, увеличив длину контекста до 32 000 токенов. Anthropic же значительно увеличила длину контекста своей модели Claude до 100 000 токенов. LongLLaMA довела это число до 256 000 токенов.

В Китае также не хотят отставать. Сообщается, что стартап "Теневая сторона Луны" запустил Kimi Chat, который поддерживает ввод около 400 000 токенов. Технология LongLoRA, разработанная Гонконгским университетом и MIT, позволяет увеличить длину текста 70B модели до 32 000 токенов.

В настоящее время многие ведущие компании по разработке крупных моделей, включая OpenAI, Anthropic, Meta и Лунную Тень, ставят расширение длины контекста в качестве ключевого направления обновления. Эти компании без исключения являются любимцами капитального рынка. Например, OpenAI привлекла почти 12 миллиардов долларов инвестиций; оценка Anthropic ожидается на уровне 30 миллиардов долларов; Лунная Тень завершила два раунда финансирования на общую сумму почти 2 миллиарда юаней всего через полгода после своего основания.

Почему компании с большими моделями так серьезно относятся к технологиям длинных текстов, и что на самом деле означает увеличение длины контекста в 100 раз?

На первый взгляд это означает, что объем текста, который может обрабатывать модель, значительно увеличивается. Kimi Chat на 400 тысяч токенов уже может читать целый роман. Но более глубокий смысл заключается в том, что технологии длинного текста способствуют внедрению больших моделей в таких специализированных областях, как финансы, юриспруденция и научные исследования.

Однако длина текста не всегда означает лучшее качество. Исследования показывают, что увеличение длины контекстного ввода для модели не приводит к простому увеличению эффективности. Ключевым моментом является то, как модель эффективно использует контент контекста.

В настоящее время исследование длины текста в отрасли еще далеко от "критической точки". 400000 токенов, возможно, это только начало.

Основатель "Тёмной стороны Луны" Ян Чжилинь заявил, что технологии длинного текста могут решить некоторые проблемы ранних больших моделей, улучшить определённые функции и являются ключевыми технологиями для продвижения применения в промышленности. Это знаменует собой переход развития больших моделей от LLM к Long LLM.

Прорыв в технологии длинного текста привел к появлению ряда новых функций, таких как извлечение ключевой информации из сверхдлинных текстов, аналитика резюме, генерация сложного кода и персонализированные диалоги с ролевыми играми. Эти функции способствуют развитию чат-ботов в направлении профессионализации, персонализации и углубления.

Однако технологии длинного текста также сталкиваются с "треугольником невозможного": трудно учитывать длину текста, внимание и вычислительные мощности одновременно. Основная проблема связана с механизмом самовнимания в структуре Transformer, вычислительная сложность которого возрастает квадратично с увеличением длины контекста.

В настоящее время существует три основных решения: использование внешних инструментов для помощи в обработке, оптимизация расчетов механизма самовнимания и оптимизация самой модели. У каждого решения есть свои плюсы и минусы, ключевым моментом является нахождение наилучшего баланса между длиной текста, вниманием и вычислительной мощностью.

Несмотря на то, что технологии длинных текстов по-прежнему сталкиваются с множеством проблем, они, безусловно, являются важным шагом к коммерциализации больших моделей. В будущем, с постоянным прогрессом технологий, мы надеемся увидеть больше инновационных приложений, основанных на технологиях длинных текстов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • Поделиться
комментарий
0/400
DeadTrades_Walkingvip
· 07-17 08:36
Ресурсы теперь потребляются больше.
Посмотреть ОригиналОтветить0
BrokeBeansvip
· 07-15 01:21
Длинный длинный длинный, не могу запомнить.
Посмотреть ОригиналОтветить0
TommyTeacher1vip
· 07-15 01:20
1. Эта скорость не успевает, ноги устали.
Посмотреть ОригиналОтветить0
CryptoPunstervip
· 07-15 01:11
Большие модели резко увеличили длину текста, но IQ все равно не повысился
Посмотреть ОригиналОтветить0
PumpStrategistvip
· 07-15 00:57
Типичный маркетинговый трюк, KPI уже вышли, да?
Посмотреть ОригиналОтветить0
LiquidityOraclevip
· 07-15 00:55
Что значит уметь играть так долго?
Посмотреть ОригиналОтветить0
AllInDaddyvip
· 07-15 00:53
Эта волна всё ещё требует быстроты.
Посмотреть ОригиналОтветить0
  • Закрепить