Технологія довгих текстів стає новим стандартом для великих моделей, що означає збільшення довжини контексту в 100 разів?
Довжина контексту великих моделей зростає неймовірними темпами, підскочивши з 4000 токенів до 400000 токенів. Здається, що можливості роботи з довгими текстами стали новим "стандартом" для виробників великих моделей.
За кордоном OpenAI кілька разів оновила GPT-4, збільшивши його довжину контексту до 32 тисяч токенів. Anthropic також значно збільшила довжину контексту своєї моделі Claude до 100 тисяч токенів. LongLLaMA взагалі підвищила це число до 256 тисяч токенів.
В країні також не відстають. Відомо, що стартап "Темна сторона місяця" запустив Kimi Chat, який підтримує введення близько 400 тисяч токенів. Технологія LongLoRA, розроблена спільно Гонконгським китайським університетом і MIT, може розширити довжину тексту 70B моделі до 32 тисяч токенів.
Наразі багато провідних компаній з розробки великих моделей, таких як OpenAI, Anthropic, Meta, а також Moonlight, зосереджують свої зусилля на розширенні довжини контексту як основному напрямку вдосконалення. Усі ці компанії без винятку є улюбленцями ринку капіталу. Наприклад, OpenAI залучила інвестиції на суму майже 12 мільярдів доларів; оцінка Anthropic очікується на рівні 30 мільярдів доларів; Moonlight завершила два раунди фінансування на загальну суму майже 2 мільярди юанів всього через півроку після свого заснування.
Що насправді означає, що компанії з великими моделями так серйозно ставляться до технологій роботи з довгими текстами, а довжина контексту збільшується в 100 разів?
На поверхневому рівні це означає, що обсяг тексту, який може обробляти модель, значно зріс. Kimi Chat на 400 тисяч токенів вже здатен прочитати цілу довгу повість. Але глибше значення полягає в тому, що технології довгого тексту сприяють впровадженню великих моделей в таких професійних сферах, як фінанси, юстиція, наука та дослідження.
Однак, довжина тексту не завжди означає, що він кращий. Дослідження показують, що підтримка моделей для довших контекстних входів не завжди просто призводить до покращення результатів. Ключовим є те, як модель ефективно використовує контекстний зміст.
Наразі в індустрії дослідження довжини тексту ще далеко не досягли "критичної точки". 400000 токенів, можливо, лише початок.
Засновник Moon's Dark Side Ян Чжилин заявив, що технологія довгих текстів може вирішити деякі проблеми ранніх великих моделей, покращити певні функції, а також є ключовою технологією для просування впровадження в промисловість. Це ознаменовує перехід розвитку великих моделей з LLM до Long LLM.
Прориви в технологіях обробки довгих текстів призвели до появи ряду нових функцій, таких як витягування ключової інформації з наддовгих текстів, аналіз резюме, генерація складного коду та персоналізовані діалоги з ролями. Ці функції сприяють розвитку діалогових роботів у напрямку професіоналізації, персоналізації та поглиблення.
Однак технологія довгих текстів також стикається з дилемою "неможливого трикутника": важко поєднати довжину тексту, увагу та обчислювальну потужність. Основна проблема виникає з механізму самостійної уваги в структурі Transformer, обчислювальна складність якого зростає квадратично з довжиною контексту.
В даний час існує три основні рішення: використання зовнішніх інструментів для допоміжної обробки, оптимізація розрахунків механізму самостійної уваги та оптимізація самого моделі. Кожне рішення має свої переваги та недоліки, ключове завдання - знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю.
Хоча технології довгих текстів все ще стикаються з багатьма викликами, вони безумовно є важливим кроком до реалізації промисловості великих моделей. У майбутньому, з постійними突破ми технологій, ми сподіваємося побачити більше інноваційних застосувань на основі технологій довгих текстів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
21 лайків
Нагородити
21
7
Поділіться
Прокоментувати
0/400
DeadTrades_Walking
· 21год тому
Ресурси тепер витрачаються більше.
Переглянути оригіналвідповісти на0
BrokeBeans
· 07-15 01:21
Довго, довго, не можу запам'ятати.
Переглянути оригіналвідповісти на0
TommyTeacher1
· 07-15 01:20
1.Ця швидкість не встигає, ноги втомилися.
Переглянути оригіналвідповісти на0
CryptoPunster
· 07-15 01:11
Велика модель різко збільшила довжину тексту, але IQ все ще не зростає
Переглянути оригіналвідповісти на0
PumpStrategist
· 07-15 00:57
Типова реклама занадто велика, KPI вже з'явилися, так?
Велика модель, довжина контексту зросла в 100 разів, технологія роботи з довгими текстами стала новим стандартом.
Технологія довгих текстів стає новим стандартом для великих моделей, що означає збільшення довжини контексту в 100 разів?
Довжина контексту великих моделей зростає неймовірними темпами, підскочивши з 4000 токенів до 400000 токенів. Здається, що можливості роботи з довгими текстами стали новим "стандартом" для виробників великих моделей.
За кордоном OpenAI кілька разів оновила GPT-4, збільшивши його довжину контексту до 32 тисяч токенів. Anthropic також значно збільшила довжину контексту своєї моделі Claude до 100 тисяч токенів. LongLLaMA взагалі підвищила це число до 256 тисяч токенів.
В країні також не відстають. Відомо, що стартап "Темна сторона місяця" запустив Kimi Chat, який підтримує введення близько 400 тисяч токенів. Технологія LongLoRA, розроблена спільно Гонконгським китайським університетом і MIT, може розширити довжину тексту 70B моделі до 32 тисяч токенів.
Наразі багато провідних компаній з розробки великих моделей, таких як OpenAI, Anthropic, Meta, а також Moonlight, зосереджують свої зусилля на розширенні довжини контексту як основному напрямку вдосконалення. Усі ці компанії без винятку є улюбленцями ринку капіталу. Наприклад, OpenAI залучила інвестиції на суму майже 12 мільярдів доларів; оцінка Anthropic очікується на рівні 30 мільярдів доларів; Moonlight завершила два раунди фінансування на загальну суму майже 2 мільярди юанів всього через півроку після свого заснування.
Що насправді означає, що компанії з великими моделями так серйозно ставляться до технологій роботи з довгими текстами, а довжина контексту збільшується в 100 разів?
На поверхневому рівні це означає, що обсяг тексту, який може обробляти модель, значно зріс. Kimi Chat на 400 тисяч токенів вже здатен прочитати цілу довгу повість. Але глибше значення полягає в тому, що технології довгого тексту сприяють впровадженню великих моделей в таких професійних сферах, як фінанси, юстиція, наука та дослідження.
Однак, довжина тексту не завжди означає, що він кращий. Дослідження показують, що підтримка моделей для довших контекстних входів не завжди просто призводить до покращення результатів. Ключовим є те, як модель ефективно використовує контекстний зміст.
Наразі в індустрії дослідження довжини тексту ще далеко не досягли "критичної точки". 400000 токенів, можливо, лише початок.
Засновник Moon's Dark Side Ян Чжилин заявив, що технологія довгих текстів може вирішити деякі проблеми ранніх великих моделей, покращити певні функції, а також є ключовою технологією для просування впровадження в промисловість. Це ознаменовує перехід розвитку великих моделей з LLM до Long LLM.
Прориви в технологіях обробки довгих текстів призвели до появи ряду нових функцій, таких як витягування ключової інформації з наддовгих текстів, аналіз резюме, генерація складного коду та персоналізовані діалоги з ролями. Ці функції сприяють розвитку діалогових роботів у напрямку професіоналізації, персоналізації та поглиблення.
Однак технологія довгих текстів також стикається з дилемою "неможливого трикутника": важко поєднати довжину тексту, увагу та обчислювальну потужність. Основна проблема виникає з механізму самостійної уваги в структурі Transformer, обчислювальна складність якого зростає квадратично з довжиною контексту.
В даний час існує три основні рішення: використання зовнішніх інструментів для допоміжної обробки, оптимізація розрахунків механізму самостійної уваги та оптимізація самого моделі. Кожне рішення має свої переваги та недоліки, ключове завдання - знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю.
Хоча технології довгих текстів все ще стикаються з багатьма викликами, вони безумовно є важливим кроком до реалізації промисловості великих моделей. У майбутньому, з постійними突破ми технологій, ми сподіваємося побачити більше інноваційних застосувань на основі технологій довгих текстів.