# 大規模モデル企業が長文技術競争を引き起こし、40万トークンは始まりに過ぎない4000から40万token、大規模モデルは驚異的な速度で長文処理能力を向上させています。長文能力は、大規模モデルの提供者にとって新たな「標準」となっているようです。海外では、OpenAIが何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト入力長をそれぞれ1.6万と3.2万トークンに引き上げました。Anthropicはコンテキスト長を10万トークンに引き上げるという一歩を踏み出しました。LongLLaMAはコンテキスト長を25.6万トークン以上にまで拡張しました。国内の方面では、大規模モデルのスタートアップである月之暗面が発表したスマートアシスタントKimi Chatは、20万の漢字の入力をサポートし、約40万トークンに相当します。香港中文大学の贾佳亚チームがMITと共同で発表したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに拡張し、70Bモデルを3.2万トークンに拡張できます。現在、国内外の多くのトップレベルの大規模モデル技術会社や研究機関が、コンテキストの長さの拡張をアップグレードの重点としています。これらの会社は大多数が資本市場の注目を集めており、OpenAIは約120億ドルの投資を獲得し、Anthropicの評価額は300億ドルに達する見込みです。月の暗い面は設立から半年で2回の約20億元の資金調達を完了しました。大規模モデル企業が長文技術をこれほど重視する理由は、文脈の長さが100倍に拡大することが何を意味するのか?表面的には、入力テキストの長さと読解能力の向上を示しています。より深いレベルでは、長文技術が金融、司法、研究などの専門分野における大規模モデルの応用を進めているのです。しかし、大規模モデルが処理できるコンテキストの長さは重要ではなく、モデルがコンテキストの内容をどのように活用するかがより重要です。現在、国内外でのテキストの長さに関する探求はまだ「臨界点」に達しておらず、40万tokenはおそらく始まりに過ぎません。月の暗い面の創設者である楊植麟は、大規模モデルの入力長が制限されているため、多くのアプリケーションの実現に困難をもたらしていると述べています。長文技術は、大規模モデルが初期に批判された一部の問題を解決し、特定の機能を強化することができ、産業とアプリケーションの実現をさらに推進するための重要な技術でもあります。これは、大規模モデルの発展がLLMからLong LLMへの新しい段階に入ったことを示しています。長文技術は大規模モデルに一連の新しい機能アップグレードをもたらしました。例えば、超長文情報の抽出と分析、複雑なコード生成、長い対話シーンでの役割演技などです。これらの機能は、大規模モデルが専門化、個性化、深度化の方向に向かって進化していることを示しており、産業の実現を促進する新しい手段になることが期待されています。しかし、長文技術は「不可能な三角形」というジレンマにも直面しています。テキストが長くなるほど、十分な注意を集めることが難しくなります。注意力の制限の下では、短文では複雑な情報を完全に解釈することが難しいです。長文を処理するには膨大な計算能力が必要で、コストが増加します。これは主に、ほとんどのモデルが基づいているTransformer構造の自己注意メカニズムに起因し、その計算量は文脈の長さに対して平方級に増加します。現在、主に3つの解決策があります: 外部ツールを活用した処理、自己注意メカニズムの計算の最適化、モデル最適化手法の利用です。将来的には、大規模モデルのメーカーは、テキストの長さ、注意力、計算能力の3者の最適なバランスを追求し、十分な情報を処理する一方で、注意力計算と計算コストの制約にも配慮する必要があります。
大規模モデルが40万トークンの長文コンペを引き起こし、専門分野での実用化を推進する
大規模モデル企業が長文技術競争を引き起こし、40万トークンは始まりに過ぎない
4000から40万token、大規模モデルは驚異的な速度で長文処理能力を向上させています。
長文能力は、大規模モデルの提供者にとって新たな「標準」となっているようです。海外では、OpenAIが何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト入力長をそれぞれ1.6万と3.2万トークンに引き上げました。Anthropicはコンテキスト長を10万トークンに引き上げるという一歩を踏み出しました。LongLLaMAはコンテキスト長を25.6万トークン以上にまで拡張しました。
国内の方面では、大規模モデルのスタートアップである月之暗面が発表したスマートアシスタントKimi Chatは、20万の漢字の入力をサポートし、約40万トークンに相当します。香港中文大学の贾佳亚チームがMITと共同で発表したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに拡張し、70Bモデルを3.2万トークンに拡張できます。
現在、国内外の多くのトップレベルの大規模モデル技術会社や研究機関が、コンテキストの長さの拡張をアップグレードの重点としています。これらの会社は大多数が資本市場の注目を集めており、OpenAIは約120億ドルの投資を獲得し、Anthropicの評価額は300億ドルに達する見込みです。月の暗い面は設立から半年で2回の約20億元の資金調達を完了しました。
大規模モデル企業が長文技術をこれほど重視する理由は、文脈の長さが100倍に拡大することが何を意味するのか?表面的には、入力テキストの長さと読解能力の向上を示しています。より深いレベルでは、長文技術が金融、司法、研究などの専門分野における大規模モデルの応用を進めているのです。
しかし、大規模モデルが処理できるコンテキストの長さは重要ではなく、モデルがコンテキストの内容をどのように活用するかがより重要です。現在、国内外でのテキストの長さに関する探求はまだ「臨界点」に達しておらず、40万tokenはおそらく始まりに過ぎません。
月の暗い面の創設者である楊植麟は、大規模モデルの入力長が制限されているため、多くのアプリケーションの実現に困難をもたらしていると述べています。長文技術は、大規模モデルが初期に批判された一部の問題を解決し、特定の機能を強化することができ、産業とアプリケーションの実現をさらに推進するための重要な技術でもあります。これは、大規模モデルの発展がLLMからLong LLMへの新しい段階に入ったことを示しています。
長文技術は大規模モデルに一連の新しい機能アップグレードをもたらしました。例えば、超長文情報の抽出と分析、複雑なコード生成、長い対話シーンでの役割演技などです。これらの機能は、大規模モデルが専門化、個性化、深度化の方向に向かって進化していることを示しており、産業の実現を促進する新しい手段になることが期待されています。
しかし、長文技術は「不可能な三角形」というジレンマにも直面しています。テキストが長くなるほど、十分な注意を集めることが難しくなります。注意力の制限の下では、短文では複雑な情報を完全に解釈することが難しいです。長文を処理するには膨大な計算能力が必要で、コストが増加します。これは主に、ほとんどのモデルが基づいているTransformer構造の自己注意メカニズムに起因し、その計算量は文脈の長さに対して平方級に増加します。
現在、主に3つの解決策があります: 外部ツールを活用した処理、自己注意メカニズムの計算の最適化、モデル最適化手法の利用です。将来的には、大規模モデルのメーカーは、テキストの長さ、注意力、計算能力の3者の最適なバランスを追求し、十分な情報を処理する一方で、注意力計算と計算コストの制約にも配慮する必要があります。