طول السياق لنموذج كبير ارتفع 100 مرة، وأصبحت تقنية النصوص الطويلة معيارًا جديدًا.

robot
إنشاء الملخص قيد التقدم

تقنية النصوص الطويلة أصبحت معيارًا جديدًا للنماذج الكبيرة، ماذا يعني زيادة طول السياق بمقدار 100 مرة؟

تزداد طول سياق النماذج الكبيرة بسرعة مذهلة، من 4000 توكن إلى 400000 توكن. يبدو أن القدرة على التعامل مع النصوص الطويلة قد أصبحت "المعيار الجديد" لمصنعي النماذج الكبيرة.

في الخارج، قامت OpenAI من خلال عدة ترقيات بزيادة طول السياق لنموذج GPT-4 إلى 32,000 توكن. بينما قامت Anthropic بزيادة طول السياق لنموذج Claude إلى 100,000 توكن دفعة واحدة. أما LongLLaMA فقد دفعت بهذا الرقم إلى 256,000 توكن.

لا تتراجع البلاد أيضاً. يُقال إن شركة Moon's Dark Side الناشئة قد أطلقت Kimi Chat التي تدعم إدخال حوالي 400,000 توكن. بينما تُطور جامعة هونغ كونغ الصينية وMIT تقنية LongLoRA التي يمكنها توسيع طول نص نموذج 70B إلى 32,000 توكن.

حاليًا، تركز العديد من شركات النماذج الكبيرة الرائدة مثل OpenAI، وAnthropic، وMeta، و月之暗面 على توسيع طول السياق كأحد النقاط الرئيسية في الترقية. هذه الشركات جميعها بلا استثناء محبوبة في سوق المال. على سبيل المثال، حصلت OpenAI على استثمار يقارب 12 مليار دولار؛ ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار؛ بينما أكملت 月之暗面 جولتين من التمويل بلغ إجماليهما نحو 2 مليار يوان بعد ستة أشهر من تأسيسها.

ما معنى أن تولي شركات النماذج الكبيرة أهمية كبيرة لتقنية النصوص الطويلة، وأن يتم توسيع طول السياق بمقدار 100 مرة؟

على السطح، يعني هذا أن كمية النصوص التي يمكن للنموذج معالجتها قد زادت بشكل كبير. يمكن لـ Kimi Chat المكون من 400,000 توكن قراءة رواية كاملة. ولكن المعنى الأعمق هو أن تقنية النصوص الطويلة تدفع إلى تطبيق النماذج الكبيرة في مجالات مثل المالية والعدالة والبحث العلمي.

ومع ذلك، فإن طول النص ليس بالضرورة كلما كان أطول كان أفضل. أظهرت الدراسات أن دعم النموذج لإدخال سياق أطول وزيادة الفعالية ليس ببساطة متساويًا. المفتاح هو كيف يمكن للنموذج استخدام محتوى السياق بشكل فعال.

حتى الآن، لم يصل المجال إلى "نقطة حرجة" في استكشاف طول النص. قد تكون 400,000 توكن مجرد بداية.

قال المؤسس يانغ زهي لين من "الجانب المظلم من القمر" إن تقنية النصوص الطويلة يمكن أن تحل بعض المشكلات المبكرة للنماذج الكبيرة، وتعزز بعض الوظائف، وهي أيضًا تقنية رئيسية لدفع تطبيقات الصناعة إلى أرض الواقع. وهذا يمثل علامة على دخول تطوير النماذج الكبيرة مرحلة جديدة من LLM إلى Long LLM.

أدى突破技术长文本 إلى ظهور مجموعة جديدة من الميزات مثل استخراج المعلومات الرئيسية من النصوص الطويلة جدًا، والتحليل الملخص، وتوليد الكود المعقد، وكذلك المحادثات المخصصة مع أدوار مخصصة. هذه الميزات تدفع روبوتات المحادثة نحو التخصص والشخصية والعمق.

ومع ذلك، تواجه تقنية النص الطويل أيضًا معضلة "مثلث الاستحالة": من الصعب تحقيق التوازن بين طول النص والانتباه والقدرة الحاسوبية. التحدي الرئيسي يأتي من آلية الانتباه الذاتي في بنية المحول، حيث يتزايد حجم الحساب بشكل متسارع مع طول السياق.

حالياً هناك ثلاث حلول رئيسية: استخدام أدوات خارجية للمساعدة في المعالجة، تحسين حساب آلية الانتباه الذاتي، وتحسين النموذج نفسه. كل حل له مزاياه وعيوبه، والمفتاح هو العثور على أفضل نقطة توازن بين طول النص والانتباه وقوة الحوسبة.

على الرغم من أن تقنية النصوص الطويلة لا تزال تواجه العديد من التحديات، إلا أنها بلا شك خطوة مهمة نحو تحقيق صناعة النماذج الكبيرة. في المستقبل، مع استمرار التقدم التكنولوجي، نتوقع رؤية المزيد من التطبيقات الابتكارية المستندة إلى تقنية النصوص الطويلة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 6
  • مشاركة
تعليق
0/400
BrokeBeansvip
· منذ 20 س
طويل طويل طويل لا أستطيع تذكره
شاهد النسخة الأصليةرد0
TommyTeacher1vip
· منذ 20 س
1. هذه السرعة لا تتماشى، ساقي متعبة جداً
شاهد النسخة الأصليةرد0
CryptoPunstervip
· منذ 20 س
زيادة كبيرة في طول النص للنماذج الكبيرة، لكن الذكاء لم يرتفع.
شاهد النسخة الأصليةرد0
PumpStrategistvip
· منذ 21 س
الضجيج النموذجي كبير جداً، أليس كذلك؟ يجب أن تكون مؤشرات الأداء الرئيسية قد ظهرت.
شاهد النسخة الأصليةرد0
LiquidityOraclevip
· منذ 21 س
ما معنى أن تلعب لفترة طويلة؟
شاهد النسخة الأصليةرد0
AllInDaddyvip
· منذ 21 س
هذه الجولة لا بد من سحبها
شاهد النسخة الأصليةرد0
  • تثبيت