Panjang konteks model besar meningkat 100 kali, teknologi teks panjang menjadi standar baru.

robot
Pembuatan abstrak sedang berlangsung

Teknologi teks panjang menjadi standar baru untuk model besar, apa artinya memperluas panjang konteks 100 kali?

Panjang konteks model besar sedang tumbuh dengan kecepatan luar biasa, melonjak dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya telah menjadi "standar baru" bagi produsen model besar.

Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-4 menjadi 32.000 token melalui beberapa pembaruan. Anthropic juga telah memperluas panjang konteks model Claude hingga 100.000 token. LongLLaMA bahkan telah mendorong angka ini menjadi 256.000 token.

Dalam negeri juga tidak mau kalah. Diketahui bahwa Kimi Chat yang diluncurkan oleh perusahaan rintisan Moon's Dark Side dapat mendukung input sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Hong Kong dan MIT dapat memperluas panjang teks model 70B hingga 32.000 token.

Saat ini, berbagai perusahaan model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai fokus peningkatan. Semua perusahaan ini tanpa kecuali adalah favorit pasar modal. Misalnya, OpenAI telah mendapatkan hampir 12 miliar dolar investasi; valuasi Anthropic diperkirakan mencapai 30 miliar dolar; Bulan Gelap berhasil menyelesaikan dua putaran pendanaan hampir 2 miliar yuan hanya dalam waktu enam bulan setelah didirikan.

Mengapa perusahaan model besar sangat memperhatikan teknologi teks panjang, apa sebenarnya arti dari memperluas panjang konteks 100 kali lipat?

Secara superficial, ini berarti jumlah teks yang dapat diproses oleh model meningkat secara signifikan. Kimi Chat dengan 400.000 token sudah dapat membaca satu novel panjang secara utuh. Namun, makna yang lebih dalam adalah bahwa teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian.

Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak serta merta sebanding dengan peningkatan kinerja. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks secara efektif.

Saat ini, eksplorasi panjang teks di industri masih jauh dari "titik kritis". 400.000 token mungkin hanya sebuah awal.

Pendiri Dark Side of the Moon, Yang Zhilin, menyatakan bahwa teknologi teks panjang dapat menyelesaikan beberapa masalah awal model besar, meningkatkan beberapa fungsi, dan juga merupakan teknologi kunci untuk mendorong penerapan industri. Ini menandai bahwa perkembangan model besar memasuki tahap baru dari LLM ke Long LLM.

Terobosan teknologi teks panjang membawa serangkaian fitur baru, seperti ekstraksi informasi kunci dari teks yang sangat panjang, analisis ringkasan, pembuatan kode kompleks, dan dialog peran yang dipersonalisasi. Fitur-fitur ini mendorong robot percakapan menuju perkembangan yang lebih profesional, personal, dan mendalam.

Namun, teknologi teks panjang juga menghadapi dilema "segitiga yang tidak mungkin": sulit untuk mengakomodasi panjang teks, perhatian, dan kekuatan komputasi sekaligus. Tantangan utama berasal dari mekanisme perhatian diri dalam struktur Transformer, yang jumlah komputasinya meningkat secara kuadrat seiring dengan panjang konteks.

Saat ini ada tiga solusi utama: menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian mandiri, dan mengoptimalkan model itu sendiri. Setiap solusi memiliki kelebihan dan kekurangan, kunci utamanya adalah menemukan titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi.

Meskipun teknologi teks panjang masih menghadapi banyak tantangan, itu pasti merupakan langkah penting dalam mendorong penerapan industri model besar. Di masa depan, seiring dengan terobosan teknologi yang terus berlanjut, kita berharap dapat melihat lebih banyak aplikasi inovatif yang berbasis teknologi teks panjang.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Bagikan
Komentar
0/400
DeadTrades_Walkingvip
· 07-17 08:36
Jadi, konsumsi sumber daya lebih besar.
Lihat AsliBalas0
BrokeBeansvip
· 07-15 01:21
Panjang panjang panjang, tidak bisa diingat ah
Lihat AsliBalas0
TommyTeacher1vip
· 07-15 01:20
1.Kecepatan ini tidak bisa mengikuti, kaki saya lelah.
Lihat AsliBalas0
CryptoPunstervip
· 07-15 01:11
Model besar dengan cepat meningkatkan panjang teks, tetapi IQ masih belum naik.
Lihat AsliBalas0
PumpStrategistvip
· 07-15 00:57
Tipikalnya, sensasi terlalu besar, KPI sudah keluar kan?
Lihat AsliBalas0
LiquidityOraclevip
· 07-15 00:55
Bermain selama ini bukanlah sebuah keahlian.
Lihat AsliBalas0
AllInDaddyvip
· 07-15 00:53
Gelombang ini masih harus digulung
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)