Perusahaan model besar memicu kompetisi teknologi teks panjang, 400.000 token baru permulaan
4000 hingga 400 ribu token, model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang menakjubkan.
Kemampuan teks panjang tampaknya telah menjadi "standar" baru bagi pemasok model besar. Di luar negeri, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dan GPT-4 menjadi masing-masing 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks menjadi 100.000 token. LongLLaMA telah memperluas panjang konteks hingga 256.000 token atau bahkan lebih.
Di dalam negeri, perusahaan startup model besar, Yuezhi Anmian, meluncurkan asisten pintar Kimi Chat yang mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dirilis oleh tim Jia Jiaya dari Universitas Cina Hong Kong bekerja sama dengan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Saat ini, banyak perusahaan teknologi model besar terkemuka dan lembaga penelitian di dalam dan luar negeri telah menjadikan perpanjangan panjang konteks sebagai fokus peningkatan. Sebagian besar perusahaan ini telah menarik perhatian pasar modal, seperti OpenAI yang berhasil mengamankan hampir 12 miliar dolar investasi, valuasi Anthropic diperkirakan akan mencapai 30 miliar dolar, dan Dark Moon yang didirikan selama enam bulan telah menyelesaikan dua putaran pendanaan hampir 2 miliar yuan.
Perusahaan model besar sangat memperhatikan teknologi teks panjang, apa arti dari peningkatan panjang konteks sebesar 100 kali? Secara superficial, ini adalah peningkatan panjang teks input dan kemampuan membaca. Dari sudut pandang yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, panjang konteks yang dapat diproses oleh model besar bukanlah yang terpenting, melainkan bagaimana model memanfaatkan konten konteks. Saat ini, eksplorasi panjang teks di dalam dan luar negeri masih jauh dari "titik kritis", 400.000 token mungkin hanya permulaan.
Pendiri Side Gelap Bulan, Yang Zhilin, menyatakan bahwa masalah banyak aplikasi yang terhambat adalah akibat dari batasan panjang input model besar. Teknologi teks panjang dapat menyelesaikan beberapa masalah yang sering dicemooh pada awal model besar, memperkuat beberapa fungsinya, dan juga merupakan teknologi kunci untuk lebih memajukan industri dan penerapan. Ini menandakan bahwa perkembangan model besar telah memasuki tahap baru dari LLM ke Long LLM.
Teknologi teks panjang membawa serangkaian peningkatan fungsi baru untuk model besar, seperti ekstraksi dan analisis informasi teks yang sangat panjang, generasi kode yang kompleks, serta peran dalam skenario dialog panjang. Fungsi-fungsi ini menunjukkan bahwa model besar sedang berkembang ke arah spesialisasi, personalisasi, dan pendalaman, dan diharapkan menjadi alat baru untuk mendorong penerapan industri.
Namun, teknologi teks panjang juga menghadapi dilema "segitiga yang tidak mungkin": semakin panjang teks, semakin sulit untuk menarik perhatian yang cukup; dalam batasan perhatian, teks pendek sulit untuk membaca informasi kompleks secara lengkap; memproses teks panjang membutuhkan banyak daya komputasi, yang meningkatkan biaya. Ini terutama berasal dari mekanisme perhatian diri dalam struktur Transformer yang menjadi dasar sebagian besar model, di mana jumlah komputasi meningkat secara kuadrat seiring dengan panjang konteks.
Saat ini ada tiga solusi utama: menggunakan alat eksternal untuk bantuan pengolahan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan metode optimasi model. Di masa depan, penyedia model besar perlu mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan biaya komputasi, untuk memproses informasi yang cukup sambil mempertimbangkan perhitungan perhatian dan batasan biaya komputasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
14 Suka
Hadiah
14
2
Posting ulang
Bagikan
Komentar
0/400
PrivateKeyParanoia
· 7jam yang lalu
token akan segera berakhir
Lihat AsliBalas0
WalletsWatcher
· 7jam yang lalu
Memilih satu jalur lari jarak jauh masih cukup baik.
Model besar meluncurkan kompetisi teks panjang 400 ribu token untuk mendorong aplikasi di bidang profesional
Perusahaan model besar memicu kompetisi teknologi teks panjang, 400.000 token baru permulaan
4000 hingga 400 ribu token, model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang menakjubkan.
Kemampuan teks panjang tampaknya telah menjadi "standar" baru bagi pemasok model besar. Di luar negeri, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dan GPT-4 menjadi masing-masing 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks menjadi 100.000 token. LongLLaMA telah memperluas panjang konteks hingga 256.000 token atau bahkan lebih.
Di dalam negeri, perusahaan startup model besar, Yuezhi Anmian, meluncurkan asisten pintar Kimi Chat yang mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dirilis oleh tim Jia Jiaya dari Universitas Cina Hong Kong bekerja sama dengan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Saat ini, banyak perusahaan teknologi model besar terkemuka dan lembaga penelitian di dalam dan luar negeri telah menjadikan perpanjangan panjang konteks sebagai fokus peningkatan. Sebagian besar perusahaan ini telah menarik perhatian pasar modal, seperti OpenAI yang berhasil mengamankan hampir 12 miliar dolar investasi, valuasi Anthropic diperkirakan akan mencapai 30 miliar dolar, dan Dark Moon yang didirikan selama enam bulan telah menyelesaikan dua putaran pendanaan hampir 2 miliar yuan.
Perusahaan model besar sangat memperhatikan teknologi teks panjang, apa arti dari peningkatan panjang konteks sebesar 100 kali? Secara superficial, ini adalah peningkatan panjang teks input dan kemampuan membaca. Dari sudut pandang yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, panjang konteks yang dapat diproses oleh model besar bukanlah yang terpenting, melainkan bagaimana model memanfaatkan konten konteks. Saat ini, eksplorasi panjang teks di dalam dan luar negeri masih jauh dari "titik kritis", 400.000 token mungkin hanya permulaan.
Pendiri Side Gelap Bulan, Yang Zhilin, menyatakan bahwa masalah banyak aplikasi yang terhambat adalah akibat dari batasan panjang input model besar. Teknologi teks panjang dapat menyelesaikan beberapa masalah yang sering dicemooh pada awal model besar, memperkuat beberapa fungsinya, dan juga merupakan teknologi kunci untuk lebih memajukan industri dan penerapan. Ini menandakan bahwa perkembangan model besar telah memasuki tahap baru dari LLM ke Long LLM.
Teknologi teks panjang membawa serangkaian peningkatan fungsi baru untuk model besar, seperti ekstraksi dan analisis informasi teks yang sangat panjang, generasi kode yang kompleks, serta peran dalam skenario dialog panjang. Fungsi-fungsi ini menunjukkan bahwa model besar sedang berkembang ke arah spesialisasi, personalisasi, dan pendalaman, dan diharapkan menjadi alat baru untuk mendorong penerapan industri.
Namun, teknologi teks panjang juga menghadapi dilema "segitiga yang tidak mungkin": semakin panjang teks, semakin sulit untuk menarik perhatian yang cukup; dalam batasan perhatian, teks pendek sulit untuk membaca informasi kompleks secara lengkap; memproses teks panjang membutuhkan banyak daya komputasi, yang meningkatkan biaya. Ini terutama berasal dari mekanisme perhatian diri dalam struktur Transformer yang menjadi dasar sebagian besar model, di mana jumlah komputasi meningkat secara kuadrat seiring dengan panjang konteks.
Saat ini ada tiga solusi utama: menggunakan alat eksternal untuk bantuan pengolahan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan metode optimasi model. Di masa depan, penyedia model besar perlu mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan biaya komputasi, untuk memproses informasi yang cukup sambil mempertimbangkan perhitungan perhatian dan batasan biaya komputasi.