Terobosan dalam teknologi generasi video multimodal, peluang apa yang dimiliki AI Web3?

Menengah7/9/2025, 10:18:15 AM
Artikel ini menganalisis terobosan dalam teknologi generasi video multimodal (seperti EX-4D dari Byte, Google Veo, dll.) dan membahas dampak mendalamnya pada ekonomi kreator dan Web3 AI.

Selain "penenggelaman" lokalisasi AI, perubahan terbesar di sektor AI baru-baru ini adalah terobosan teknologi dalam generasi video multimodal, yang telah berkembang dari mendukung generasi video berbasis teks murni menjadi teknologi generasi terintegrasi sepenuhnya yang menggabungkan teks, gambar, dan audio.

Berikut adalah beberapa contoh terobosan teknologi yang dapat dialami semua orang:

1) ByteDance mengopen-source kerangka EX-4D: Video monokular langsung berubah menjadi konten 4D titik pandang bebas, dengan tingkat penerimaan pengguna sebesar 70,7%. Ini berarti bahwa untuk video biasa, AI dapat secara otomatis menghasilkan efek tampilan dari sudut mana pun, yang sebelumnya memerlukan tim pemodelan 3D profesional untuk mencapainya.

2) Platform Baidu "Hui Xiang": menghasilkan video 10 detik dari satu gambar, mengklaim mencapai kualitas "level film". Namun, apakah ini terlalu dilebih-lebihkan oleh pemasaran masih harus dilihat sampai pembaruan versi Pro pada bulan Agustus.

3) Google DeepMind Veo: Dapat mencapai generasi video 4K + sinkronisasi suara lingkungan. Sorotan teknologi kunci adalah pencapaian kemampuan "sinkronisasi", karena sebelumnya itu adalah penggabungan dua sistem untuk video dan audio. Untuk mencapai pencocokan pada tingkat semantik yang sebenarnya, tantangan signifikan harus diatasi, seperti dalam adegan kompleks, di mana sinkronisasi tindakan berjalan dalam video dan suara langkah kaki yang sesuai harus ditangani.

4) Konten DouyinV: 8 miliar parameter, 2,3 detik untuk menghasilkan video 1080p, biaya 3,67 yuan/5 detik. Sejujurnya, kontrol biaya ini cukup baik, tetapi saat ini, mengingat kualitas generasi, masih kurang ketika menghadapi adegan yang kompleks.

Mengapa dikatakan bahwa kasus-kasus ini memiliki nilai dan makna yang signifikan dalam hal terobosan kualitas video, biaya produksi, dan skenario aplikasi?

1. Dalam hal terobosan nilai teknologi, kompleksitas menghasilkan video multimodal sering kali bersifat eksponensial. Sebuah gambar tunggal terdiri dari sekitar 10^6 piksel, dan sebuah video harus memastikan koherensi temporal (setidaknya 100 frame), bersama dengan sinkronisasi audio (10^4 titik sampel per detik), sambil juga mempertimbangkan konsistensi spasial 3D.

Singkatnya, kompleksitas teknis tidak rendah. Awalnya, itu adalah model super besar yang menghadapi semua tugas secara langsung. Dikatakan bahwa Sora membakar puluhan ribu H100 untuk mencapai kemampuan generasi video. Sekarang, ini dapat direalisasikan melalui dekomposisi modular dan kerja kolaboratif model besar. Misalnya, EX-4D Byte sebenarnya membagi tugas kompleks menjadi: modul estimasi kedalaman, modul transformasi sudut pandang, modul interpolasi temporal, modul optimisasi rendering, dan seterusnya. Setiap modul mengkhususkan diri dalam satu tugas dan kemudian berkoordinasi melalui mekanisme.

2. Dalam hal pengurangan biaya: ini sebenarnya melibatkan pengoptimalan arsitektur penalaran itu sendiri, termasuk strategi generasi berlapis, di mana kerangka resolusi rendah dihasilkan terlebih dahulu dan kemudian konten citra resolusi tinggi ditingkatkan; mekanisme penggunaan kembali caching, yaitu penggunaan kembali adegan yang serupa; dan alokasi sumber daya dinamis, yang sebenarnya mengatur kedalaman model berdasarkan kompleksitas konten spesifik.

Dengan serangkaian optimasi ini, kami akan mencapai hasil 3,67 yuan per 5 detik untuk Konten Douyin.

3. Dari segi dampak aplikasi, produksi video tradisional adalah permainan yang intensif modal: peralatan, tempat, aktor, pasca produksi; adalah hal yang biasa bagi iklan selama 30 detik untuk menelan biaya ratusan ribu. Sekarang, AI mengompresi seluruh proses ini menjadi sebuah prompt ditambah beberapa menit menunggu, dan dapat mencapai perspektif serta efek khusus yang sulit dicapai dalam pengambilan gambar tradisional.

Ini mengubah hambatan teknis dan finansial asli dari produksi video menjadi kreativitas dan estetika, yang dapat mendorong pengaturan ulang seluruh ekonomi kreator.

Pertanyaannya muncul, apa hubungan antara perubahan di sisi permintaan teknologi AI web2 dan AI web3?

1. Pertama, perubahan dalam struktur permintaan daya komputasi. Sebelumnya, dalam AI, kompetisi didasarkan pada skala; siapa pun yang memiliki lebih banyak kluster GPU yang homogen akan menang. Namun, permintaan untuk generasi video multimodal memerlukan kombinasi daya komputasi yang beragam, yang dapat menciptakan kebutuhan akan daya komputasi idle terdistribusi, serta berbagai model fine-tuning terdistribusi, algoritma, dan platform inferensi.

2. Kedua, permintaan untuk pelabelan data juga akan menguat. Menghasilkan video berkualitas profesional memerlukan: deskripsi adegan yang tepat, gambar referensi, gaya audio, trajektori gerakan kamera, kondisi pencahayaan, dll., yang akan menjadi persyaratan pelabelan data profesional yang baru. Menggunakan metode insentif Web3 dapat mendorong fotografer, insinyur suara, seniman 3D, dan lainnya untuk menyediakan elemen data profesional, meningkatkan kemampuan generasi video AI dengan pelabelan data vertikal yang khusus.

3. Akhirnya, perlu disebutkan bahwa ketika AI secara bertahap beralih dari alokasi sumber daya besar yang terpusat ke kolaborasi modular, itu sendiri mewakili permintaan baru untuk platform terdesentralisasi. Pada saat itu, daya komputasi, data, model, insentif, dll. akan bersama-sama membentuk roda penggerak yang saling memperkuat, yang pada gilirannya akan mendorong integrasi skenario web3AI dan web2AI.

Pernyataan:

  1. Artikel ini dicetak ulang dari [tmel0211tmel0211],Hak cipta milik penulis asli [tmel0211] Jika Anda memiliki keberatan terhadap penerbitan ulang, silakan hubungi Tim Gate LearnTim akan memprosesnya secepat mungkin sesuai dengan prosedur yang relevan.
  2. Pemberitahuan: Pandangan dan pendapat yang diungkapkan dalam artikel ini sepenuhnya merupakan pendapat penulis dan tidak merupakan saran investasi.
  3. Versi bahasa lain dari artikel ini diterjemahkan oleh tim Gate Learn, kecuali disebutkan sebaliknya.GerbangDalam keadaan apa pun, artikel yang diterjemahkan tidak boleh disalin, disebarluaskan, atau dijiplak.

Bagikan

Mulai Sekarang
Daftar dan dapatkan Voucher
$100
!