Các công ty mô hình lớn khơi dậy cuộc cạnh tranh công nghệ văn bản dài, 400.000 token chỉ là khởi đầu
Từ 4000 đến 400.000 token, mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc.
Năng lực văn bản dài dường như đã trở thành "tiêu chuẩn" mới cho các nhà sản xuất mô hình lớn. Ở nước ngoài, OpenAI đã nâng độ dài đầu vào ngữ cảnh của GPT-3.5 và GPT-4 lên lần lượt là 16.000 và 32.000 token thông qua nhiều lần nâng cấp. Anthropic còn một bước nâng độ dài ngữ cảnh lên đến 100.000 token. LongLLaMA thì mở rộng độ dài ngữ cảnh lên tới 256.000 token hoặc thậm chí nhiều hơn.
Trong nước, công ty khởi nghiệp mô hình lớn Moon's Dark Side đã ra mắt trợ lý thông minh Kimi Chat hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Nhóm Jia Jiaya từ Đại học Hồng Kông và MIT đã công bố công nghệ LongLoRA có thể mở rộng độ dài văn bản của mô hình 7B lên tới 100.000 token và mô hình 70B lên tới 32.000 token.
Hiện tại, trong và ngoài nước đã có một loạt các công ty công nghệ mô hình lớn hàng đầu và các tổ chức nghiên cứu coi việc mở rộng độ dài ngữ cảnh là trọng tâm nâng cấp. Hầu hết các công ty này đã nhận được sự ưu ái từ thị trường vốn, chẳng hạn như OpenAI đã thu hút gần 12 tỷ USD đầu tư, giá trị của Anthropic dự kiến sẽ đạt 30 tỷ USD, và Moonlight's Dark Side sau nửa năm thành lập đã hoàn thành hai vòng huy động gần 2 tỷ nhân dân tệ.
Các công ty mô hình lớn rất coi trọng công nghệ văn bản dài, việc mở rộng độ dài ngữ cảnh gấp 100 lần có ý nghĩa gì? Nhìn bề ngoài, đó là sự nâng cao về độ dài văn bản đầu vào và khả năng đọc. Nhìn sâu hơn, công nghệ văn bản dài đang thúc đẩy việc ứng dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học.
Tuy nhiên, độ dài ngữ cảnh mà mô hình lớn có thể xử lý không phải là yếu tố chính, mà điều quan trọng hơn là cách mô hình sử dụng nội dung ngữ cảnh. Hiện tại, việc khám phá độ dài văn bản trong và ngoài nước vẫn chưa đạt đến "điểm tới hạn", 400.000 token có thể chỉ mới là khởi đầu.
Nhà sáng lập của Mặt Trăng Tối Yang Zhilin cho biết, chính vì độ dài đầu vào của mô hình lớn bị hạn chế, nên đã gây ra nhiều khó khăn trong việc triển khai ứng dụng. Công nghệ văn bản dài có thể giải quyết một số vấn đề mà mô hình lớn gặp phải trong giai đoạn đầu, tăng cường một số chức năng, đồng thời cũng là công nghệ then chốt để thúc đẩy ngành công nghiệp và triển khai ứng dụng. Điều này đánh dấu sự phát triển của mô hình lớn bước vào giai đoạn mới từ LLM đến Long LLM.
Công nghệ văn bản dài đã mang đến cho mô hình lớn một loạt các nâng cấp tính năng mới, chẳng hạn như trích xuất và phân tích thông tin văn bản siêu dài, tạo mã phức tạp, và đóng vai trò trong các tình huống đối thoại dài. Những tính năng này cho thấy mô hình lớn đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và sâu sắc, có khả năng trở thành công cụ mới để thúc đẩy ngành công nghiệp.
Tuy nhiên, công nghệ văn bản dài cũng phải đối mặt với nghịch cảnh "tam giác không thể" : văn bản càng dài, càng khó thu hút đủ sự chú ý; dưới giới hạn chú ý, văn bản ngắn khó khăn để diễn giải thông tin phức tạp một cách đầy đủ; việc xử lý văn bản dài cần một lượng lớn sức mạnh tính toán, làm tăng chi phí. Điều này chủ yếu xuất phát từ cơ chế tự chú ý trong cấu trúc Transformer mà hầu hết các mô hình dựa vào, lượng tính toán sẽ tăng theo cấp số bình phương theo độ dài ngữ cảnh.
Hiện tại có ba giải pháp chính: sử dụng công cụ bên ngoài để hỗ trợ xử lý, tối ưu hóa tính toán cơ chế chú ý tự động, và sử dụng các phương pháp tối ưu hóa mô hình. Trong tương lai, các nhà sản xuất mô hình lớn cần tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và chi phí tính toán, để xử lý đủ thông tin đồng thời cân nhắc đến tính toán chú ý và hạn chế chi phí tính toán.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Mô hình lớn khởi động cuộc thi văn bản dài 400.000 token, thúc đẩy ứng dụng thực tiễn trong các lĩnh vực chuyên môn.
Các công ty mô hình lớn khơi dậy cuộc cạnh tranh công nghệ văn bản dài, 400.000 token chỉ là khởi đầu
Từ 4000 đến 400.000 token, mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc.
Năng lực văn bản dài dường như đã trở thành "tiêu chuẩn" mới cho các nhà sản xuất mô hình lớn. Ở nước ngoài, OpenAI đã nâng độ dài đầu vào ngữ cảnh của GPT-3.5 và GPT-4 lên lần lượt là 16.000 và 32.000 token thông qua nhiều lần nâng cấp. Anthropic còn một bước nâng độ dài ngữ cảnh lên đến 100.000 token. LongLLaMA thì mở rộng độ dài ngữ cảnh lên tới 256.000 token hoặc thậm chí nhiều hơn.
Trong nước, công ty khởi nghiệp mô hình lớn Moon's Dark Side đã ra mắt trợ lý thông minh Kimi Chat hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Nhóm Jia Jiaya từ Đại học Hồng Kông và MIT đã công bố công nghệ LongLoRA có thể mở rộng độ dài văn bản của mô hình 7B lên tới 100.000 token và mô hình 70B lên tới 32.000 token.
Hiện tại, trong và ngoài nước đã có một loạt các công ty công nghệ mô hình lớn hàng đầu và các tổ chức nghiên cứu coi việc mở rộng độ dài ngữ cảnh là trọng tâm nâng cấp. Hầu hết các công ty này đã nhận được sự ưu ái từ thị trường vốn, chẳng hạn như OpenAI đã thu hút gần 12 tỷ USD đầu tư, giá trị của Anthropic dự kiến sẽ đạt 30 tỷ USD, và Moonlight's Dark Side sau nửa năm thành lập đã hoàn thành hai vòng huy động gần 2 tỷ nhân dân tệ.
Các công ty mô hình lớn rất coi trọng công nghệ văn bản dài, việc mở rộng độ dài ngữ cảnh gấp 100 lần có ý nghĩa gì? Nhìn bề ngoài, đó là sự nâng cao về độ dài văn bản đầu vào và khả năng đọc. Nhìn sâu hơn, công nghệ văn bản dài đang thúc đẩy việc ứng dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học.
Tuy nhiên, độ dài ngữ cảnh mà mô hình lớn có thể xử lý không phải là yếu tố chính, mà điều quan trọng hơn là cách mô hình sử dụng nội dung ngữ cảnh. Hiện tại, việc khám phá độ dài văn bản trong và ngoài nước vẫn chưa đạt đến "điểm tới hạn", 400.000 token có thể chỉ mới là khởi đầu.
Nhà sáng lập của Mặt Trăng Tối Yang Zhilin cho biết, chính vì độ dài đầu vào của mô hình lớn bị hạn chế, nên đã gây ra nhiều khó khăn trong việc triển khai ứng dụng. Công nghệ văn bản dài có thể giải quyết một số vấn đề mà mô hình lớn gặp phải trong giai đoạn đầu, tăng cường một số chức năng, đồng thời cũng là công nghệ then chốt để thúc đẩy ngành công nghiệp và triển khai ứng dụng. Điều này đánh dấu sự phát triển của mô hình lớn bước vào giai đoạn mới từ LLM đến Long LLM.
Công nghệ văn bản dài đã mang đến cho mô hình lớn một loạt các nâng cấp tính năng mới, chẳng hạn như trích xuất và phân tích thông tin văn bản siêu dài, tạo mã phức tạp, và đóng vai trò trong các tình huống đối thoại dài. Những tính năng này cho thấy mô hình lớn đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và sâu sắc, có khả năng trở thành công cụ mới để thúc đẩy ngành công nghiệp.
Tuy nhiên, công nghệ văn bản dài cũng phải đối mặt với nghịch cảnh "tam giác không thể" : văn bản càng dài, càng khó thu hút đủ sự chú ý; dưới giới hạn chú ý, văn bản ngắn khó khăn để diễn giải thông tin phức tạp một cách đầy đủ; việc xử lý văn bản dài cần một lượng lớn sức mạnh tính toán, làm tăng chi phí. Điều này chủ yếu xuất phát từ cơ chế tự chú ý trong cấu trúc Transformer mà hầu hết các mô hình dựa vào, lượng tính toán sẽ tăng theo cấp số bình phương theo độ dài ngữ cảnh.
Hiện tại có ba giải pháp chính: sử dụng công cụ bên ngoài để hỗ trợ xử lý, tối ưu hóa tính toán cơ chế chú ý tự động, và sử dụng các phương pháp tối ưu hóa mô hình. Trong tương lai, các nhà sản xuất mô hình lớn cần tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và chi phí tính toán, để xử lý đủ thông tin đồng thời cân nhắc đến tính toán chú ý và hạn chế chi phí tính toán.