Kemampuan Teks Panjang: Pertarungan Baru antara Pabrikan Model Besar
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan luar biasa, dari 4000 token melonjak menjadi 400.000 token. Kemajuan teknologi ini tampaknya telah menjadi "standar baru" bagi perusahaan model besar.
Di seluruh dunia, perusahaan seperti OpenAI dan Anthropic telah memperluas panjang konteks hingga puluhan ribu bahkan 100.000 token. Di dalam negeri, Kimi Chat yang diluncurkan oleh Yuezhiduan mendukung input hingga 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh CUHK dan MIT juga secara signifikan meningkatkan panjang teks model.
Banyak perusahaan model besar terkemuka dan lembaga penelitian menjadikan kemampuan teks panjang sebagai arah peningkatan utama. Perusahaan-perusahaan ini juga merupakan kesayangan pasar modal saat ini, mendapatkan dukungan pendanaan yang besar.
Apa arti terobosan teknologi teks panjang? Secara superficial, ini memungkinkan model untuk memproses teks input yang lebih panjang, dengan kemampuan membaca yang meningkat secara signifikan. Pada tingkat yang lebih dalam, ini mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian ilmiah.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk konteks yang lebih panjang tidak secara langsung berbanding lurus dengan peningkatan efektivitas. Kuncinya adalah bagaimana model dapat memanfaatkan informasi konteks dengan efektif.
Saat ini, eksplorasi teks panjang di industri masih terus berlanjut, 400.000 token mungkin hanya merupakan awal. Teknologi ini diharapkan dapat mengatasi beberapa masalah mendasar dari model besar, sekaligus mendorong penerapan industri ke lapangan, menandakan bahwa model besar telah memasuki tahap perkembangan baru.
Mengapa harus "menggulung" teks panjang?
Pendiri sisi gelap bulan, Yang Zhilin, menyatakan bahwa keterbatasan panjang inputlah yang menyebabkan banyak aplikasi model besar menghadapi kesulitan dalam implementasinya. Misalnya, dalam skenario seperti karakter virtual, pengembangan game, dan analisis bidang profesional, kemampuan teks pendek yang tidak memadai dapat berdampak serius pada hasil.
Teknologi teks panjang sangat penting untuk aplikasi Agent dan AI yang berasal di masa depan. Ini dapat membantu Agent dalam membuat keputusan perencanaan yang lebih baik, serta memberikan pengalaman pengguna yang koheren untuk aplikasi AI.
Yang Zhilin percaya bahwa batas atas model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana jumlah langkah eksekusi merupakan panjang konteks. Teks panjang dapat memberikan lebih banyak konteks dan informasi detail, yang membantu model untuk memahami dan menarik kesimpulan dengan lebih akurat.
Dengan Kimi Chat yang baru dirilis oleh Moon's Dark Side, kita dapat melihat fitur baru dari model besar di era teks panjang:
Melakukan ekstraksi informasi, ringkasan, dan analisis pada teks yang sangat panjang
Mengubah seluruh makalah menjadi kode secara langsung
Mewujudkan dialog peran yang lebih mendalam
Fungsi-fungsi ini menunjukkan bahwa robot percakapan sedang berkembang menuju arah profesionalisasi, personalisasi, dan kedalaman, dan diharapkan menjadi alat baru untuk penerapan industri.
Yang Zhilin memperkirakan, pasar model besar domestik akan terbagi menjadi dua kubu, yaitu toB dan toC, di mana di bidang toC mungkin akan muncul aplikasi super yang berbasis model yang dikembangkan sendiri.
Dilema "segitiga yang tidak mungkin" dari teks panjang
Teknologi teks panjang menghadapi dilema "segitiga tak mungkin" dari panjang teks, perhatian, dan daya komputasi:
Semakin panjang teks, semakin sulit untuk memfokuskan informasi kunci
Perhatian terbatas, teks pendek sulit untuk mengekspresikan informasi yang kompleks
Memproses teks panjang membutuhkan banyak daya komputasi, biayanya sangat tinggi
Akar dari dilema ini terletak pada mekanisme perhatian diri dalam struktur Transformer. Mekanisme ini membuat jumlah perhitungan meningkat secara kuadratik seiring dengan panjang konteks, yang menyebabkan tantangan besar dalam pengolahan teks panjang.
Saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang
Mengoptimalkan perhitungan mekanisme perhatian diri
Menggunakan metode optimasi model
Solusi pertama menangani dengan memecah teks panjang dan mencari potongan teks pendek. Solusi kedua membangun kembali cara perhitungan perhatian diri, seperti teknologi LongLoRA. Solusi ketiga berfokus pada optimasi model itu sendiri.
Dilema "trik tidak mungkin" untuk teks panjang masih belum terpecahkan, tetapi telah mengklarifikasi arah eksplorasi produsen model besar: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi, untuk menangani informasi yang cukup sambil memperhatikan perhitungan perhatian dan biaya daya komputasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
14 Suka
Hadiah
14
5
Bagikan
Komentar
0/400
ForkItAllDay
· 19jam yang lalu
Sungguh menggulung, semua bergantung pada tumpukan memori.
Lihat AsliBalas0
GasFeePhobia
· 08-06 09:24
Memori meningkat tajam Dompet juga meledak
Lihat AsliBalas0
TokenGuru
· 08-06 09:21
Jumlah token ini, saya belum pernah melihat angka sebesar ini saat penambangan, proyek lama di awal peluncuran mainnet tidak pernah semengerikan ini.
Lihat AsliBalas0
LiquidityHunter
· 08-06 09:17
啧 Melampaui level 40w token, lihat siapa yang pertama kali tidak dapat menahan Daya Komputasi.
Lihat AsliBalas0
TokenStorm
· 08-06 09:03
token maksimal 4K sudah terjebak, sekarang 40W, siapa yang mau tambahkan leverage untuk naikkan sedikit
Kemampuan pemrosesan teks panjang model besar melampaui 400.000 token, memulai putaran kompetisi teknologi baru.
Kemampuan Teks Panjang: Pertarungan Baru antara Pabrikan Model Besar
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan luar biasa, dari 4000 token melonjak menjadi 400.000 token. Kemajuan teknologi ini tampaknya telah menjadi "standar baru" bagi perusahaan model besar.
Di seluruh dunia, perusahaan seperti OpenAI dan Anthropic telah memperluas panjang konteks hingga puluhan ribu bahkan 100.000 token. Di dalam negeri, Kimi Chat yang diluncurkan oleh Yuezhiduan mendukung input hingga 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh CUHK dan MIT juga secara signifikan meningkatkan panjang teks model.
Banyak perusahaan model besar terkemuka dan lembaga penelitian menjadikan kemampuan teks panjang sebagai arah peningkatan utama. Perusahaan-perusahaan ini juga merupakan kesayangan pasar modal saat ini, mendapatkan dukungan pendanaan yang besar.
Apa arti terobosan teknologi teks panjang? Secara superficial, ini memungkinkan model untuk memproses teks input yang lebih panjang, dengan kemampuan membaca yang meningkat secara signifikan. Pada tingkat yang lebih dalam, ini mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian ilmiah.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk konteks yang lebih panjang tidak secara langsung berbanding lurus dengan peningkatan efektivitas. Kuncinya adalah bagaimana model dapat memanfaatkan informasi konteks dengan efektif.
Saat ini, eksplorasi teks panjang di industri masih terus berlanjut, 400.000 token mungkin hanya merupakan awal. Teknologi ini diharapkan dapat mengatasi beberapa masalah mendasar dari model besar, sekaligus mendorong penerapan industri ke lapangan, menandakan bahwa model besar telah memasuki tahap perkembangan baru.
Mengapa harus "menggulung" teks panjang?
Pendiri sisi gelap bulan, Yang Zhilin, menyatakan bahwa keterbatasan panjang inputlah yang menyebabkan banyak aplikasi model besar menghadapi kesulitan dalam implementasinya. Misalnya, dalam skenario seperti karakter virtual, pengembangan game, dan analisis bidang profesional, kemampuan teks pendek yang tidak memadai dapat berdampak serius pada hasil.
Teknologi teks panjang sangat penting untuk aplikasi Agent dan AI yang berasal di masa depan. Ini dapat membantu Agent dalam membuat keputusan perencanaan yang lebih baik, serta memberikan pengalaman pengguna yang koheren untuk aplikasi AI.
Yang Zhilin percaya bahwa batas atas model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana jumlah langkah eksekusi merupakan panjang konteks. Teks panjang dapat memberikan lebih banyak konteks dan informasi detail, yang membantu model untuk memahami dan menarik kesimpulan dengan lebih akurat.
Dengan Kimi Chat yang baru dirilis oleh Moon's Dark Side, kita dapat melihat fitur baru dari model besar di era teks panjang:
Fungsi-fungsi ini menunjukkan bahwa robot percakapan sedang berkembang menuju arah profesionalisasi, personalisasi, dan kedalaman, dan diharapkan menjadi alat baru untuk penerapan industri.
Yang Zhilin memperkirakan, pasar model besar domestik akan terbagi menjadi dua kubu, yaitu toB dan toC, di mana di bidang toC mungkin akan muncul aplikasi super yang berbasis model yang dikembangkan sendiri.
Dilema "segitiga yang tidak mungkin" dari teks panjang
Teknologi teks panjang menghadapi dilema "segitiga tak mungkin" dari panjang teks, perhatian, dan daya komputasi:
Akar dari dilema ini terletak pada mekanisme perhatian diri dalam struktur Transformer. Mekanisme ini membuat jumlah perhitungan meningkat secara kuadratik seiring dengan panjang konteks, yang menyebabkan tantangan besar dalam pengolahan teks panjang.
Saat ini ada tiga solusi utama:
Solusi pertama menangani dengan memecah teks panjang dan mencari potongan teks pendek. Solusi kedua membangun kembali cara perhitungan perhatian diri, seperti teknologi LongLoRA. Solusi ketiga berfokus pada optimasi model itu sendiri.
Dilema "trik tidak mungkin" untuk teks panjang masih belum terpecahkan, tetapi telah mengklarifikasi arah eksplorasi produsen model besar: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi, untuk menangani informasi yang cukup sambil memperhatikan perhitungan perhatian dan biaya daya komputasi.