Büyük model uzun metin işleme kapasitesi 400.000 token'ı aştı, yeni bir teknik rekabet başladı.

Uzun Metin Yeteneği: Büyük Model Üreticileri Yeni Bir Rekabet Alanında

Büyük modeller, uzun metin işleme yeteneklerini 4000 token'dan 400,000 token'a yükselterek şaşırtıcı bir hızla gelişiyor. Bu teknolojik ilerleme, büyük model şirketlerinin yeni "standart"ı haline gelmiş gibi görünüyor.

Dünya genelinde, OpenAI, Anthropic gibi şirketler bağlam uzunluğunu on binlerce hatta 100 bin token'a kadar uzatmaya başladı. Ülkemizde, Ay'ın Karanlık Yüzü tarafından sunulan Kimi Chat, 400 bin token'a kadar girişi destekliyor. Hong Kong Çincisi Üniversitesi ve MIT tarafından ortak geliştirilen LongLoRA teknolojisi de modelin metin uzunluğunu önemli ölçüde artırdı.

Birçok önde gelen büyük model şirketi ve araştırma kurumu, uzun metin yeteneklerini önemli bir yükseltme yönü olarak belirlemiştir. Bu şirketler, şu anda sermaye piyasasının gözdesi olup, büyük miktarda finansman desteği almışlardır.

Uzun metin teknolojisindeki atılım ne anlama geliyor? Yüzeyde, bu, modellerin daha uzun giriş metinlerini işleyebilmesini sağlıyor ve okuma yetenekleri önemli ölçüde artıyor. Daha derin bir bakış açısıyla, bu, büyük modellerin finans, hukuk, bilimsel araştırmalar gibi uzmanlık alanlarında uygulanmasını teşvik ediyor.

Ancak, metin uzunluğu her zaman daha iyi değildir. Araştırmalar, modelin daha uzun bağlamı desteklemesi ile performans artışı arasında doğrudan bir ilişki olmadığını göstermektedir. Anahtar, modelin bağlam bilgisini ne kadar etkili kullandığıdır.

Şu anda endüstride uzun metinler üzerindeki keşifler devam ediyor, 400.000 token belki de sadece bir başlangıç. Bu teknoloji, büyük modellerin bazı acı noktalarını çözme umudu taşıyor ve aynı zamanda endüstriyel uygulamaların hayata geçmesini teşvik ediyor, büyük modellerin yeni bir gelişim aşamasına girdiğini gösteriyor.

Neden uzun metinleri "sarmalamalıyız"?

Ay'ın karanlık yüzü kurucusu Yang Zhilin, giriş uzunluğu kısıtlamalarının birçok büyük model uygulamasının hayata geçirilmesinde zorluklara neden olduğunu belirtti. Örneğin sanal karakterler, oyun geliştirme, uzmanlık alanı analizi gibi senaryolarda, kısa metinlerin yetersizliği etkileri ciddi şekilde olumsuz etkileyebilir.

Uzun metin teknolojisi, gelecekteki Agent ve AI yerel uygulamaları için de çok önemlidir. Agent'ların daha iyi planlama kararları vermesine yardımcı olur ve AI uygulamalarına tutarlı bir kullanıcı deneyimi sunar.

Yang Zhilin, büyük modellerin sınırının tek adım yeteneği ve yürütme adım sayısı tarafından belirlendiğini düşünüyor; burada yürütme adım sayısı bağlam uzunluğudur. Uzun metinler daha fazla bağlam ve ayrıntı bilgisi sağlayarak modelin daha doğru bir şekilde anlamasına ve akıl yürütmesine yardımcı olur.

Ay'ın karanlık yüzü tarafından yeni yayınlanan Kimi Chat ile uzun metin çağındaki büyük modellerin yeni özelliklerine bir göz atabiliriz:

  • Uzun metinlerden bilgi çıkarma, özetleme ve analiz yapma
  • Tüm makaleyi doğrudan koda dönüştür
  • Daha derin rol yapma diyalogları gerçekleştirin

Bu işlevler, sohbet robotlarının profesyonelleşme, kişiselleşme ve derinleşme yönünde geliştiğini gösteriyor ve endüstride yeni bir uygulama aracı olma umudunu taşıyor.

Yang Zhilin, yerli büyük model pazarının toB ve toC olmak üzere iki kamp olarak ayrılmasını bekliyor ve toC alanında kendi geliştirilen modellere dayanan süper uygulamaların ortaya çıkabileceğini belirtiyor.

Uzun Metnin "İmkansız Üçgen" Çelişkisi

Uzun metin teknolojisi, metin uzunluğu, dikkat ve hesaplama gücünün "imkansız üçgen" sıkıntısıyla karşı karşıya kalmaktadır:

  • Metin ne kadar uzunsa, anahtar bilgileri odaklamak o kadar zorlaşıyor.
  • Dikkat sınırlıdır, kısa metinler karmaşık bilgileri ifade etmekte zordur.
  • Uzun metinleri işlemek için büyük miktarda hesaplama gücü gerekir, maliyet yüksektir.

Bu zorluğun kaynağı, Transformer yapısındaki kendine dikkat mekanizmasıdır. Bu mekanizma, hesaplama miktarının bağlam uzunluğuyla birlikte kare seviyesinde artmasına neden olarak, uzun metinlerin işlenmesinde büyük zorluklar yaratmaktadır.

Şu anda üç ana çözüm bulunmaktadır:

  1. Uzun metinleri işlemek için dış araçlardan yararlanma
  2. Özelleştirilmiş dikkat mekanizması hesaplamasını optimize et
  3. Model optimizasyon yöntemlerini kullanma

Birinci yöntem, uzun metinleri bölerek kısa metin parçalarını aramayı içerir. İkinci yöntem, LongLoRA teknolojisi gibi kendine dikkat hesaplama yöntemini yeniden yapılandırır. Üçüncü yöntem ise modelin kendisini optimize etmeye odaklanır.

Uzun metinlerin "imkansız üçgen" sıkıntısı şu an için çözülemedi, ancak büyük model üreticilerinin keşif yönünü netleştirdi: Metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi denge noktasını aramak, yeterli bilgiyi işlerken dikkat hesaplamasını ve hesaplama maliyetini de göz önünde bulundurmak.

TOKEN-3.5%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 6
  • Repost
  • Share
Comment
0/400
MoonRocketTeamvip
· 08-08 19:48
Bu AI roketi atmosferin dışına fırlamak üzere. Yeniden yükleme bekleniyor.
View OriginalReply0
ForkItAllDayvip
· 08-06 16:13
Gerçek katman tamamen belleği biriktirmeye bağlıdır.
View OriginalReply0
GasFeePhobiavip
· 08-06 09:24
Hafıza miktarı patlayarak yükseliş gösteriyor, Cüzdan da patlıyor.
View OriginalReply0
TokenGuruvip
· 08-06 09:21
Bu token sayısı, Mining sırasında böyle büyük bir sayı görmedim, eski projelerin erken aşamada Ana Ağ'a geçişi bile bu kadar korkutucu değildi.
View OriginalReply0
LiquidityHuntervip
· 08-06 09:17
Tüh, 40w token seviyesini aşalım, bakalım hangi firma önce dayanamayacak Bilgi İşlem Gücü aşımına.
View OriginalReply0
TokenStormvip
· 08-06 09:03
token maksimum 4K iken bağlı, şimdi 40W oldu, bana bir kaldıraç ekleyip bir dalga yapacak kimse var mı?
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)