قدرة النص الطويل: جولة جديدة من الصراع بين شركات النماذج الكبيرة
تعمل النماذج الكبيرة على تحسين قدرتها على معالجة النصوص الطويلة بسرعة مذهلة، حيث زادت من 4000 توكن إلى 400000 توكن. يبدو أن هذه التقنية أصبحت "المعيار الجديد" لشركات النماذج الكبيرة.
على الصعيد الدولي، قامت شركات مثل OpenAI وAnthropic بتوسيع طول السياق ليصل إلى عشرات الآلاف أو حتى 100000 توكن. في الداخل، أطلقت Moon's Dark Side تطبيق Kimi Chat الذي يدعم إدخال يصل إلى 400000 توكن. كما أن تقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا قد زادت بشكل كبير من طول النص في النموذج.
تعتبر العديد من الشركات الكبرى في مجال النماذج الكبيرة والمراكز البحثية أن قدرة معالجة النصوص الطويلة هي اتجاه رئيسي في الترقية. وهذه الشركات هي بالفعل المفضلة في السوق المالية الحالية، حيث حصلت على دعم تمويلي كبير.
ماذا يعني突破技术 النص الطويل؟ على السطح، هذا يجعل النموذج قادرًا على معالجة نصوص الإدخال الأطول، مما يعزز قدرته على القراءة بشكل ملحوظ. على مستوى أعمق، فإنه يدفع تطبيق النماذج الكبيرة في مجالات متخصصة مثل المالية والقانون والبحث العلمي.
ومع ذلك، فإن طول النص ليس كلما زاد كان أفضل. أظهرت الأبحاث أن دعم النموذج للسياق الأطول لا يعني بالضرورة تحسين النتائج. المفتاح هو كيفية استفادة النموذج بفعالية من معلومات السياق.
لا تزال الصناعة تستكشف النصوص الطويلة، وقد تكون 400000 توكن مجرد بداية. من المتوقع أن تحل هذه التقنية بعض المشكلات المؤلمة للنماذج الكبيرة، بينما تدفع أيضًا تطبيقات الصناعة إلى التنفيذ، مما يدل على أن النماذج الكبيرة دخلت مرحلة جديدة من التطوير.
لماذا يجب "لف" النصوص الطويلة؟
قال مؤسس الجانب المظلم من القمر يانغ زهي لين إن قيود طول الإدخال هي السبب في العديد من الصعوبات التي تواجه تطبيقات النماذج الكبيرة. على سبيل المثال، في مشاهد مثل الشخصيات الافتراضية، وتطوير الألعاب، وتحليل المجالات المتخصصة، فإن ضعف القدرة على معالجة النصوص القصيرة يمكن أن يؤثر بشكل كبير على النتائج.
تكنولوجيا النصوص الطويلة مهمة أيضًا لمستقبل الوكلاء وتطبيقات الذكاء الاصطناعي الأصلية. يمكن أن تساعد الوكلاء في اتخاذ قرارات تخطيط أفضل، وتوفر تجربة مستخدم متسقة لتطبيقات الذكاء الاصطناعي.
يعتقد يانغ زهي لين أن الحد الأقصى للنموذج الكبير تحدده القدرة على الخطوة الواحدة وعدد خطوات التنفيذ، حيث أن عدد خطوات التنفيذ هو طول السياق. يمكن للنصوص الطويلة أن توفر المزيد من السياق ومعلومات التفاصيل، مما يساعد النموذج على فهم واستنتاج بدقة أكبر.
من خلال Kimi Chat الذي تم إطلاقه حديثًا من الجانب المظلم للقمر، يمكننا إلقاء نظرة على الميزات الجديدة للنماذج الكبيرة في عصر النصوص الطويلة:
تظهر هذه الميزات أن الروبوتات الحوارية تتجه نحو التخصص، والتخصيص، والعُمق، مما يُحتمل أن يجعلها أداة جديدة لتحقيق الاستفادة في الصناعة.
يتوقع يانغ زhi لين أن سوق النماذج الكبيرة في البلاد سينقسم إلى معسكرين: toB و toC، ومن المحتمل أن تظهر تطبيقات فائقة تعتمد على نماذج مطورة داخليًا في مجال toC.
معضلة "المثلث المستحيل" للنصوص الطويلة
تواجه التقنيات النصية الطويلة "مثلث الاستحالة" من حيث طول النص، والانتباه، وقدرة الحوسبة:
كلما كان النص أطول، كان من الصعب التركيز على المعلومات الرئيسية
الانتباه محدود، والنصوص القصيرة يصعب عليها التعبير عن المعلومات المعقدة
معالجة النصوص الطويلة تتطلب طاقة حاسوبية كبيرة، مما يجعل التكلفة مرتفعة
تعود جذور هذه الأزمة إلى آلية الانتباه الذاتي في هيكل المحول (Transformer). تزداد كمية الحسابات بشكل متزايد مع طول السياق، مما يؤدي إلى تحديات كبيرة في معالجة النصوص الطويلة.
حاليًا هناك ثلاث حلول رئيسية:
استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة
تحسين حساب الآلية الذاتية الانتباه
استخدام طرق تحسين النموذج
الخيار الأول يتعامل مع تقسيم النصوص الطويلة واسترجاع مقاطع نصية قصيرة. الخيار الثاني يعيد بناء طريقة حساب الانتباه الذاتي، مثل تقنية LongLoRA. الخيار الثالث يركز على تحسين النموذج نفسه.
تظل "مثلث المستحيل" في النص الطويل دون حل مؤقت، ولكن تم تحديد اتجاه استكشاف شركات النماذج الكبرى: البحث عن أفضل نقطة توازن بين طول النص والانتباه وقوة الحوسبة، من أجل معالجة معلومات كافية مع مراعاة حساب الانتباه وتكاليف القوة الحاسوبية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 17
أعجبني
17
6
إعادة النشر
مشاركة
تعليق
0/400
MoonRocketTeam
· 08-08 19:48
هذه الصاروخ AI على وشك الخروج من الغلاف الجوي. في انتظار تزويد الإمدادات.
شاهد النسخة الأصليةرد0
ForkItAllDay
· 08-06 16:13
التحقق الحقيقي يعتمد بالكامل على ذاكرة الوصول العشوائي
شاهد النسخة الأصليةرد0
GasFeePhobia
· 08-06 09:24
ارتفع حجم الذاكرة المحفظة أيضًا انفجرت
شاهد النسخة الأصليةرد0
TokenGuru
· 08-06 09:21
هذا الرقم من التوكنات، لم أرَ عددًا بهذا الحجم أثناء التعدين، حتى المشاريع القديمة في بداياتها عند الانتقال إلى الشبكة الرئيسية لم تكن بهذا الرعب.
شاهد النسخة الأصليةرد0
LiquidityHunter
· 08-06 09:17
تسك ، اخترق حجم الرمز المميز 40 واط ، وشاهد أيهما لا يمكنه الاحتفاظ بالسحب على المكشوف لقوة الحوسبة أولا
شاهد النسخة الأصليةرد0
TokenStorm
· 08-06 09:03
تم الرفع فئة 4K كحد أقصى، والآن 40W، من سيوفر لي رافعة لأقوم بزيادة السعر؟
قدرة معالجة النصوص الطويلة للنماذج الكبيرة تتجاوز 400000 توكن و تبدأ جولة جديدة من المنافسة التقنية
قدرة النص الطويل: جولة جديدة من الصراع بين شركات النماذج الكبيرة
تعمل النماذج الكبيرة على تحسين قدرتها على معالجة النصوص الطويلة بسرعة مذهلة، حيث زادت من 4000 توكن إلى 400000 توكن. يبدو أن هذه التقنية أصبحت "المعيار الجديد" لشركات النماذج الكبيرة.
على الصعيد الدولي، قامت شركات مثل OpenAI وAnthropic بتوسيع طول السياق ليصل إلى عشرات الآلاف أو حتى 100000 توكن. في الداخل، أطلقت Moon's Dark Side تطبيق Kimi Chat الذي يدعم إدخال يصل إلى 400000 توكن. كما أن تقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا قد زادت بشكل كبير من طول النص في النموذج.
تعتبر العديد من الشركات الكبرى في مجال النماذج الكبيرة والمراكز البحثية أن قدرة معالجة النصوص الطويلة هي اتجاه رئيسي في الترقية. وهذه الشركات هي بالفعل المفضلة في السوق المالية الحالية، حيث حصلت على دعم تمويلي كبير.
ماذا يعني突破技术 النص الطويل؟ على السطح، هذا يجعل النموذج قادرًا على معالجة نصوص الإدخال الأطول، مما يعزز قدرته على القراءة بشكل ملحوظ. على مستوى أعمق، فإنه يدفع تطبيق النماذج الكبيرة في مجالات متخصصة مثل المالية والقانون والبحث العلمي.
ومع ذلك، فإن طول النص ليس كلما زاد كان أفضل. أظهرت الأبحاث أن دعم النموذج للسياق الأطول لا يعني بالضرورة تحسين النتائج. المفتاح هو كيفية استفادة النموذج بفعالية من معلومات السياق.
لا تزال الصناعة تستكشف النصوص الطويلة، وقد تكون 400000 توكن مجرد بداية. من المتوقع أن تحل هذه التقنية بعض المشكلات المؤلمة للنماذج الكبيرة، بينما تدفع أيضًا تطبيقات الصناعة إلى التنفيذ، مما يدل على أن النماذج الكبيرة دخلت مرحلة جديدة من التطوير.
لماذا يجب "لف" النصوص الطويلة؟
قال مؤسس الجانب المظلم من القمر يانغ زهي لين إن قيود طول الإدخال هي السبب في العديد من الصعوبات التي تواجه تطبيقات النماذج الكبيرة. على سبيل المثال، في مشاهد مثل الشخصيات الافتراضية، وتطوير الألعاب، وتحليل المجالات المتخصصة، فإن ضعف القدرة على معالجة النصوص القصيرة يمكن أن يؤثر بشكل كبير على النتائج.
تكنولوجيا النصوص الطويلة مهمة أيضًا لمستقبل الوكلاء وتطبيقات الذكاء الاصطناعي الأصلية. يمكن أن تساعد الوكلاء في اتخاذ قرارات تخطيط أفضل، وتوفر تجربة مستخدم متسقة لتطبيقات الذكاء الاصطناعي.
يعتقد يانغ زهي لين أن الحد الأقصى للنموذج الكبير تحدده القدرة على الخطوة الواحدة وعدد خطوات التنفيذ، حيث أن عدد خطوات التنفيذ هو طول السياق. يمكن للنصوص الطويلة أن توفر المزيد من السياق ومعلومات التفاصيل، مما يساعد النموذج على فهم واستنتاج بدقة أكبر.
من خلال Kimi Chat الذي تم إطلاقه حديثًا من الجانب المظلم للقمر، يمكننا إلقاء نظرة على الميزات الجديدة للنماذج الكبيرة في عصر النصوص الطويلة:
تظهر هذه الميزات أن الروبوتات الحوارية تتجه نحو التخصص، والتخصيص، والعُمق، مما يُحتمل أن يجعلها أداة جديدة لتحقيق الاستفادة في الصناعة.
يتوقع يانغ زhi لين أن سوق النماذج الكبيرة في البلاد سينقسم إلى معسكرين: toB و toC، ومن المحتمل أن تظهر تطبيقات فائقة تعتمد على نماذج مطورة داخليًا في مجال toC.
معضلة "المثلث المستحيل" للنصوص الطويلة
تواجه التقنيات النصية الطويلة "مثلث الاستحالة" من حيث طول النص، والانتباه، وقدرة الحوسبة:
تعود جذور هذه الأزمة إلى آلية الانتباه الذاتي في هيكل المحول (Transformer). تزداد كمية الحسابات بشكل متزايد مع طول السياق، مما يؤدي إلى تحديات كبيرة في معالجة النصوص الطويلة.
حاليًا هناك ثلاث حلول رئيسية:
الخيار الأول يتعامل مع تقسيم النصوص الطويلة واسترجاع مقاطع نصية قصيرة. الخيار الثاني يعيد بناء طريقة حساب الانتباه الذاتي، مثل تقنية LongLoRA. الخيار الثالث يركز على تحسين النموذج نفسه.
تظل "مثلث المستحيل" في النص الطويل دون حل مؤقت، ولكن تم تحديد اتجاه استكشاف شركات النماذج الكبرى: البحث عن أفضل نقطة توازن بين طول النص والانتباه وقوة الحوسبة، من أجل معالجة معلومات كافية مع مراعاة حساب الانتباه وتكاليف القوة الحاسوبية.