Великі моделі здатні обробляти текст довжиною понад 400 тисяч токенів, новий етап технологічної конкуренції розпочато.

Здатність до довгих текстів: новий раунд боротьби серед постачальників великих моделей

Великі моделі підвищують свої можливості обробки довгих текстів з вражаючою швидкістю, з 4000 токенів до 400 000 токенів. Цей технологічний прорив, здається, став новим "стандартом" для компаній, що займаються великими моделями.

На міжнародній арені компанії, такі як OpenAI та Anthropic, розширили довжину контексту до десятків тисяч, а навіть до 100 тисяч токенів. В Україні Kimi Chat, розроблений Moon's Dark Side, підтримує введення до 400 тисяч токенів. Технологія LongLoRA, розроблена спільно Університетом Гонконгу та MIT, також значно підвищила довжину тексту моделей.

Безліч провідних компаній з великими моделями та наукових установ зосередилися на вдосконаленні можливостей роботи з довгими текстами. Ці підприємства також є улюбленцями сучасного капітального ринку та отримали значну фінансову підтримку.

Що означає прорив у технології довгих текстів? На поверхневому рівні це дозволяє моделям обробляти довші вхідні тексти, значно покращуючи їхні читацькі здібності. На глибшому рівні це сприяє впровадженню великих моделей у професійних сферах, таких як фінанси, право, наука.

Однак довжина тексту не завжди є показником його якості. Дослідження показують, що підтримка моделі для більш довгого контексту не завжди призводить до покращення результатів. Ключовим є те, як модель ефективно використовує інформацію з контексту.

В даний час дослідження довгих текстів у галузі триває, 400 тисяч токенів може бути лише початком. Ця технологія має потенціал вирішити деякі проблеми великих моделей, а також сприяти реалізації промислових застосувань, що знаменує нову стадію розвитку великих моделей.

Чому потрібно "скручувати" довгі тексти?

Засновник "Темної сторони місяця" Ян Чжилінь зазначив, що саме через обмеження на довжину введення виникає безліч труднощів у впровадженні великих моделей. Наприклад, у таких сценаріях, як віртуальні персонажі, розробка ігор, аналітика в професійних сферах, недостатня здатність короткого тексту може серйозно вплинути на результати.

Технологія довгих текстів також має велике значення для майбутніх агентів та AI-нативних застосунків. Вона може допомогти агентам у кращому плануванні рішень, забезпечуючи зв'язний користувацький досвід для AI-застосунків.

Ян Чжилин вважає, що межі великої моделі визначаються спільно одноетапною здатністю та кількістю виконуваних кроків, де кількість виконуваних кроків — це довжина контексту. Довгі тексти можуть надати більше контексту та детальної інформації, що допомагає моделі точніше розуміти і міркувати.

З новим Kimi Chat, випущеним через місячну темну сторону, ми можемо зазирнути в нові функції великих моделей епохи довгих текстів:

  • Витягування, підсумовування та аналіз інформації з наддовгих текстів
  • Прямо перетворити всю статтю на код
  • Реалізувати більш глибокі рольові діалоги

Ці функції демонструють, що діалогові роботи розвиваються в напрямку професіоналізації, індивідуалізації та поглиблення, і мають потенціал стати новим інструментом для реалізації в промисловості.

Ян Чжилин очікує, що внутрішній ринок великих моделей поділиться на два табори: toB і toC, і в області toC можуть з'явитися супер застосунки на основі самостійно розроблених моделей.

Дилема "неможливого трикутника" для довгих текстів

Довгі текстові технології стикаються з "неможливою трійцею" проблем, що стосуються довжини тексту, уваги та обчислювальної потужності:

  • Чим довше текст, тим важче зосередитися на ключовій інформації
  • Обмежена увага, короткий текст важко передати складну інформацію
  • Обробка довгих текстів потребує великої обчислювальної потужності, що є дорогим.

Ця проблема виникає через механізм самоуваги в структурі Transformer. Цей механізм призводить до експоненційного зростання обсягу обчислень в залежності від довжини контексту, що створює великі труднощі при обробці довгих текстів.

В даний час існує три основні рішення:

  1. Використання зовнішніх інструментів для обробки довгих текстів
  2. Оптимізація обчислень механізму самовикористання
  3. Використання методів оптимізації моделі

Перший варіант обробляє довгі тексти шляхом їх розподілу на короткі фрагменти. Другий варіант реконструює спосіб обчислення самої уваги, як технологія LongLoRA. Третій варіант зосереджується на оптимізації самого моделі.

Довгий текст "неможливого трикутника" поки що не має розв'язання, але чітко визначено напрямок досліджень виробників великих моделей: шукати найкращий баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб обробляти достатню інформацію, при цьому враховуючи обчислення уваги та витрати обчислювальної потужності.

TOKEN-4.7%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Поділіться
Прокоментувати
0/400
GasFeePhobiavip
· 3год тому
Пам'ять зростає, Гаманець також вибухає
Переглянути оригіналвідповісти на0
TokenGuruvip
· 3год тому
Ця кількість токенів, під час майнінгу я ніколи не бачив такої великої цифри, навіть у ранніх проєктах на основній мережі не було так страшно.
Переглянути оригіналвідповісти на0
LiquidityHuntervip
· 3год тому
啧 Пробивши рівень в 40 тис. токенів, подивимось, хто перший не витримає обчислювальну потужність.
Переглянути оригіналвідповісти на0
TokenStormvip
· 4год тому
токен максимальний 4K вже зв'язано, зараз 40W, хто додасть мені важіль, щоб прокачати?
Переглянути оригіналвідповісти на0
  • Закріпити