Capacidad de texto largo: nueva ronda de lucha entre los proveedores de grandes modelos
Los grandes modelos están mejorando su capacidad de procesamiento de textos largos a una velocidad asombrosa, pasando de 4000 tokens a 400,000 tokens. Este avance tecnológico parece haberse convertido en un "estándar" nuevo para las empresas de grandes modelos.
A nivel internacional, empresas como OpenAI y Anthropic han ampliado la longitud del contexto a decenas de miles e incluso 100,000 tokens. En el país, Kimi Chat, lanzado por la Cara Oscura de la Luna, admite entradas de hasta 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad China de Hong Kong y el MIT, también ha aumentado significativamente la longitud del texto del modelo.
Numerosas empresas de modelos grandes y organizaciones de investigación están enfocándose en mejorar la capacidad de procesamiento de textos largos. Estas empresas también son precisamente las favoritas en el mercado de capitales actual, recibiendo un gran apoyo financiero.
¿Qué significa la ruptura de la tecnología de texto largo? A primera vista, esto permite que los modelos manejen textos de entrada más largos, mejorando significativamente su capacidad de lectura. En un nivel más profundo, impulsa la aplicación de grandes modelos en campos profesionales como las finanzas, el derecho y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor. Los estudios muestran que no se puede establecer una relación directa entre el soporte del modelo para contextos más largos y la mejora del rendimiento. La clave está en cómo el modelo utiliza de manera efectiva la información del contexto.
La exploración de textos largos en la industria aún continúa, 400,000 tokens podrían ser solo el comienzo. Esta tecnología tiene el potencial de resolver algunos de los problemas críticos de los grandes modelos, al tiempo que impulsa la implementación en la industria, marcando la entrada de los grandes modelos en una nueva etapa de desarrollo.
¿Por qué "enrollar" textos largos?
El fundador de la Cara Oscura de la Luna, Yang Zhilin, declaró que debido a las limitaciones en la longitud de entrada, ha surgido una gran dificultad para la implementación de muchas aplicaciones de modelos grandes. Por ejemplo, en escenarios como personajes virtuales, desarrollo de juegos y análisis en campos profesionales, la insuficiencia en la capacidad de texto corto puede afectar gravemente los resultados.
La tecnología de texto largo también es muy importante para el futuro de las aplicaciones nativas de Agent y AI. Puede ayudar a los Agent a tomar decisiones de planificación más efectivas y proporcionar una experiencia de usuario coherente para las aplicaciones de AI.
Yang Zhilin considera que el límite de los grandes modelos está determinado conjuntamente por la capacidad de un solo paso y el número de pasos de ejecución, donde el número de pasos de ejecución se refiere a la longitud del contexto. Los textos largos pueden proporcionar más contexto e información detallada, lo que ayuda al modelo a entender y razonar con mayor precisión.
A través de Kimi Chat, recién lanzado por Dark Side of the Moon, podemos vislumbrar las nuevas funciones de los grandes modelos en la era del texto largo:
Realizar extracción, resumen y análisis de información de textos muy largos
Convertir todo el documento directamente en código
Lograr diálogos de rol más profundos
Estas funciones muestran que los chatbots están avanzando hacia una dirección de profesionalización, personalización y profundización, y se espera que se conviertan en una nueva herramienta para la implementación industrial.
Yang Zhilin prevé que el mercado nacional de grandes modelos se dividirá en dos campos: toB y toC, y que en el ámbito toC podrían surgir aplicaciones superpoderosas basadas en modelos desarrollados internamente.
La "tríada imposible" del texto largo
La tecnología de texto largo enfrenta la "tríada imposible" de la longitud del texto, la atención y la potencia de cálculo:
Cuanto más largo es el texto, más difícil es centrarse en la información clave.
La atención es limitada y los textos cortos son difíciles para expresar información compleja.
Procesar textos largos requiere una gran cantidad de poder de cómputo, lo que resulta costoso.
La raíz de este dilema radica en el mecanismo de autoatención en la estructura del Transformer. Este mecanismo hace que la carga computacional crezca exponencialmente con la longitud del contexto, lo que plantea un gran desafío para el procesamiento de textos largos.
Actualmente hay tres soluciones principales:
Utilizar herramientas externas para ayudar a procesar textos largos
Optimizar el cálculo del mecanismo de autoatención
Utilizar métodos de optimización de modelos
La primera solución maneja el procesamiento dividiendo textos largos y recuperando fragmentos de texto cortos. La segunda solución reconstruye la forma de cálculo de atención, como la tecnología LongLoRA. La tercera solución se centra en la optimización del modelo en sí.
El dilema del "triángulo imposible" en los textos largos aún no tiene solución, pero ha quedado claro la dirección de exploración de los fabricantes de modelos grandes: buscar el mejor punto de equilibrio entre la longitud del texto, la atención y el poder de cálculo, para manejar suficiente información al mismo tiempo que se considera el costo del cálculo de atención y del poder de cálculo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
17 me gusta
Recompensa
17
7
Republicar
Compartir
Comentar
0/400
MoonRocketTeam
· 08-08 19:48
¡Este cohete de IA está a punto de salir de la atmósfera! Esperando a que se carguen los suministros.
Ver originalesResponder0
ForkItAllDay
· 08-06 16:13
La verdadera carga se basa completamente en la acumulación de memoria de video.
Ver originalesResponder0
GasFeePhobia
· 08-06 09:24
La cantidad de memoria sube y la Billetera también explota
Ver originalesResponder0
TokenGuru
· 08-06 09:21
Este número de token, nunca he visto un número tan grande al hacer minería, los proyectos antiguos en sus primeras etapas al lanzar la mainnet no eran tan aterradores.
Ver originalesResponder0
LiquidityHunter
· 08-06 09:17
啧突破40w token的量级看看哪家先撑不住Potencia computacional透支
Ver originalesResponder0
TokenStorm
· 08-06 09:03
token máximo 4K y ahora está atado en 40W, ¿quién me da un apalancamiento para darle una ola?
La capacidad de procesamiento de texto largo de grandes modelos supera los 400,000 tokens, comenzando una nueva ronda de competencia tecnológica.
Capacidad de texto largo: nueva ronda de lucha entre los proveedores de grandes modelos
Los grandes modelos están mejorando su capacidad de procesamiento de textos largos a una velocidad asombrosa, pasando de 4000 tokens a 400,000 tokens. Este avance tecnológico parece haberse convertido en un "estándar" nuevo para las empresas de grandes modelos.
A nivel internacional, empresas como OpenAI y Anthropic han ampliado la longitud del contexto a decenas de miles e incluso 100,000 tokens. En el país, Kimi Chat, lanzado por la Cara Oscura de la Luna, admite entradas de hasta 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad China de Hong Kong y el MIT, también ha aumentado significativamente la longitud del texto del modelo.
Numerosas empresas de modelos grandes y organizaciones de investigación están enfocándose en mejorar la capacidad de procesamiento de textos largos. Estas empresas también son precisamente las favoritas en el mercado de capitales actual, recibiendo un gran apoyo financiero.
¿Qué significa la ruptura de la tecnología de texto largo? A primera vista, esto permite que los modelos manejen textos de entrada más largos, mejorando significativamente su capacidad de lectura. En un nivel más profundo, impulsa la aplicación de grandes modelos en campos profesionales como las finanzas, el derecho y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor. Los estudios muestran que no se puede establecer una relación directa entre el soporte del modelo para contextos más largos y la mejora del rendimiento. La clave está en cómo el modelo utiliza de manera efectiva la información del contexto.
La exploración de textos largos en la industria aún continúa, 400,000 tokens podrían ser solo el comienzo. Esta tecnología tiene el potencial de resolver algunos de los problemas críticos de los grandes modelos, al tiempo que impulsa la implementación en la industria, marcando la entrada de los grandes modelos en una nueva etapa de desarrollo.
¿Por qué "enrollar" textos largos?
El fundador de la Cara Oscura de la Luna, Yang Zhilin, declaró que debido a las limitaciones en la longitud de entrada, ha surgido una gran dificultad para la implementación de muchas aplicaciones de modelos grandes. Por ejemplo, en escenarios como personajes virtuales, desarrollo de juegos y análisis en campos profesionales, la insuficiencia en la capacidad de texto corto puede afectar gravemente los resultados.
La tecnología de texto largo también es muy importante para el futuro de las aplicaciones nativas de Agent y AI. Puede ayudar a los Agent a tomar decisiones de planificación más efectivas y proporcionar una experiencia de usuario coherente para las aplicaciones de AI.
Yang Zhilin considera que el límite de los grandes modelos está determinado conjuntamente por la capacidad de un solo paso y el número de pasos de ejecución, donde el número de pasos de ejecución se refiere a la longitud del contexto. Los textos largos pueden proporcionar más contexto e información detallada, lo que ayuda al modelo a entender y razonar con mayor precisión.
A través de Kimi Chat, recién lanzado por Dark Side of the Moon, podemos vislumbrar las nuevas funciones de los grandes modelos en la era del texto largo:
Estas funciones muestran que los chatbots están avanzando hacia una dirección de profesionalización, personalización y profundización, y se espera que se conviertan en una nueva herramienta para la implementación industrial.
Yang Zhilin prevé que el mercado nacional de grandes modelos se dividirá en dos campos: toB y toC, y que en el ámbito toC podrían surgir aplicaciones superpoderosas basadas en modelos desarrollados internamente.
La "tríada imposible" del texto largo
La tecnología de texto largo enfrenta la "tríada imposible" de la longitud del texto, la atención y la potencia de cálculo:
La raíz de este dilema radica en el mecanismo de autoatención en la estructura del Transformer. Este mecanismo hace que la carga computacional crezca exponencialmente con la longitud del contexto, lo que plantea un gran desafío para el procesamiento de textos largos.
Actualmente hay tres soluciones principales:
La primera solución maneja el procesamiento dividiendo textos largos y recuperando fragmentos de texto cortos. La segunda solución reconstruye la forma de cálculo de atención, como la tecnología LongLoRA. La tercera solución se centra en la optimización del modelo en sí.
El dilema del "triángulo imposible" en los textos largos aún no tiene solución, pero ha quedado claro la dirección de exploración de los fabricantes de modelos grandes: buscar el mejor punto de equilibrio entre la longitud del texto, la atención y el poder de cálculo, para manejar suficiente información al mismo tiempo que se considera el costo del cálculo de atención y del poder de cálculo.