Los investigadores de CMU proponen GILL: un método de inteligencia artificial para fusionar LLM con modelos de codificador y decodificador de imágenes

Noticias

HogarHogar / Noticias / Los investigadores de CMU proponen GILL: un método de inteligencia artificial para fusionar LLM con modelos de codificador y decodificador de imágenes

May 16, 2023

Los investigadores de CMU proponen GILL: un método de inteligencia artificial para fusionar LLM con modelos de codificador y decodificador de imágenes

Con el lanzamiento del nuevo GPT 4 de OpenAI, se introdujo la multimodalidad en modelos de lenguajes grandes. A diferencia de la versión anterior, GPT 3.5, que sólo se utiliza para permitir que el conocido ChatGPT tome texto

Con el lanzamiento del nuevo GPT 4 de OpenAI, se introdujo la multimodalidad en modelos de lenguajes grandes. A diferencia de la versión anterior, GPT 3.5, que sólo se utiliza para permitir que el conocido ChatGPT reciba entradas de texto, el último GPT-4 acepta texto e imágenes como entrada. Recientemente, un equipo de investigadores de la Universidad Carnegie Mellon propuso un enfoque llamado Generación de imágenes con modelos de lenguaje grandes (GILL), que se centra en ampliar los modelos de lenguaje multimodal para generar algunas imágenes únicas y geniales.

El método GILL permite el procesamiento de entradas que se mezclan con imágenes y texto para producir texto, recuperar imágenes y crear nuevas imágenes. GILL logra esto a pesar de que los modelos utilizan distintos codificadores de texto transfiriendo el espacio de incrustación de salida de un LLM de solo texto congelado al de un modelo de generación de imágenes congeladas. A diferencia de otros métodos que requieren datos de imagen y texto entrelazados, el mapeo se logra ajustando una pequeña cantidad de parámetros utilizando pares de imagen y título.

El equipo ha mencionado que este método combina modelos de lenguaje grandes para texto congelado con modelos para codificación y decodificación de imágenes que ya han sido entrenados. Puede proporcionar una amplia gama de capacidades multimodales, como recuperación de imágenes, producción de imágenes únicas y diálogo multimodal. Esto se ha hecho mapeando los espacios de inserción de las modalidades para fusionarlos. GILL trabaja acondicionando entradas mixtas de imágenes y texto y produce resultados que son coherentes y legibles.

Este método proporciona una red de mapeo eficaz que conecta el LLM con un modelo de generación de texto a imagen para obtener un gran rendimiento en la generación de imágenes. Esta red de mapeo convierte representaciones de texto ocultas en el espacio de incrustación de los modelos visuales. Al hacerlo, utiliza las poderosas representaciones de texto del LLM para producir resultados estéticamente consistentes.

Con este enfoque, el modelo puede recuperar imágenes de un conjunto de datos específico además de crear nuevas imágenes. El modelo elige si producir u obtener una imagen en el momento de la inferencia. Para realizar esta elección se utiliza un módulo de decisión aprendida que está condicionado a las representaciones ocultas del LLM. Este enfoque es computacionalmente eficiente ya que funciona sin la necesidad de ejecutar el modelo de generación de imágenes en el momento del entrenamiento.

Este método funciona mejor que los modelos de generación de referencia, especialmente para tareas que requieren un lenguaje más largo y sofisticado. En comparación, GILL supera al método de Difusión Estable en el procesamiento de textos de formato más largo, incluidos diálogos y discursos. GILL funciona mejor en la generación de imágenes condicionadas por diálogos que los modelos de generación no basados ​​en LLM, beneficiándose del contexto multimodal y generando imágenes que coinciden mejor con el texto dado. A diferencia de los modelos convencionales de texto a imagen que solo procesan entradas de texto, GILL también puede procesar entradas de imágenes y texto entrelazadas arbitrariamente.

En conclusión, GILL (Generación de imágenes con modelos de lenguaje grandes) parece prometedor ya que representa una gama más amplia de habilidades en comparación con los modelos de lenguaje multimodal anteriores. Su capacidad para superar a los modelos de generación no basados ​​en LLM en diversas tareas de conversión de texto a imagen que miden la dependencia del contexto lo convierte en una solución poderosa para tareas multimodales.

Revisar laPapelyPágina del proyecto.No olvides unirtenuestro SubReddit de 26k+ ML,Canal de discordia, yBoletín electrónico , donde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos perdimos algo, no dude en enviarnos un correo electrónico a[email protected]

🚀 Consulte más de 100 herramientas de IA en AI Tools Club

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático. Es una entusiasta de la ciencia de datos con buen pensamiento analítico y crítico, además de una Ardiente interés por adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de forma organizada.

PapelPágina del proyecto.nuestro SubReddit de 26k+ MLCanal de discordiaBoletín electrónico[email protected]🚀 Consulte más de 100 herramientas de IA en AI Tools Club