¿Puedes hacerlo mejor que los modelos de IA de alto nivel en estas pruebas de visión básicas?

Acercarse / Hagas lo que hagas, no le preguntes a la IA cuántas líneas horizontales hay en esta imagen.

imágenes falsas

En los últimos dos años, hemos visto avances sorprendentes en los sistemas de inteligencia artificial cuando se trata de reconocer y analizar contenidos de imágenes complejos. Pero un nuevo artículo destaca cuántos “modelos de aprendizaje visual” modernos no logran realizar tareas de análisis visual simples y de bajo nivel que sean fáciles de realizar para los humanos.

En el artículo preimpreso con un título provocativo “Los modelos de lenguaje visual son ciego (que tiene versión PDF Esto incluye un emoji de gafas de sol oscuras. En el título), investigadores de la Universidad de Auburn y la Universidad de Alberta crearon ocho pruebas sencillas de agudeza visual con respuestas objetivamente correctas. Estas pruebas van desde determinar el número de veces que se cruzan dos líneas de colores, hasta identificar la letra encerrada en un círculo en una palabra larga y contar el número de formas superpuestas en una imagen (se pueden proporcionar ejemplos y resultados representativos). Se visitó la página electrónica del equipo de investigación.).

Lo que es crucial es que estas pruebas sean Generado por código personalizado No se basa en imágenes o pruebas preexistentes que se pueden encontrar en la Internet pública, “reduciendo así[ing] “Es posible que los VLM puedan solucionarlo mediante la conservación”, según los investigadores. Las pruebas también requieren “poco o ningún conocimiento del mundo” más allá de las formas 2D básicas, lo que dificulta inferir la respuesta “solo a partir de la pregunta del texto y las opciones” (lo que se ha demostrado en varios estudios previos). Se ha identificado como un problema para algunos otros puntos de referencia de IA visual.).

READ  El evento del iPhone 15 podría enojar a algunos fanáticos de Apple

¿Eres la persona más inteligente de quinto grado?

Después de realizar múltiples pruebas en cuatro modelos ópticos diferentes (GPT-4o, Gemini-1.5 Pro, Sonnet-3 y Sonnet-3.5), los investigadores descubrieron que los cuatro modelos estaban muy por debajo de la precisión del 100 por ciento que se podría esperar de este tipo de análisis visual. Tareas simples (que la mayoría de los humanos videntes no tendrían muchas dificultades para lograr). Pero el alcance del deterioro del rendimiento de la IA varió mucho según la tarea específica. Por ejemplo, cuando se le pidió que contara el número de filas y columnas en una cuadrícula vacía, el modelo con mejor rendimiento solo dio una respuesta precisa menos del 60 por ciento de las veces. Por otro lado, el Gemini-1.5 Pro logró cerca del 93 por ciento de precisión en la identificación de letras circulares, lo que se acerca al desempeño humano.

Incluso pequeños cambios en las tareas también pueden generar grandes cambios en los resultados. Si bien los cuatro modelos probados pudieron identificar correctamente cinco círculos huecos superpuestos, la precisión en todos los modelos cayó a menos del 50 por ciento cuando estaban involucrados de seis a nueve círculos. Los investigadores plantearon la hipótesis de que esto “sugiere que los VLM están predispuestos hacia el famoso logotipo de los Juegos Olímpicos, que contiene cinco círculos”. En otros casos, los modelos a veces adivinaban respuestas ilógicas, como adivinar “9”, “n” o “©” como una letra encerrada en un círculo en la palabra “Subdermatoglifica”.

READ  Hogwarts Legacy 6 meses después: ¿Alguien sigue jugando?

En general, los resultados resaltan cómo los modelos de IA que pueden funcionar bien en razonamiento visual de alto nivel tienen algunos “puntos ciegos” importantes (lo siento) cuando se trata de imágenes abstractas de bajo nivel. Todo esto recuerda en cierto modo a lagunas de capacidad similares que vemos a menudo en los grandes modelos de lenguaje modernos, que pueden generar resúmenes muy convincentes de textos largos y al mismo tiempo fallan en matemáticas muy básicas y… Ortografía Preguntas.

Estas brechas en las capacidades de VLM pueden deberse a la incapacidad de estos sistemas para generalizar más allá de los tipos de contenido para los que han sido capacitados explícitamente. Sin embargo, cuando los investigadores intentaron perfeccionar un modelo utilizando imágenes específicas tomadas de una de sus tareas (la prueba “¿Se tocan dos círculos?”), el modelo mostró sólo una mejora modesta, del 17% de precisión a aproximadamente el 37%. “Los valores de pérdida para todos estos experimentos fueron muy cercanos a cero, lo que indica que el modelo se ajusta demasiado al conjunto de entrenamiento pero no logra generalizar”, escribieron los investigadores.

Los investigadores sugieren que la brecha de capacidad de VLM puede estar relacionada con los llamados “Fusión tardía” de codificadores de visión en grandes modelos de lenguaje previamente entrenados. a Enfoque de formación de “integración temprana” Los investigadores sugieren que un sistema que integre la codificación visual junto con la enseñanza del idioma podría dar mejores resultados en estas tareas de bajo nivel (sin ofrecer ningún tipo de análisis sobre esta cuestión).

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio