Silicon Valley, CA. 8 Dec. – Google se encuentra en medio de la controversia entre expertos en IA debido a un video promocional engañoso de Gemini, lanzado el miércoles, que aparenta mostrar a su nuevo modelo de IA reconociendo señales visuales e interactuando vocalmente en tiempo real. Según informa Parmy Olson para Bloomberg, Google ha admitido que no fue así. En lugar de eso, los investigadores alimentaron al modelo imágenes estáticas y editaron respuestas exitosas, distorsionando parcialmente las capacidades reales del modelo.
“Creamos la demo capturando imágenes para probar las capacidades de Gemini en una amplia gama de desafíos”, dijo un portavoz. “Luego impulsamos a Gemini usando cuadros de imágenes estáticas de las imágenes, y promovimos a través de texto”, agregó un portavoz de Google a Olson. Como señala Olson, Google filmó un par de manos humanas realizando actividades, luego mostró imágenes estáticas a Gemini Ultra una por una. Los investigadores de Google interactuaron con el modelo mediante texto, no voz, seleccionaron las mejores interacciones y las editaron junto con síntesis de voz para crear el video.
Actualmente, ejecutar imágenes estáticas y texto a través de modelos de lenguaje masivos es computacionalmente intensivo, lo que hace que la interpretación de video en tiempo real sea prácticamente impracticable. Esto llevó a los expertos en IA a sospechar que el video era engañoso.
El video en cuestión muestra lo que el modelo de IA aparentemente ve, acompañado de las respuestas del modelo en el lado derecho de la pantalla. Los investigadores dibujan líneas onduladas, hacen preguntas y piden a Gemini que identifique lo que ve. El espectador escucha una voz, aparentemente de Gemini Ultra, respondiendo a las preguntas.
Tras el anuncio de Google Gemini el miércoles, las acciones de la compañía subieron un 5 por ciento. Sin embargo, pronto los expertos en IA comenzaron a desglosar las afirmaciones quizás exageradas de Google sobre las “sofisticadas capacidades de razonamiento”, incluyendo benchmarks que podrían no tener mucho significado, centrándose eventualmente en el video promocional de Gemini con resultados manipulados.
El video impugnado, titulado “Hands-on with Gemini: Interacting with multimodal AI”, presenta una vista de lo que aparentemente ve el modelo de IA, acompañado de las respuestas del modelo en el lado derecho de la pantalla. El investigador dibuja líneas onduladas, realiza preguntas y solicita a Gemini que identifique lo que ve. El espectador escucha una voz, aparentemente de Gemini Ultra, respondiendo a las preguntas.
Como señala Olson, el video tampoco especifica que la demostración de reconocimiento probablemente utiliza Gemini Ultra, que aún no está disponible. “Falsificar tales detalles apunta al esfuerzo de marketing más amplio aquí: Google quiere que recordemos que tiene uno de los equipos más grandes de investigadores en IA en el mundo y acceso a más datos que cualquier otro”, escribió Olson.
Aunque las habilidades de reconocimiento de imágenes de Gemini, vistas de manera más precisa en la página de blogs de Google, son notables, parecen estar aproximadamente al nivel de las capacidades del modelo de IA multimodal GPT-4V de OpenAI, que también puede reconocer el contenido de imágenes estáticas. Pero al editarse de manera fluida con fines promocionales, hizo que el modelo Gemini de Google pareciera más capaz de lo que realmente es, generando gran entusiasmo.