Google presenta Gemini 1.5 Pro: IA para procesar textos, videos y audios largos

Google ha presentado Gemini 1.5 Pro, un modelo de inteligencia artificial capaz de procesar grandes cantidades de datos en una sola vez. Esto incluye una hora de video, once horas de audio, 30,000 líneas de código o más de 700,000 palabras.

Oriol Vinyals, vicepresidente de investigación de Google DeepMind y director ejecutivo de Gemini, destacó que el modelo puede analizar contextos extensos, como el texto de 402 páginas de transcripciones del Apolo 11, encontrando citas humorísticas.

Gemini 1.5 Pro puede interactuar con usuarios a través de fotos o dibujos, como se demostró con la identificación de un momento representado en un simple dibujo de una bota. El modelo proporcionó la famosa cita de Neil A. Armstrong en respuesta.

El modelo también puede trabajar con códigos extensos, sugiriendo modificaciones y ofreciendo explicaciones sobre su funcionamiento.

Según Sundar Pichai, director ejecutivo de Google y Alphabet, Gemini 1.5 Pro ayudará a los desarrolladores a crear modelos y aplicaciones más útiles.

Los desarrolladores y clientes empresariales podrán comenzar a trabajar con Gemini 1.0 Ultra a través de la interfaz de programación de aplicaciones (API) Gemini en AI Studio y Vertex AI.

Oriol Vinyals reconoció que las ‘alucinaciones’, respuestas incorrectas pero bien estructuradas, siguen siendo un desafío en el campo de la IA, en el que se sigue trabajando.

Google ha renombrado su chatbot con inteligencia artificial de Bard a Gemini, y lanzará una nueva aplicación Gemini para Android y iOS, junto con una versión avanzada de pago que utiliza Gemini 1.0 Ultra.