Qué puede hacer Gemini Omni, el nuevo modelo de IA de Google para crear videos
Google presentó Gemini Omni, un nuevo modelo de inteligencia artificial capaz de procesar texto, audio, imágenes y video de forma simultánea.
El gigante tecnológico estadounidense Google lanzó este martes sus nuevos modelos de inteligencia artificial (IA): Gemini 3.5 Flash y Gemini Omni.
Gemini Omni es un modelo nativamente multimodal en sus entradas —acepta texto, audio, imágenes y video— que inicialmente genera salidas de video y al que próximamente se sumarán las de audio e imagen.
El director general y cofundador de Google DeepMind, Demis Hassabis, destacó durante el evento que este nuevo modelo es capaz de “alcanzar un nuevo nivel de comprensión del mundo, multimodalidad y edición”.
“Modelos como Leo, Nano, Banana y Genie (todos de Google) son capaces de crear videos, imágenes y simulaciones interactivas extremadamente realistas. Aunque no son perfectos, ya demuestran una impresionante capacidad intuitiva. Con Omni hemos avanzado aún más. Representa un cambio radical en la simulación de fenómenos como la energía cinética y la gravedad”, detalló hoy Hassabis durante la presentación.
Gemini Omni reemplazará a Veo en la app de Gemini. Omni combina la inteligencia central de Gemini con capacidades avanzadas de medios generativos, como la conversión de imágenes a videos y la edición de videos con IA.
Qué puedes hacer con Gemini Omni
- Combinar texto, fotos y video en un solo video
- Crear videos a partir de fotos de referencia (hasta cinco)
- Editar videos fácilmente
La página oficial describe que Gemini Omni está disponible para usuarios mayores de 18 años que tengan un plan Google AI Plus, Pro o Ultra, en todos los idiomas y mercados donde esté disponible la app de Gemini.
Es posible que algunas funciones, como la edición de video a video con IA, estén restringidas en algunos países. También será posible crear un avatar.
Con información de EFE