El nuevo modelo de inteligencia artificial (IA), de la compañía tecnológica Google, denominado Gemini Omni fue presentado como una herramienta diseñada para la generación y modificación de archivos de video con instrucciones sencillas.
El anuncio se realizó en el contexto de la conferencia anual Google I/O 2026, celebrada el 12 de mayo, donde la corporación tecnológica detalló que este sistema complementa las funciones de sus desarrollos previos, Veo y Vids.
A diferencia de las plataformas anteriores, este modelo permite a los usuarios combinar simultáneamente entradas de texto, imágenes fijas, audio y secuencias de video para producir materiales fotorrealistas basados en la base de datos de conocimiento de Gemini, lo que incorpora además un sistema de edición controlado exclusivamente mediante descripciones conversacionales.
De acuerdo con el blog de la compañía, el primer componente de esta línea de herramientas, denominado Gemini Omni Flash, ya está disponible a nivel global para los suscriptores de los servicios Google AI Plus, Pro y Ultra a través de la aplicación de Gemini y de la plataforma Google Flow.
Asimismo, la empresa habilitó el acceso sin costo para los usuarios de las plataformas YouTube Shorts y de la aplicación YouTube Create.

Cómo funciona Gemini Omni
El funcionamiento operativo de Gemini Omni se basa en el procesamiento de instrucciones en lenguaje sencillo, lo que permite realizar modificaciones estructurales en los videos sin recurrir a programas tradicionales de edición.
El sistema está programado para mantener la fisonomía y posición de los personajes a lo largo de las secuencias presentadas, para facilitar la sustitución de elementos específicos, la alteración de los ángulos de cámara o el cambio del entorno ambiental sin perder la coherencia de la filmación original.
Este modelo toma como base el metraje suministrado por el usuario y permite reconfigurar las acciones de los sujetos o añadir objetos que no estaban presentes en el registro primario si así lo piden en las instrucciones.
Desde el punto de vista técnico, la arquitectura de este modelo integra algoritmos de cálculo basados en principios de la física elemental, es decir, el sistema procesa variables como la gravedad, la energía cinética y la dinámica de fluidos para simular el movimiento de los cuerpos y los elementos de manera lógica con el entorno real.
Adicionalmente, el software utiliza el contexto histórico, científico y cultural de la base de datos de Gemini para interpretar las solicitudes de los usuarios, lo que le permite generar contenidos de carácter explicativo y representaciones visuales de conceptos complejos a partir de descripciones de texto breves.

Formatos y sistemas de IA
La interfaz de Gemini Omni permite unificar múltiples tipos de archivos fuente para consolidar un único resultado audiovisual, lo que permite a los usuarios cargar dibujos, fotografías de referencia o grabaciones de voz para definir la línea estética, los movimientos y el lenguaje visual del video final.
En la fase de lanzamiento, las capacidades de entrada de audio están limitadas a registros de voz humana, sin embargo, Google acotó que añadirán la incorporación de otros espectros sonoros en actualizaciones posteriores.
La plataforma incluye también la función Avatar, un mecanismo que genera una versión digitalizada del usuario a partir de sus rasgos físicos y su patrón fonético para la producción de declaraciones automatizadas.
Para regular el uso de la herramienta y mitigar riesgos asociados a la suplantación digital, Google implementó un protocolo de transparencia basado en la inserción de marcas de agua.
En ese sentido, todos los contenidos generados o editados mediante este modelo reciben de forma automática la identificación digital SynthID, un código integrado en el archivo que permite verificar el origen del material.
De esta manera se puede comprobar si un video fue concebido por la inteligencia artificial de la empresa a través de las herramientas de consulta disponibles en la aplicación de Gemini, el navegador Google Chrome y el motor de búsqueda general, de acuerdo con las directrices corporativas para la identificación de contenido en la red.
La entrada Gemini Omni: para qué sirve el nuevo modelo de IA de Google se publicó primero en El Diario Venezuela – elDiario.com.
