El perro que nunca existió: Google responde a Sora con nuevas herramientas de creación de vídeo con IA

La estrategia es de primero de marketing: primero se crea la necesidad y luego se vende la solución. Las herramientas de trabajo de Google, como Gmail, Drive, Calendar, Meet o Docs, las utilizan 3.000 millones de usuarios, muchos de ellos de forma gratuita con limitaciones. Pero 10 millones de ellos (40% de individuos y 60% de empresas) pagan por organizarse con estas aplicaciones. Y ahora que forman parte de la vida cotidiana de millones de personas y se ha creado la necesidad, irrumpe la inteligencia artificial con la promesa de mejorar esta experiencia. Pero la solución no será gratuita, sino que cada ventaja añadida costará 10 dólares más al mes, unos 9,2 euros. La empresa ha hecho este anuncio este martes en Las Vegas, donde celebra el encuentro anual de la compañía para presentar las novedades digitales (Google Next). Entre ellas, la reacción de la multinacional a Sora, la herramienta de Open AI capaz de crear vídeos de alta calidad a partir de simples peticiones de texto. La respuesta es un editor audiovisual, llamado Vids, e Imagen 2, similar a la competidora Sora, de Open AI.

La mayoría de los usuarios utilizan de forma limitada, pero gratis, algunas de las 11 aplicaciones incluidas en la plataforma de trabajo de Google Workspace (Gmail, Drive, Calendar, Chat, Docs, Sheets, Slides, Forms, Sites, Keep y Apps Script). Otros pagan al mes 5,75 euros (Business stater), 11,50 euros (standard) o 17,25 euros (Plus). Thomas Kurian, director general de Google Cloud, ha anunciado este martes la renovación de este popular y masivo conjunto de herramienta con Gemini for Workspace, la inteligencia artificial de Google.

Kurian argumenta que la innovación responde a la demanda de los usuarios. Según afirma, “el 70% utiliza la función Ayúdame a escribir y el 75% crea presentaciones en Slides”. La nueva “hornada de innovaciones y mejoras en Google Workspace con Gemini” incluye un complemento para reuniones y mensajería (10 dólares al mes) que permite, como ya hace la versión de pago de ChatGPT, tomar notas de reuniones, resumir estas y los chats (aplicaciones de conversación asociadas) y traducción simultánea en 69 idiomas.

Por otros 10 dólares, otro complemento de seguridad permite clasificar y proteger automáticamente los archivos y datos sensibles mediante IA. Según Aparna Pappu, directora general de Google Workspace, “utilizando grandes modelos de lenguaje, se identifica un 20% más de spam [correo basura o no deseado] en Gmail, se revisan 1.000 veces más reclamaciones de los usuarios a diario y se responde un 90% más rápido a los nuevos ataques de phishing [estafa por suplantación]”.

Vídeos

Pero una de las grandes apuestas de Google se orienta a la creación de vídeos. En este sentido, la plataforma de trabajo también incluirá la aplicación Google Vids, que permite elaborar guiones, producir y crear audiovisuales compatibles con el resto de las utilidades de la plataforma. “Vids se lanzará en breve en Workspace Labs y esperamos dar acceso a todos los clientes para finales de este año”, explica Kurian. “Probablemente, en junio”, precisa Aparna Pappu, directora general de Google Workspace.

“Vids es un asistente de vídeo, escritura, producción y edición, todo en uno. Puede generar un guion gráfico fácilmente editable y, después de elegir un estilo, crea un primer borrador a partir de escenas sugeridas con vídeos de archivo, imágenes y música de fondo. También puede ayudar a completar tu mensaje con la voz de narración adecuada, ya sea eligiendo una nuestra preestablecida o utilizando la del usuario”, explica Pappu.

“Todo lo que necesita es un navegador, y ese es el punto clave”, añade la directiva. “No es necesario enviar archivos por correo electrónico de un lado a otro; el equipo puede continuar en la historia al mismo tiempo con los mismos controles de acceso y seguridad de todo el espacio de trabajo,

El lanzamiento de Vids será restringido a subscriptores de Google en sus primeros pasos. “Estamos haciendo un despliegue para nuestros clientes de pago para obtener comentarios de ellos. Este producto está diseñado para un entorno de trabajo, que es donde está nuestra prioridad. Una vez que implementemos esas funciones para nuestros clientes de pago y obtengamos comentarios de nuestros usuarios, consideraremos expandirlo”, precisa Pappu.

Imágenes de rostros y manos creadas con inteligencia artificial a través de la aplicación Imagen 2 de Google.

Imagen 2 frente a Sora

El desarrollo más cercano a Sora también está reservado para los usuarios de Gemini 1.5 Pro, ya disponible en versión preliminar a través de la plataforma Vertex AI para desarrolladores. Se trata de Imagen 2, un modelo de IA que, según Amin Vahdat, directivo de Google Cloud, “brinda la ventana contextual más grande del mundo a los desarrolladores”. “Nuestra familia de modelos de generación de imágenes, ahora se puede utilizar para crear vídeos de cuatro segundos a partir de mensajes de texto, incluyendo la marca de agua digital”.

“Estamos viendo que las organizaciones aprovechan Imagen 2 para generar vídeos de alta calidad y precisión a escala empresarial. “Los equipos creativos y de marketing pueden generar imágenes animadas a partir de un mensaje de texto. Inicialmente, los vídeos serán de 24 fotogramas por segundo (fps) con una resolución de 360×640 píxeles y una duración de cuatro segundos, con planes de mejoras continuas”, explica Vahdat.

El programa está preparado para ofrecer variedad de ángulos y movimientos de cámara manteniendo la coherencia en toda la secuencia e incluyendo filtros de seguridad y marcas de agua digitales mediante SynthID (Google DeepMind). La nueva ley europea de inteligencia artificial obliga a distinguir de forma inequívoca que una creación ha sido generada por inteligencia artificial.

También facilitará en las versiones actualizadas la eliminación de aspectos no deseados en una imagen, la adición de nuevos elementos y la expansión de los bordes para crear un campo de visión más amplio.

Estos desarrollos responden al movimiento de Open AI con Sora, un modelo de inteligencia artificial que crea vídeos a partir de indicaciones con texto de hasta un minuto de duración mientras. Este productor audiovisual se encuentra en pruebas, según explica la compañía, “para evaluar áreas críticas en busca de daños o riesgos” y para obtener sugerencias y propuestas de artistas visuales, diseñadores y cineastas.

Open AI reconoce la necesidad de revisar el desarrollo porque, a pesar del espectacular realismo que ofrece en sus resultados, “el modelo actual tiene debilidades”, como fallos de precisión o alucinaciones como mostrar una escena que suponga la alteración de un objeto que, sin embargo, en los siguientes fotogramas aparece intacto o mezclar espacios o confundir trayectorias.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.