VideoGen: una AI de generación de vídeo poco inteligente

Gracias por darme amor compartiendo en tu app favorita:

Dice VideoGen en su página principal, donde se hace la promo y se ensalzan los beneficios de la aplicación, que es the AI-powered video generator for people who value their time.

Es decir, promete ser una inteligencia artificial capaz de crear vídeo y ahorrar mucho tiempo a personas que lo valoran. Y hasta aquí, yo, soy cliente. Me ha convencido esa frase.

Así que decido probarla. Y no es que me arrepienta de haber gastado 5 dólares, pero ya di de baja el servicio.

Te voy a explicar por qué.


¿Qué hace VideoGen y por qué no es una IA?

Puedes probar VideoGen de forma gratuita pero muy limitada. Yo lo hice y eso me convenció para pagar la cuota base de 5 dólares al mes.

Esto te da derecho a crear vídeos con unos scripts (textos sobre lo que se basa todo) de hasta 30.000 caracteres. Más que suficientes para crear unos 3 vídeos al mes para un canal de YouTube con una duración de unos 10 minutos.

¡Pero qué decepción me llevaría!

Lo primero, lo único que tiene de inteligencia artificial VideoGen es el generador de lo que sería el prompt del vídeo, que no solo es una descripción, es el texto que se va a locutar y sobre el que se va a crear el vídeo.

Y sospecho mucho que realmente ni siquiera ese generador de textos es propio. Muy posiblemente utilice ChatGPT como base.

A partir de ahí ya no existe la inteligencia artificial.

El generador elige una voz, solo una, para locutar el texto. Puedes planificar la frecuencia (por número de palabras) con la que se cambia un clip de vídeo. Los clips los saca de fuentes como mi venerada PixaBay.com, no te creas que son vídeos generados con AI… o IA… abrévialo como quieras, que me lío.

Los clips los elige en función de las keywords que estima principales en el texto, en función a su vez del título que hayas puesto. Así, si el título pone algo de «ciclismo» pues considerará, muy probablemente, que «pedalear» o «bicicleta» son importantes.

Pero no siempre. Según el fragmento puede escoger clips que tienen sentido para la frase pero no para el contexto. Así, si el texto trata sobre la placa arterial ocasionada por el colesterol LDL es posible que te muestre el clip de un cepillo de dientes.

O si hablas de personas de más de 45 años es posible que te inserte clips de personas ya jubiladas más cerca de los 75 que de los 50. No por otra cosa sino porque usa los recursos gratuitos que encuentra en la red que a su vez suelen estar etiquetados por unas keywords genéricas y poco específicas.

Como (creo) decía más arriba, el clip lo cambia cada cierto número de palabras pudiendo elegir entre hacerlo «muy rápido», «intermedio» o «lento». Es decir, el clip no cambia según el contexto sino en función del número de palabras. Cierto es que no es un número fijo y tiene cierto grado de adaptación.

En cuanto a las voces, como cualquier text to speech que puedes encontrar en línea, tiene una amplia variedad. En español te recomiendo la de Carlos y la de Ana porque son las que dictan de manera más natural. El resto suenan a los mismos text to speech de siempre. Mecánicos y poco naturales, impostados y sobreactuados.

Por último puedes elegir una música libre de royalties que cuando subas el vídeo a YouTube éste te dirá que tiene copyright y que el propietario prohibe monetizar el vídeo con su música, si no reclamarte los ingresos. (Así que no pongas música en VideoGen si lo vas a usar para TikTok, reels de Instagram, short o vídeo en YouTube, porque tendrás problemas con las licencias, sí o sí.)

Como verás, resumiendo, hay poco de inteligencia artificial.

Resumiendo:

  • La aplicación hace un buen trabajo generando una locución sobre un texto que tú subes o que te lo genera automáticamente (casi seguro desde una aplicación de AI externa como ChatGPT -no tengo pruebas pero tampoco dudas-).
  • La locución se elige automáticamente o la eliges tú manualmente, para todo el vídeo (haciéndolo monótono).
  • Los clips se eligen en función de unas keywords presentes en el texto del vídeo y los rota cada cierto número de palabras con la posibilidad de establecer si lo hace rápido, intermedio o lento.
  • La música… ¡no la uses y punto! Salvo que te dé igual monetizar.

Punto. A esto añade un par de opciones como poder cambiar un clip y poco más.

Todo esto hace que vídeos similares generen resultados similares, si no calcados. Precisamente en un entorno donde la creatividad y la originalidad debería estar al menos algo presente. No te digo que sean la máxima. Pero que no resulte un vídeo más igual al resto de vídeos que utilizan VideoGen.


¿Y cuánto cuesta VideoGen?

Este es, para mí, el principal problema. A ver, yo me suscribí a una cuota de 5 dólares al mes. En teoría tendría la posibilidad de generar (yo sobreentendí que «descargar») vídeos de hasta 30.000 caracteres.

Es decir, subes en el script un texto de hasta 3.000 caracteres (en este plan básico). Configuras las opciones, le das a generar, ves el resultado, cambias opciones, le vuelves a dar a generar. Y así, un ratito.

Luego le das a download y ya lo tienes.

Como tienes la limitación de 3.000 caracteres, si quieres un vídeo de unas 10.000 palabras (más o menos unos 10 minutos) pues tendrás que hacerlo de 3 o 4 veces.

No hay problema con eso, luego externamente puedes empatarlos con algún editor e incluso hacer algún inserto o cosa rara.

Eso hice yo con el vídeo que subí ayer sobre el colesterol LDL.

Todo empezó que por enésima vez una analítica de sangre me detecta los niveles de LDL por las nubes. Y estaba leyendo sobre el asunto cuando se me ocurrió hacer un vídeo al respecto. Es algo que suelo hacer, cuando algo me interesa, investigo. Y con lo averiguado hago un vídeo.

Pero con el catarrón que tenía y que no me apetecía grabar pero sí ganas de probar cosas nuevas, me puse a buscar y encontré VideoGen, como una de las más recomendadas.

Hasta aquí, todo más o menos va sobre ruedas, si bien el resultado no es que me maravillase, estaba en nivel «pasable».

En fin, tampoco me creas, valóralo tú.

El disgusto vino después.



¿Cómo me decepcionó VideoGen?

Si bien, por lo que te he contado, el resultado inicial, por 5 dólares al mes, no está nada mal (aunque dejando de lado que de inteligencia artificial para generar vídeos tiene más bien poco), la decepción vino al día siguiente.

Pensé, voy a probar a crear otro, pero para mezclarlo con grabación propia mientras ruteo en bicicleta, intercalando la voz locutada de VideoGen con mi propia voz.

Entro en VideoGen (recuerda que había generado 4 vídeos anteriormente de menos de 3.000 caracteres cada uno, por lo tanto había consumido menos de 12.000 de los 30.000 disponibles) y comienzo a crear.

Ciclismo 1, ciclismo 2, ciclismo 3, ciclismo 4… el tema, qué le pasa a tu cuerpo si pedaleas todos los días 30 minutos.

Lo hago con el portátil. Me muevo al MAC de sobremesa y le voy a dar al download para… ¡chorprecha!

Contrate la cuota de 29 dólares al mes para descargar los vídeos porque solo tiene 11 caracteres disponibles para generar.

No lo entiendo. He generado 4 vídeos pero no los he descargado, dentro de la cuota de los 30.000 caracteres. Me quedaban unos 17.000. Tenía saldo.

¿Cómo es que para generarlos y descargarlos me pides que pague 29 dólares al mes?

¡Oooh, pillín! Ese Anton Koening, cofundador de VideoGen, sí que sabe.

Para mí es una incertidumbre cómo tiene en cuenta el conteo de caracteres. ¿Cada vez que genero descuentas? Porque es algo que harás varias veces con cada vídeo. Cada vez que te des cuenta de una errata en el texto o que una corrección determinada va a quedar mejor en la entonación de la locución (sigue habiendo problemillas con algunas pausas de comas o puntos, como siempre).

Con 29 dólares al mes podré generar vídeos hasta 200.000 caracteres pero, ¿cómo me vas a descontar esos caracteres? Si genero un vídeo y luego lo descargo, restas dos veces (porque a mí no me permitiste descargar los vídeos que sí me permitiste generar).

Es una incertidumbre.

Y, por otro lado, la aplicación no vale 29 dólares al mes, porque todos los vídeos que vas a hacer van a quedar como comprados en el Mc Donald’s, exactamente iguales unos a los otros.

No vas ahorrar tiempo porque vas a tener que hacer retoques y ediciones a mano para darle un matiz personal si no quieres que tu canal sea como una caja de donuts industriales.

Podría pagar esos 5 dólares al mes para crear 2 a 3 vídeos de unos 10 minutos con un promedio de 10.000 caracteres cada uno, utilizando el resultado para elaborar algo más trabajado y personalizado. Me parece un buen servicio en ese sentido.

Pero no más. No lo vale y no lo merece.

Queda en tu mano decidir lo que quieres hacer. Espero que mi experiencia te haya servido.

Por otro lado recuerda que, quizás, cuando leas esto, ya hay avances o actualizaciones que hayan mejorado esta aplicación. Te recomiendo probar la versión gratuita y a partir de ahí valorar si merece la pena.