Sora y el fin de la realidad

Se acabó. Con la presentación de Sora, el nuevo modelo text-to-video de OpenAI, se cierra un periodo importante en nuestra historia.

feb 20, 2024

El dicho de Santo Tomás resistió dos mil años; ahora - después de unas décadas de creciente debilidad- definitivamente nos deja.

El “ver para creer” no va más.

Nada de lo que aparezca en una pantalla lo volveremos a dar por cierto. “Lo vi en televisión” perderá su valor probatorio; “mira esto” será para mero entretenimiento; si bien seguirá siendo cierto que “una imagen vale más de mil palabras”, ninguna será evidencia de nada.

Es el fin de la realidad. Para ser más exactos: la realidad sigue - lo que termina es nuestra fé en su representación digital.

OpenAI anuncia Sora y queda claro que la IA ya puede con el video

*Es tierno pensar que en el pasado le creíamos todo*

La empresa que vale 80 unicornios nos había sorprendido con el text-to-text (GPT 3) y con el text-to-image (Dall-E), ambos increíbles logros de la IA generativa; el 15 de febrero pasado demostró la misma fuerza en el área que faltaba -el text-to-video- con el anuncio de su nuevo modelo, Sora.

Con una simple frase, ella (¿ella?) puede generar un video de hasta un minuto - y mejor de cualquier competidor. No me creas a mi, mira los ejemplos acá.

Ya hace rato quedó claro que la imágen digital, la sintografía, es indistinguible de una fotografía.

Definición, detalles y realismo de lo que vemos no son suficientes para afirmar que el sujeto existe en el mundo físico.

La “perfección” ya no es exclusiva de la naturaleza. La tecnología -que antes sólo la capturaba- ahora puede generarla de ceros (y unos…).

Cuando nos dimos cuenta de este “salto de calidad”, todos nos asustamos un poco. ¿Cómo será el mundo si su representación exacta puede ser recreada con tanta facilidad?

¿Recuerdas cuando las máquinas no podían con el video?

*Entre estos dos videos ha pasado solo un año - así de rápido va la cosa…*

Hace solo 12 meses, la Inteligencia Artificial no podía generar un video creíble. Le quedaba grande. Trataba, pero se veía falso, inverosímil - hasta ridículo.

La todopoderosa IA se confundía, cambiaba los fondos, no entendía la perspectiva - hacía el oso.

Qué alivio sentíamos. Todavía podíamos creer en algo: un video “realistico” tenía que ser “real”.

El cine era la excepción - pero había que invertir millones de dólares en CGI para lograr el efecto. Avatar (o cualquier súper héroe) era la excepción que confirmaba la regla.

Y además, detrás de ese logro había personas, especialistas y artistas que trabajaban duro para engañarnos.

En esa lejana época (2023) el video de Will Smith comiendo espagueti fue viral por esto: era tranquilizante.

Mientras en todos nacía el temor de la “forzada incredulidad”, esos pocos segundos nos devolvían tranquilidad: a las máquinas les faltaba todavía.

Todo esto cambió el 15 de febrero.

Ahora sí, apague y vámonos

*Si no has visto los ejemplos de Sora todavía, hazlo pronto. Ver para creer ;-)*

Un cachorro de golden retriever jugando en la nieve; tiburones nadando en una Manhattan sumergida; una mujer caminando por las calles de Tokio después de la lluvia; una pareja de la mano en un paisaje urbano.

Estos son apenas cuatro ejemplos de lo que Sora puede producir recibiendo un simple prompt como input. Sam Altman en su Twitter le está sometiendo más instrucciones sugeridas por la comunidad - mándale la tuya a ver si te ganas la lotería.

Todos los output son increíbles; especialmente si recordamos que son el resultado de la peor Inteligencia artificial que vamos a ver en nuestras vidas.

De aquí en adelante solo podrá mejorar.

Esto no significa el fin de Hollywood, como muchos han dicho. Más bien es un habilitador más de la era del contenido infinito: ya no se necesitan equipos humanos para generar contenido de video - es algo que la máquina puede hacer sola.

El gran impacto lo vamos a ver en redes sociales, donde las personas pasan mucho más tiempo que en cine (y de donde siempre más sacan sus noticias).

Obviamente hay problemas: los videos no son perfectos y hay retos que ni Sora puede resolver todavía.

Pero esto no es lo más importante. Lo que sorprende no es la perfección de ahora, sino la dirección que nos muestra con claridad.

Es un momento parecido a GPT-3, cuando los “loros estocásticos” nos hicieron sospechar que algo entendían más allá de estimar la siguiente palabra.

Sora también parece saber de física y de las otras leyes del mundo real. ¿Cómo podría -si no- poner dos barcos piratas a navegar en un pocillo lleno de café?

Esperemos que OpenAI libere el modelo a todos los usuarios; que Sam Altman consiga los cinco trillones de dólares que necesita para aumentar su capacidad de cómputo; finalmente veremos hasta dónde puede llegar este nuevo prodigio de la Inteligencia Artificial Generativa.

Y recordemos la razón por la cual han anunciado este modelo ahora, meses antes de que lo empiecen a distribuir al mercado: para que nos vayamos preparando.

Focos de trabajo - qué ando haciendo

Esta semana estaré en la Semana del Talento de ACRIP; si también vas a ir, escríbeme y nos vemos allá.
Hablando de Recursos Humanos: si te sigue sonando el tema de los Synthetic workers y de los NPC (Non-Person Colleagues), te recomiendo un post antiguo de almetaverso - me cuentas qué te parece.
Estoy leyendo “The Coming Wave” de Mustafa Suleyman y está buenísimo. Lo recomiendan Bill Gates y Yuval Noah Harari - pero lo que a mi me convenció fue la aprobación de David Zuleta (aquí su LinkedIn).

Gracias a las 85 personas que se suscribieron el mes pasado: ¡bienvenidas!

Si sabes de alguien que sigue con interés las tecnologías emergentes (IA, realidad extendida, web3…) en América Latina, considera reenviarle este mensaje para que también se suscriba. Nuevamente gracias.