Estoy viendo 'Star Trek' mejorado por IA y no es terrible

By Noticias diarias On Monday, May 27 2024

Durante años, los dedicados fans de Star Trek han estado utilizando IA en un intento de crear una versión de la aclamada serie Deep Space 9 que se vea decente en televisores modernos. Puede sonar un poco ridículo, pero me sorprendió descubrir que en realidad es bastante bueno, lo suficientemente bueno como para que las empresas de medios deberían prestar atención (en lugar de simplemente enviarme notificaciones por violación de derechos de autor).

Más temprano este año, me inspiré para ver el programa, un favorito de los fans que ocasionalmente veía en la televisión cuando se emitía, pero nunca le presté mucha atención. Después de ver la remasterización reveladora de Star Trek: La Nueva Generación, sentí que debía revisitar a su hermano menos aventurero por la galaxia y más centrado en el elenco. Quizás, pensé, estaba en medio de un extenso proceso de remasterización también. ¡No!

Lamentablemente, descubrí que, aunque la remasterización de La Nueva Generación fue un gran triunfo técnico, el momento coincidió con el auge de los servicios de streaming, lo que significa que el caro set de Blu-ray se vendió poco. El proceso costó más de 10 millones de dólares, y si no dio resultado para la serie más popular y fiable de la franquicia, no hay forma de que los responsables decidan hacerlo de nuevo para DS9, querido pero menos rentable.

Esto significa que si quieres ver DS9 (o Voyager, por si acaso), tienes que verlo más o menos con la calidad con la que se emitió en los años 90. Al igual que TNG, se filmó en película pero se convirtió a cinta de video a una resolución de aproximadamente 480p. Y aunque los DVDs proporcionaron una mejor calidad de imagen que las emisiones (debido a cosas como el pulldown y la profundidad de color), todavía estaban, en última instancia, limitados por el formato en el que se terminó el programa.

No es genial, ¿verdad? Y esto es casi lo mejor que se puede ver, especialmente al principio. Créditos de la imagen: Paramount

Para TNG, volvieron a los negativos originales y básicamente reeditaron todo el programa, volviendo a hacer efectos y composiciones, con gran costo y esfuerzo. Quizás eso pueda suceder en el siglo XXV para DS9, pero en la actualidad no hay planes, y aunque lo anunciaran mañana, pasarían años antes de que saliera.

Entonces: Como un espectador potencial de DS9, mimado por la magnífica remasterización de TNG, y que no le gusta la idea de una imagen de emisión NTSC de mala calidad mostrada en mi hermosa pantalla 4K, ¿dónde me deja eso? Resulta que no estoy solo.

Para mejorar el escalado...

Durante años, los fans de programas y películas dejados atrás por el tren de alta definición han trabajado en secreto para encontrar y distribuir versiones mejores que las que están disponibles oficialmente. El ejemplo más famoso es la trilogía original de Star Wars, que fue irreversiblemente comprometida por George Lucas durante el proceso oficial de remasterización, lo que llevó a los fans a encontrar fuentes alternativas para ciertas escenas: laserdiscs, ediciones limitadas, medios promocionales, rollos de archivo olvidados, entre otros. Estas ediciones totalmente no oficiales son un trabajo constante en progreso, y en los últimos años han comenzado a implementar nuevas herramientas basadas en IA también.

Estas herramientas se centran en gran medida en el escalado inteligente y la eliminación de ruido, siendo este último de mayor preocupación en el mundo de Star Wars, donde algunas de las imágenes originales de la película son increíblemente granulosas o degradadas. Pero podría pensar que el escalado, hacer que una imagen sea más grande, es un proceso relativamente simple, ¿por qué involucrar a la IA?

Ciertamente hay formas simples de escalar, o convertir la resolución de un video a una más alta. Esto se hace automáticamente cuando tienes una señal de 720p enviada a un televisor 4K, por ejemplo. La imagen de 1280x720 de resolución no aparece pequeña en el centro de la pantalla de 3840x2160, se estira por un factor de 3 en cada dirección para que encaje en la pantalla; pero aunque la imagen parece más grande, todavía es 720p en resolución y detalle.

Un algoritmo simple y rápido como el filtrado bilineal hace que una imagen más pequeña sea aceptable en una pantalla grande incluso cuando no es un estiramiento de 2x o 3x, y hay algunos métodos de escalado que funcionan mejor con ciertos medios (por ejemplo, animación o arte de píxeles). Pero en general, se podría concluir razonablemente que no se gana mucho con un proceso más intensivo.

Y eso es cierto hasta cierto punto, hasta que te adentras en la interminable madriguera de conejo de crear un proceso de escalado mejorado que realmente añade detalle. Pero, ¿cómo puedes "agregar" detalle que la imagen ya no contiene? Bueno, de hecho, la imagen sí lo contiene, o más bien, lo sugiere.

Aquí tienes un ejemplo muy simple. Imagina un televisor antiguo mostrando una imagen de un círculo verde en un fondo que va de azul a rojo (usé este filtro de CRT para una simulación básica).

Puedes ver que es un círculo, por supuesto, pero si miras de cerca, en realidad es bastante difuso donde el círculo y el fondo se encuentran, ¿verdad, y escalonado en el degradado de color? Está limitado por la resolución y por el códec de video y el método de emisión, sin mencionar el diseño de subpíxeles y los fósforos de un televisor antiguo.

Pero si te pidiera que recrearas esa imagen en alta resolución y color, en realidad podrías hacerlo con mejor calidad de la que nunca la viste, más nítido y con colores más suaves. ¿Cómo? Porque hay más información implícita en la imagen que simplemente lo que ves. Si estás razonablemente seguro de lo que había antes de que se perdieran esos detalles al codificarlo, puedes volver a ponerlos, así:

La imagen contiene mucha más información de la que simplemente no es visible de manera obvia, por lo que en realidad no estamos agregando, sino recuperándola. En este ejemplo, he hecho el cambio de forma extrema para causar efecto (en realidad es bastante chocante), pero en la imaginería fotográfica generalmente es mucho menos marcado.

Agrandar inteligentemente

El ejemplo anterior es un caso muy simple de recuperar detalle, y en realidad es algo que se ha hecho sistemáticamente durante años en esfuerzos de restauración en numerosos campos, digitales y analógicos. Pero aunque puedas ver que es posible crear una imagen con más detalle aparente que la original, también ves que solo es posible debido a un cierto nivel de comprensión o inteligencia sobre esa imagen. Una simple fórmula matemática no puede hacerlo. Afortunadamente, hemos avanzado mucho desde los días en que una simple fórmula matemática era nuestro único medio para mejorar la calidad de imagen.

Desde herramientas de código abierto hasta herramientas de marcas como Adobe y Nvidia, el software de ampliación de escala se ha vuelto mucho más común a medida que se han generalizado las tarjetas gráficas capaces de realizar los cálculos complejos necesarios para hacerlo. La necesidad de actualizar de manera elegante un clip o captura de pantalla de baja resolución a alta es común en estos días en docenas de industrias y contextos.

Las suites de efectos de video ahora incorporan un análisis de imagen complejo y algoritmos sensibles al contexto, de modo que, por ejemplo, la piel o el cabello se tratan de manera diferente que la superficie del agua o el casco de una nave estelar. Cada parámetro y algoritmo se puede ajustar y modificar individualmente según la necesidad del usuario o la imagen que se está mejorando. Entre las opciones más utilizadas se encuentra Topaz, un conjunto de herramientas de procesamiento de video que emplean técnicas de aprendizaje automático.

El problema con estas herramientas es doble. En primer lugar, la inteligencia solo llega hasta cierto punto: los ajustes que pueden ser perfectos para una escena en el espacio son totalmente inadecuados para una escena interior, o una jungla o una pelea de boxeo. De hecho, incluso múltiples tomas dentro de una misma escena pueden requerir enfoques diferentes: diferentes ángulos, características, tipos de cabello, iluminación. Encontrar y fijar esos ajustes 'ni muy calientes ni muy fríos' es mucho trabajo.

En segundo lugar, estos algoritmos no son baratos o (especialmente cuando se trata de herramientas de código abierto) fáciles. No solo pagas por una licencia de Topaz, sino que tienes que ejecutarlo en algo, y cada imagen que pase a través de él utiliza una cantidad considerable de potencia informática. Calcular los diversos parámetros para un solo fotograma podría llevar unos segundos, y cuando consideras que hay 30 fotogramas por segundo durante 45 minutos por episodio, de repente estás poniendo tu GPU de $1,000 al límite durante horas y horas seguidas, tal vez para simplemente desechar los resultados cuando encuentres una mejor combinación de ajustes un poco más tarde. O tal vez pagas por calcular en la nube, y ahora tu hobby tiene otra tarifa mensual.

Afortunadamente, hay personas como Joel Hruska, para quienes este proceso minucioso y costoso es un proyecto apasionante.

“Intenté ver el programa en Netflix,” me dijo en una entrevista. “Era abominable.”

Al igual que yo y muchos (pero no tantos) otros, esperaba con ansias una remasterización oficial de este programa, de la misma manera que los fans de Star Wars esperaban una remasterización completa de la trilogía original de Star Wars en su versión de cine. Ninguna comunidad obtuvo lo que quería.

“He estado esperando 10 años a que Paramount lo haga, y no lo han hecho,” dijo. Así que se unió con otros fans cada vez más bien equipados que estaban tomando el asunto en sus propias manos.

Tiempo, terabytes y gusto

Hruska ha documentado su trabajo en una serie de publicaciones en ExtremeTech, y siempre se asegura de explicar que está haciendo esto para su propia satisfacción y no para ganar dinero o publicar públicamente. De hecho, es difícil imaginar incluso a un artista profesional de efectos visuales ir tan lejos como Hruska para explorar las capacidades de la ampliación por IA y aplicarla a este espectáculo en particular.

“Esto no es para presumir, pero tampoco voy a mentir,” comenzó. “He trabajado a veces durante 40-60 horas a la semana en esto. Codifiqué el episodio 'Sacrificio de ángeles' más de 9,000 veces. Hice 120 codificaciones con Handbrake - probé cada parámetro ajustable para ver cuáles serían los resultados. Tuve que dedicar 3.5 terabytes a los archivos individuales de cada episodio, solo para los archivos intermedios. He forzado esto a un grado enorme... y he fallado tantas veces.”

Me mostró un episodio que había codificado que realmente parecía haber sido remasterizado adecuadamente por un equipo de expertos, no hasta el punto de pensar que se filmó en 4K y HDR, pero simplemente para que no esté constantemente pensando “por Dios, ¿realmente la TV lucía así?” todo el tiempo.

“Puedo crear un episodio de DS9 que parezca haber sido filmado en 720p temprano. Si lo miras desde 7-8 pies de distancia, luce bastante bien. Pero ha sido un largo y sinuoso camino hacia la mejora,” admitió. El episodio que compartió era “una compilación de 30 escalados diferentes de 4 versiones diferentes del video.”

Créditos de la imagen: Joel Hruska/Paramount

Suena exagerado, sí. Pero también es una interesante demostración de las capacidades y limitaciones del escalado por IA. La inteligencia que posee es muy limitada en escala, más preocupada por los píxeles y contornos y degradados que por las cualidades mucho más subjetivas de lo que luce “bien” o “natural”. Y al igual que ajustar una foto de una manera puede resaltar los ojos de alguien pero desenfocar su piel, y de otra manera viceversa, se necesita un enfoque iterativo y multicanal.

Entonces, el proceso es mucho menos automatizado de lo que podrías esperar, es una cuestión de gusto, de familiaridad con la tecnología y de serendipia. En otras palabras, es un arte.

“Cuanto más he hecho, más he descubierto que puedes sacar detalle de lugares inesperados,” dijo. “Tomas estos diferentes escalados y los mezclas, sacas detalle de diferentes formas. Uno es para nitidez y claridad, el siguiente es para reparar algún daño, pero cuando los pones uno encima del otro, lo que obtienes es una versión distintiva del video original que enfatiza ciertos aspectos y corrige cualquier daño que hayas hecho.”

“No se supone que ejecutes video a través de Topaz 17 veces; está mal visto. ¡Pero funciona! Muchas de las viejas reglas ya no aplican,” dijo. “Si intentas tomar la ruta más simple, tendrás un video reproducible pero tendrá errores de movimiento [es decir, artefactos de video]. ¿Cuánto te molesta eso? ¡A algunas personas no les importa! Pero yo estoy haciendo esto por personas como yo.”

Como tantos proyectos de pasión, la audiencia es limitada. “Desearía poder publicar mi trabajo, de verdad que sí,” admitió Hruska. “Pero pintaría un objetivo en mi espalda.” Por ahora es para él y para otros fans de Trek para disfrutar, no en secreto, pero al menos con una negación plausible.

En tiempo real con Odo

Cualquiera puede ver que las herramientas y servicios potenciados por IA están avanzando hacia la accesibilidad. El tipo de análisis de imagen que Google y Apple solían tener que hacer en la nube ahora se puede hacer en tu teléfono. La síntesis de voz también se puede hacer localmente, y pronto podemos tener una IA conversacional al estilo de ChatGPT que no necesite comunicarse con un servidor externo. ¡Qué divertido será eso!

Esto es posible gracias a varios factores, uno de los cuales son chips dedicados más eficientes. Las GPUs han hecho el trabajo bien pero originalmente fueron diseñadas para otra cosa. Ahora, se están construyendo chips pequeños desde cero para realizar el tipo de matemáticas en el corazón de muchos modelos de aprendizaje automático, y cada vez se encuentran más en teléfonos, televisores, laptops, y demás equipos.

La ampliación inteligente de imágenes en tiempo real no es ni simple ni fácil de hacer correctamente, pero está claro para casi todos en la industria que al menos es parte del futuro del contenido digital.

Imagina los ahorros de ancho de banda si Netflix pudiera enviar una señal de 720p que se vea un 95% tan bien como una de 4K cuando tu televisor la aumenta - ejecutando los algoritmos especiales de