La Inteligencia Artificial de Meta crea algo que podría revolucionar la VoIP
Después de muchos años, la Inteligencia Artificial por fin está revolucionando muchos campos de la informática, pero uno que podría afectar también (además de mejorar considerablemente el reconocimiento de voz y la conversión de texto a audio) es la posibilidad de encontrar mejoras en la compresión hasta llegar a niveles nunca visto ni imaginado.
La empresa Meta tiene un departamento de Inteligencia Artificial que pone a trabajar su tecnología al máximo para generar patentes y nuevas oportunidades de negocio, y entre estas creaciones han inventado algo que podría revolucionar la forma de almacenar el audio tal y como lo conocemos: Encodec
Encodec es un codec que promete una calidad de audio similar a la de un MP3, pero con una tasa de compresión 10 veces mejor y sin pérdida de calidad, lo que implica enviar audio estéreo y con calidad idéntica al de un archivo MP3 pero con una tasa de transferencia de 6kb/sec. (incluso menos que G729)
Hay incluso algún ejemplo de audio con una tasa de transferencia de 3kb/sec y con una calidad realmente alucinante para esa tasa de transferencia como podéis escuchar en el ejemplo siguiente:
El esquema de la compresión puede parecer un poco compleja y se podría pensar que un móvil o un teléfono IP estándar no sería lo suficientemente potente como para codificar el audio en tiempo real y no estaría del todo equivocado.
Encodec podría utilizar los procesadores de Inteligencia Artificial del móvil
¿Por qué no se utiliza MP3 como códec en VoIP y sí se utilizan otros como Alaw o G729? Básicamente por el coste de recursos que supone comprimir y descomprimir audio. Hay que pensar que los dispositivos electrónicos suelen fabricarse intentando minimizar costes y añadir un procesador más potente o dedicado puede aumentar el coste. No obstante, los móviles de alta gama ya rondan los 1000€ por lo que incluir procesadores especiales para comprimir audio puede ser una realidad dentro de poco, lo que abriría las puertas a utilizar códecs especiales que mejorarían bastante la calidad de audio frente al típico A-Law o G.729. y ni que decir tiene que muchos teléfonos creados en los últimos años ya incluyen procesadores especiales para cálculo en tareas de Inteligencia Artificial, lo que implica que esos procesadores pueden ayudar bastante a utilizar algoritmos como Encodec que acaba de presentar Meta.
Ejemplos de audio
Los investigadores de Meta han creado una página donde se puede escuchar las típicas comparaciones de calidad de audio entre sonido RAW y sonido comprimido tanto con Lyra de Google como con Encodec de Meta. Los podéis encontrar aquí: https://ai.honu.io/papers/encodec/samples.html
El código fuente de Encodec está publicado en Github en su página para descargarlo y probarlo:
https://github.com/facebookresearch/encodec