¿Qué es Lyra?

Lyra: un nuevo códec de muy baja tasa de bits para la compresión de voz

¿Qué es Lyra?

Google ha lanzado su código fuente beta del códec de audio Lyra en GitHub, haciendo que el procesamiento de audio de baja velocidad de bits de increíble calidad esté disponible para todos los desarrolladores.

El códec es más útil en situaciones integradas y con ancho de banda restringido en las que es necesario guardar la mayor cantidad de datos posible.

¿Qué es Lyra?

Lyra es un códec de voz de alta calidad y baja tasa de bits que hace que la comunicación de voz esté disponible incluso en las redes más lentas. Para hacer esto, aplica técnicas de códec tradicionales mientras aprovecha los avances en el aprendizaje automático (ML) con modelos entrenados en miles de horas de datos para crear un método novedoso para comprimir y transmitir señales de voz.
Visión general

La arquitectura básica del códec Lyra es bastante simple. Las características se extraen del habla cada 40 ms y luego se comprimen para su transmisión a una tasa de bits de 3 kbps.

Las características en sí mismas son espectrogramas log mel, una lista de números que representan la energía del habla en diferentes bandas de frecuencia, que tradicionalmente se han utilizado por su relevancia perceptiva porque están modelados a partir de la respuesta auditiva humana. Por otro lado, un modelo generativo utiliza esas características para recrear la señal de voz.

Lyra aprovecha el poder de los nuevos modelos generativos de sonido natural para mantener la baja tasa de bits de los códecs paramétricos mientras logra una alta calidad, a la par con los códecs de forma de onda de última generación que se utilizan en la mayoría de las plataformas de transmisión y comunicación en la actualidad.

La complejidad computacional se reduce mediante el uso de un modelo generativo recurrente más económico, una variación WaveRNN, que funciona a una tasa más baja, pero genera en paralelo múltiples señales en diferentes rangos de frecuencia que luego combina en una sola señal de salida a la frecuencia de muestreo deseada.

Este truco, más las optimizaciones ARM de 64 bits, permite que Lyra no solo se ejecute en servidores en la nube, sino también en el dispositivo en teléfonos de gama media, como los teléfonos Pixel, en tiempo real (con una latencia de procesamiento de 90 ms). Este modelo generativo se entrena luego en miles de horas de datos de voz con hablantes en más de 70 idiomas y se optimiza para recrear con precisión el audio de entrada.

El código fuente beta está diseñado actualmente teniendo en cuenta los dispositivos Arm de 64 bits, aunque los ejemplos también se ejecutarán en sistemas Linux x86 de 64 bits. El código fuente se proporciona completamente documentado, aunque está en versión beta, y la página de GitHub proporciona instrucciones de instalación y cómo compilar Lyra en Linux para objetivos de Arm de 64 bits.

Para obtener el código fuente de Lyra beta, diríjase a la página de Lyra GitHub.

Para demostrar cuánto mejor es Lyra que otros códecs, Google proporciona ejemplos a través de una publicación de blog donde comparan el códec de compresión impulsado por Machine Learning con otras alternativas de 3 y 6 kbps.

La tendencia a la reducción de la tasa de bits en la codificación de voz

Tal como están las cosas ahora en el oscuro mundo de la compresión de voz de vanguardia, 3 kbps no es tan inusual. Al restringir el procesamiento algorítmico a todas o una parte de las frecuencias de ondas de sonido vocales entre 300 Hz y 18 kHz, los códecs de voz más antiguos y nuevos son mucho más eficientes en ancho de banda que los códecs de audio que admiten la gama completa de sonido audible para los humanos.

Por ejemplo, el códec de audio más utilizado en transmisiones de video, la codificación de audio avanzada (AAC), generalmente cubre un rango de frecuencia de 0 a 96 kHz, que se extiende a 120 kHz con el uso de mejora de baja frecuencia (LFE), la alimentación de subwoofer utilizada en sonido envolvente y otras acústicas avanzadas.

AAC, que está incorporado en el estándar H.264 / AVC, consume ancho de banda a 96 kbps con configuraciones típicas para sonido estéreo usando una frecuencia de muestreo de codificación de 48 kHz, aunque las aplicaciones puramente musicales a menudo usan AAC a frecuencias de muestreo mucho más altas con velocidades de bits que se extienden por completo. el camino a 512 kbps.

Por el contrario, Opus, el códec de voz de próxima generación más utilizado en comunicaciones transmitidas por WebRTC, puede replicar el habla casi a la perfección a solo 32 kbps y ofrece comunicaciones de voz viables a velocidades de bits tan bajas como 6 kbps.

El soporte para Opus, junto con G.722 y G.711, es obligatorio según las especificaciones de WebRTC, lo que significa que son compatibles de forma nativa con los principales navegadores. Los códecs como Lyra se pueden usar con WebRTC siempre que tengan soporte para complementos de aplicaciones, como es el caso de Duo.

Muchos códecs de voz, incluidos Lyra y Opus, pueden adaptarse a escenarios con graves limitaciones de ancho de banda al limitar la replicación del sonido a rangos de frecuencia reducidos de 300 Hz a 8 kHz e incluso de 500 Hz a 3 kHz, que aún son lo suficientemente anchos para transmitir comprensibles, aunque horribles. habla que suena. Estos rangos de frecuencia permiten reducir las velocidades de bits mínimas utilizadas para el habla inteligible a niveles inferiores a 3 kbps.

Los códecs que pueden hacer esto incluyen la Predicción lineal de excitación mixta mejorada (eMELP), el Adaptive Multi-Rate (AMR) de 3GPP y Speex, un predecesor de código abierto de Opus, ambos desarrollados por Xiph.Org. Además, los algoritmos de predicción lineal excitada por código (CELP) y codificación de excitación vectorial armónica (HVXC) especificados para codificación de solo voz por MPEG-4 Parte 3, están diseñados para admitir la transmisión de voz viable a velocidades de bits tan bajas como 3,65 kbps. y 2 kbps, respectivamente.

Comparando Lyra y Opus

En la publicación de blog mencionada anteriormente , el equipo detrás de Lyra comienza su evaluación de lo que hace que Lyra sea especial con la afirmación de que a 3 kbps, el códec supera a todos los demás que operan a esa velocidad de bits y ofrece mejor calidad que Opus a 6 kbps.

“Otros códecs son capaces de operar a velocidades de bits comparables a las de Lyra ( Speex , MELP, AMR ), pero cada uno es mas complejo y dan como resultado una voz que suena robótica”,

afirman Alejandro Luebs, ingeniero de software de Google y Jamieson Brettle, administrador de Chrome.

que es lyra

Pero las muestras de prueba proporcionadas en el blog solo incluyen un breve clip de voz codificado por Lyra a 3 kbps, Opus a 6 kbps y Speex a 3 kbps. Estas son las opciones libres de regalías entre los códecs mencionados aquí, lo que puede explicar por qué estas muestras de prueba fueron las únicas incluidas.

Las diferencias en los niveles de calidad informados de estas pruebas parecen significativas. Los promedios de los puntajes de opinión medios (MOS) generados por los espectadores neutrales en una escala de 1 a 5 mostraron a Lyra en 3.5, Opus en 2.5 y Speex en 1.7.

Aún así, si, como sostienen los escritores, pruebas adicionales demostraron que Opus a 8 kbps es equivalente a Lyra a 3 kbps. Nos preguntamos si los ahorros en la tasa de bits son suficientes para merecer poner a Lyra en funcionamiento.

Malachite SDR

malachite sdr

Picked For You

Factory Outlet 50kHz-3GHz NanoVNA-F V2
nanovna-f V2 – 50kHz ~ 3000MHz – Los rangos de medición se extienden a 3GHz y los rangos dinámicos son más grandes. La medición es más precisa y el funcionamiento es más conveniente. Batería de litio de gran capacidad de 5000mAh
Contenido Relacionado