¿Cómo se separó el audio en pistas?


Separación de fuentes sonoras

Desde fines de los años 2010, la separación de fuentes sonoras, y particularmente la de fuentes musicales (MSS, por sus siglas en inglés), es un tema candente en el procesamiento de audio utilizando inteligencia artificial. En 2019 se publicaron los primeros algoritmos de aprendizaje automático dedicados a esto (por ejemplo, Spleeter de Deezer Research) que lograban inferir adecuadamente hasta tres fuentes musicales diferentes (voces, batería y bajo). El documental The Beatles: Get Back de Peter Jackson, estrenado en 2021, sirvió para publicitar a gran escala esta tecnología, ampliamente usada en su posproducción. Desde entonces, se han desarrollado cientos de algoritmos sobre una docena de arquitecturas. La mayoría requieren su entrenamiento con grandes volúmenes de datos.

Algoritmos de separación

Se utilizó una selección de entre más de 220 algoritmos de separación de fuentes sonoras sobre diferentes arquitecturas:
Para separar voces de instrumentos y otros sonidos se utilizó mayoritariamente una red neuronal de dos flujos para análisis híbrido de espectrograma y forma de onda, mientras que para la separación de vientos, entre voces o para la discriminación de ruidos de ambiente (como público en vivo), reverberación y eco, se empleó una red neuronal de análisis de espectrograma de magnitud. Para separar batería (y sus elementos), bajo, guitarras y piano, se usaron mayoritariamente diferentes implementaciones de una red neuronal de cuatro pliegues para análisis híbrido de espectrograma y forma de onda. Para la separación de cuerdas se utilizó una red densa en cuatro bandas de frecuencia y múltiples escalas. Para separar sintetizadores o guitarras de diferente tipo se empleó una red modelo U-net de doce capas. Para la separación de instrumentos exóticos se utilizaron metodologías basadas en entrenamiento somero.

Todos los algoritmos fueron optimizados y parcialmente re-entrenados por Wilki Amieva en Hg Prods (Buenos Aires) utilizando una base de datos propia, con más de 250 GB de fragmentos de mezclas y pistas aisladas en alta definición.


Acerca de la mezcladora virtual


Descripción general

La mesa de mezcla virtual tiene un cuerpo principal, donde se agrupan los canales de entrada, con sus controles y visualizadores. A su derecha hay dos agujas indicadoras de nivel, una por cada canal de salida. Debajo están el reloj y los controles de reproducción. Para acceder a todas las funciones de la mezcladora, es necesario hacerlo desde un ordenador (no desde un dispositivo mól).

Canales de entrada

Cada canal de entrada posee tres botones y una perilla en la parte superior, un deslizador que también muestra su nivel y su nombre en la parte inferior.

Botones

El botón 'M' (mute) silencia la pista, el 'S' (solo) silencia el resto (salvo que ya tengan el respectivo botón presionado), y el 'PFL' (pre-fader level) hace que la visualización de nivel no tenga en cuenta la posición (ni el movimiento) del deslizador. Los botones presionados se encienden en color celeste. La mezcladora carga con todos los botones apagados.

Perilla

La perilla controla la posición panorámica (pan) del canal, desde todo a izquierda (L) hasta todo a la derecha (R). La mezcladora carga con todas las perillas en su posición central.

Deslizadores

Los deslizadores (faders) sirven para regular individualmente el nivel de cada canal, desde el mínimo (silencio), abajo, hasta el máximo, arriba. La mezcladora carga con todos los deslizadores en su nivel medio.

Visualizador de nivel

Junto al deslizador puede visualizarse el nivel del canal correspondiente, en color celeste (marca picos en amarillo). Este nivel tiene en cuenta la posición del deslizador (salvo que se presione el botón 'PFL', ver abajo).

Nomenclatura

Las pistas tienen nombres según abreviaturas o acrónimos utilizados comúnmente en la jerga de producción musical. Algunos ejemplos:
Voz principal: Voz, Vx
Voces de acompañamiento: Coros, BVs
Vientos/Bronces: Caños, Brass, Horn, Wind
Piano: Pno
Teclados/Sintetizadores: Tecla, Sinte, Keys, KB, Synths
Guitarras: Viola, Gtr (guitarra acústica: AcGtr, guitarra eléctrica: EGtr)
Bajo: Bs
Batería: Bata, Drms
Efectos (reverberación, eco): FX

En caso de que la sección rítmica esté separada en partes:
Platillos: Platos, Cymbals
Hi-hat: HH
Redoblante: Redo, Tacho, Snr
Palmas: Claps
Toms/Timbales: Toms
Bombo de pie: Bombo, Kick, KD, BD
Percusión: Perc

Vúmetros

Indican los niveles de salida del canal izquierdo (L), arriba, y del derecho (R), abajo.

Cronómetro

Indica el tiempo de reproducción, con una precisión de centésimas de segundo.

Controles de reproducción

Sirven para iniciar/pausar la reproducción, y también retroceder o adelantar (en lapsos de 10 segundos), o reiniciarla.