¿Qué es y cómo funciona el 'autotune'?

Marina Hervás nos habla en 'Más de uno' de uno de esos inventos que se ha convertido en imprescindible en la industria de la música: el 'autotune'. Lo inventó a finales de los noventa Andy Hilderbrand y la canción que lo descubrió al mundo en 1998 fue el 'Believe' de Cher.

Sin embargo, el autotune ya tenía un predecesor, el vocoder, un invento de Homer Dudley. El vocoder funciona analizando los elementos característicos de una voz y codificándolos para su síntesis, de tal modo que tenemos, por así decir, una versión "reducida" de nuestra voz.

Nosotros, siempre que hablamos, lo que hacemos es tomar aire para luego darle forma a través de la laringe y de las cuerdas vocales. Ese sonido que emitimos tiene nuestro timbre particular porque nuestra boca y nuestra cabeza funcionan como una caja de resonancia. Todo afecta al sonido: los labios, las fosas nasales... Pensemos que nuestra cabeza está llena de objetos y cavidades. Por eso cada uno tenemos una voz particular. Homer Dudley se dio cuenta de que se podía separar lo producido por las cuerdas vocales de todo lo demás y, por lo tanto, la onda resultante tendría menos información y sería más simple.

Uno de sus primeros usos comerciales fue en el sistema Sonovox, que se usaba para crear personajes en Disney. Por ejemplo, el sonido de El dragón chiflado, un personaje de 1941.

¿Cómo nació el autotune?

El inventor del autotune fue Andy Hildebrand, que estudió ingeniería y se doctoró en 1976, atención, con una tesis sobre "formas de estimación de la densidad de poblaciones de gorgojos en campos de alfalfa".

Comenzó, después de leer su tesis, a trabajar para compañías petroleras (ya sabéis dónde está la pasta…). Su labor era hacer análisis geográfico sísmico. Su labor consistía en escuchar las reverberaciones que emergen de la tierra e intentar entender, a partir de los tipos de vibraciones, qué forma puede tener la tierra. No obstante, no debía ser tan preciso porque en 1989 se dedicó a estudiar composición. Todo esto os lo cuento porque entremedias ya metido en el mundo de la música, desarrolló una herramienta llamada SST que lo que hacía era corregir las cualidades sonoras de un espacio. Así, por ejemplo, si estamos en una catedral y reverbera mucho, podríamos usar el SST para eliminar la reverberación.

Si ya hemos dicho que nuestra cabeza y boca es como una cueva resonante, podemos atisbar por qué el autotune surge de un especialista en análisis geofísico. A partir del análisis de vibraciones, se "inventaba" la forma de los interiores de la tierra. El autotune, por su parte, lo que hace, es corregir la afinación a partir de la "invención" de material sonoro, es decir, de sonido artificial que imita con más o menos fidelidad la voz original. La razón de su éxito fue económica: mientras que antes las grabaciones implicaban muchísimo tiempo de repetición y ajuste, con Autotune los fallos se arreglaban en la mezcla y listo.

Esto es una genialidad que hizo Iván Lagarto sobre un político que todos habréis reconocido… En fin, paradójicamente no es tan fácil poner ejemplos de Autotune, aunque está en muchísimas canciones. Cuando el autotune está usado para lo que se concibió, no se nota o no se debería notar. Si nos pasamos añadiendo Autotune, aparece un sonido robótico. Esto es como echar sal: si echas lo justo, potencia sabores. Si te pasas, todo sabe a sal. “Believe”, de Cher, se lanzó en octubre de 1998. En agosto de ese mismo año, Roy Vedas lanzó “Fragments of life” que ya se pasaba con el autotune.

Sin embargo, desde que salió “Believe”, ese sonido robótico se llama el “efecto Cher”: autotune que fascinó a muchísimos artísticas, desde Paulina Rubio a Rosalía.

Es curioso cómo este efecto de robotizar va en contra de lo que se buscaba en origen, que era conseguir redondear pequeños errores en la voz humana. La versión 5 de Autotune incluye un botón que se llama “humanise”, que sirve precisamente para ajustar el arreglo por igual a las notas largas y a las cortas, porque si no se nos podía colar que unas se afinasen y las otras se robotizasen. Como vemos, estas herramientas a lo que nos exponen es que no sepamos ya ni lo que es lo humano. En cualquier caso, lo interesante es que ahora el Autotune ya se ha incorporado plenamente a la creación como recurso estético.

El debate sobre hasta qué punto es artísticamente ético. La última polémica fue hace unos meses, a raíz de la descalificación del Benidorm Fest de una artista que se llama Luna Ki a la que expulsaron por usar Autotune, aunque en su caso era un recurso estético. Yo creo que si demonizamos el Autotune, habría que demonizar todo uso de efectos, filtros y recursos como los pedales de las guitarras eléctricas. ¡Incluso tendríamos que cuestionar el propio micrófono, porque según se grabe afecta a la voz! Es el caso de “Heroes”, de David Bowie (1977), que se grabó en un pasillo con tres micrófonos: uno delante de Bowie y los otros a mitad y final del pasillo.

¿Es lo mismo el Autotune que el Melodyne?

No es lo mismo, aunque las dos herramientas se desarrollaron casi a la vez. El Melodyne lo inventó un alemán que se llama Peter Neubäcker, un experto en computación. La diferencia entre ambas es que mientras que el Autotune analiza la voz de una persona y separa los elementos de su timbre, Melodyne sirve para afinar nota a nota. El Autotune predice qué se va a cantar y marca el lugar adecuado, mientras que Melodyne permite la edición mucho más precisa. Quizá lo aclaramos mejor con la explicación que el propio Neubäcker da sobre cómo llegó a la idea: estaba un día tranquilamente cuando se le ocurrió la pregunta: “¿Cómo sonará una piedra?”. Seguro que es algo que se ha planteado todo el mundo mil veces, ¡cómo no! En fin: Neubäcker tomó el modelo de la piedra para pensar el sonido como tridimensional y, por lo tanto, como “objeto” que podía moverse individualmente.

La polémica más grande que ha habido en torno al Melodyne fue en 2010, cunando se publicó Michael, que era un disco con canciones presuntamente póstumas de Michael Jackson. Y digo presuntamente porque se creyó y cree que no todas tienen la voz de Michael Jackson. Teddy Riley, su productor, justifica la aparente extraña voz de Michael Jackson señalando que tuvo que tocar la grabación con Melodyne: es decir, como señala William Owen Marshall en su tesis doctoral sobre autotune y melodyne, “para mostrar lo auténtico se reconoce la manipulación”. Ya sabéis, estamos en la época de la postverdad. La polémica sigue abierta y está pendiente de juicio, pues la familia y muchos fans insisten en que algunas de las canciones de Michael fueron cantadas por un imitador, en concreto, Jason Malachi.

¿Sería la Inteligencia Artificial el siguiente paso a herramientas como el Autotune o el Melodyne?

¡Desde luego! Tanto es así que la compañía Open Ai ha desarrolló hace un par de años una inteligencia artificial que está consiguiendo crear canciones y cantarlas, aún de manera–según sus propios términos– rudimentaria. Fijaos, a esta inteligencia artificial le han entrenado ¡con un millón doscientos mil ejemplos! Que se dice pronto. Lo más difícil de todo este proceso, y lo que marca la diferencia, es hacer “cantar” a la IA, es decir, alinear texto, melodía y pronunciación.

Sin embargo, con estas canciones nos sucede que nos resulta extrañamente conocido, es decir, que a la vez que nos resulta familiar, algo nos dice que no es “de lo nuestro”, como un robot. A este fenómeno, típico de nuestra época, se le llama “uncanney valley” o “valle inquietante”. Este nombre tan extraño se lo puso Masahiro Mori, profesor de robótica. El nombre, que no es el mejor del mundo, viene de lo siguiente: habla del “valle” que se produce en la gráfica que representa nuestra relación con los objetos robóticos. Si nos importan un bledo emocional, como la cafetera o la minipimer, la gráfica va a estar bastante abajo. Subirá cuanto más nos vinculemos con ellos, como cuando de pequeños teníamos un tamagochi (y ahora una manta eléctrica). Pero llega un momento que si son casi humanos-pero-no nos da una sensación de extrañeza, como si fuese algo siniestro. Ahí cae la gráfica. Lo superamos cuanto más humano es, donde vuelve a subir la gráfica.