Por: Vitor Valeri
O Spotify começou a oferecer o áudio lossless em sua plataforma de streaming de música, conforme foi noticiado pelo Hi-Fi Hub. Embora a maioria pense que um arquivo em FLAC com 24 bits/44,1 kHz vá trazer uma nova experiência, a realidade é outra. A qualidade de som, após a mudança, será pequena, conforme mostro no artigo sobre o que é áudio de alta resolução.
Há pontos que realmente podem fazer uma diferença considerável na maneira como a percepção dos sons nas músicas acontece. Um deles é o processo de envio para os serviços de streaming de música, também chamados de DSPs (Digital Service Providers). Além deste, temos também a questão da grande variação do nível “volume percebido” nas faixas produzidas nas últimas décadas e a aplicação da normalização de sonoridade.
Segundo Pablo Alonso Jiménez em seu artigo “Automatic detection of audio problems for quality control in digital music distribution”, apresentado em 2019 na convenção 146 da AES (Audio Engineering Society) e Dublin, Irlanda, por vezes os artistas têm dificuldades para enviar suas músicas sem a ajuda de terceiros, sendo necessário procurar por distribuidoras de música, que podem ser:
• Distribuidoras digitais: responsáveis por transferir músicas para plataformas de streaming e lojas online.
• Serviços de licenciamento: lidam com o licenciamento para gravadoras e distribuidoras independentes.
• Gravadoras: além de atuar na gravação de faixas, também realizam o serviço de distribuição.
O grande problema ocorre com distribuidoras de música pequenas e independentes, conforme Jiménez explica em seu artigo.
“Distribuidores pequenos e independentes não têm condições de desenvolver sua própria tecnologia para gerenciar seus catálogos, entregar os lançamentos aos provedores de serviços digitais (DSPs) e coletar seus royalties. Para fornecer esses serviços, existem plataformas de software como serviço (SaaS) de marca branca, como a SonoSuite.”
Segundo Pablo, os serviços de distribuição de música não só ajudam a levar as músicas dos artistas para mais lugares, mas também realizam o papel de manter um alto padrão de qualidade das faixas enviadas aos serviços de streaming. Jiménez diz que, para isso, é necessário se ter um programa de gerenciamento de catálogos ou realizar um controle de qualidade manualmente, que é mais demorado.
O grande problema de fazer o processo de controle de qualidade manual são os possíveis problemas de áudio que podem ocorrer. Para facilitar, Pablo dividiu cada tipo de problema em cinco categorias. São elas:
• Margens de silêncio inadequadas
• Problemas de estéreo
• Artefatos de áudio digital
• Problemas de loudness (volume percebido)
• Problemas de ruído
Jiménez diz que as margens de silêncio costumam aparecer devido a erro humano durante o processo de renderização da música podendo apresentar um silêncio excessivo ou insuficiente no início ou no fim da faixa.
Pablo explica que os problemas de estéreo acontecem devido ao gerenciamento incorreto dos canais de áudio, podendo haver:
• “Falso estéreo” (exemplos: quando se configura o mesmo canal duas vezes na saída master ou ao digitalizar uma gravação mono antiga em configuração estéreo).
• Problemas de fase (quando os canais estão “fortemente” fora de fase, deixando componentes da música perdidos em certos sistemas de som).
O aparecimento de artefatos nos arquivos de áudio acaba fazendo com que a reprodução não corresponda ao que foi gravado, segundo Jiménez. Ele diz que os artefatos podem surgir durante o processo de cópia para unidades de armazenamento como HDDs e até mesmo CDs. Abaixo exemplos de artefatos que foram dados por Pablo em seu artigo.
• Gaps (lacunas): trechos vazios de áudio onde o sinal vai a zero ou fica preso em algum valor.
• Clicks e pops: ruídos impulsivos que podem se originar de diversas causas, como sons plosivos em gravações vocais ou artefatos de processos de digitalização.
• Descontinuidades na forma de onda: saltos abruptos e não naturais na forma de onda. Podem ser causadas pela perda de algumas amostras da forma de onda ou por transições inadequadas (crossfades) entre faixas.
• Ruídos súbitos (noise bursts): sucessões de amostras artificiais, normalmente originadas por erros no processo de codificação.
• Clipping: quando a amplitude da forma de onda excede a faixa dinâmica disponível.
O problema de volume percebido (loudness), que pode ser medido em LUFS (Loudness Units Full Scale), e saturação ocorrem devido ao uso incorreto de compressão ou limitação, de acordo com Jiménez. Essa questão será melhor abordada mais à frente.
Por fim, Pablo menciona os problemas de ruído, que são processos estacionários presentes durante toda a música. Jiménez os separa entre dois tipos. São eles:
• Tons de zumbido (humming) são ruídos de baixa frequência e banda estreita, geralmente causados pela rede elétrica (na faixa de 50–80 Hz).
• Ruídos de banda larga incluem uma variedade de ruídos, como o crepitar do vinil ou o ruído de hiss inerente a dispositivos eletrônicos.
Para resolver estes problemas, Pablo Alonso Jiménez propõe a utilização de “algoritmos desenvolvidos ou adaptados para a detecção dos problemas de áudio descritos”. Jiménez diz que os algoritmos “estão disponíveis publicamente como parte da biblioteca de código aberto Essentia” e o código-fonte pode ser consultado no GitHub.
O Tidal fez uma parceria com Eelco Grimm para a realização de um estudo sobre a normalização de volume (sonoridade) e o volume percebido nas músicas através da medição com LUFS [1].
Eelco Grimm em seu artigo “Analyzing Loudness Aspects of 4.2 million Music Albums in Search of an Optimal Loudness Target for Music Streaming”, apresentado em 2019 na convenção 147 da AES em Nova Iorque, Estados Unidos, fez uma análise das faixas do serviço de streaming Tidal para determinar a variação de LUFS nas músicas das últimas décadas, além de diferenciar dois tipos de normalização de volume aplicados pelas plataformas de streaming.
Segundo Grimm, os serviços de streaming e “possuem uma estrutura centralizada e desenvolvem seus próprios aplicativos”, fazendo com que “toda a música no catálogo do serviço possa ser normalizada em termos de sonoridade de uma só vez para todos os usuários”. Ao fazer isso, Eelco diz que a experiência de audição pode ser melhorada, além de possibilitar o “fim da guerra de volume” (loudness war).
Fazer o mesmo com o CD é impossível, já que não há um serviço que centralize o processamento para tratar a sonoridade de todos os álbuns, padronizando tudo. Mas, através das recomendações do ITU-R BS.1770 [2], os medidores de LUFS se tornaram uma ferramenta padrão nas principais estações de trabalho de audio digital, segundo Grimm.
[1] LUFS (Loudness Units Full Scale) é uma forma de medir o volume percebido levando em conta a maneira como as pessoas escutam o som (exemplo: enfatizando as frequências médias, onde está a voz humana, sobre os graves e agudos). Quanto maior o n° na LUFS, mais alto será o volume. Exemplo: -5 LUFS tem um volume mais alto que -10 LUFS.
[2] As recomendações da ITU-R (International Telecommunication Union ou União Internacional de Telecomunicação) BS.1770 traz métodos objetivos para medir a intensidade sonora do áudio através dos LUFS (Loudness Units Full Scale) e do LRA (Loudness Range), por exemplo.
O recurso de normalização de volume foi criado em 2001 por David Robinson com a criação de um padrão aberto chamado ReplayGain, que permite aos reprodutores de música deixarem faixas individuais e álbuns no mesmo volume através de metadados de descrição do sinal elétrico (analógico) do arquivo.
O uso de metadados tem a vantagem de deixar o áudio original intacto. Para que seja possível medir a sonoridade por meio de sinais elétricos, o ReplayGain utiliza um algoritmo de psicoacústica próprio. A adoção do ReplayGain foi feita para metadados ID3 e para os metadados do formato Ogg Vorbis, que é utilizado pelo Spotify. O popular aplicativo de streaming utiliza a normalização de sonoridade por padrão utilizando o ReplayGain.
A Apple desenvolveu sua própria tecnologia de normalização de volume, que chamou de “Sound Check”. Nela é utilizado um algoritmo de análise psicoacústica proprietário. O recurso não é ativado por padrão em seu serviço de streaming, o Apple Music. Note que tanto o ReplayGain quanto o SoundCheck surgiram antes das recomendações ITU-R BS.1770.
Segundo Grimm, o Tidal adotou o ITU-R BS.1770, pois este é um padrão aberto e reconhecido mundialmente para medição de sonoridade de áudio.
A normalização de volume pode ser aplicada de duas formas: normalização por faixa e a normalização por álbum. Os serviços de streaming devem optar por uma delas.
Na normalização de volume por faixa, cada música sofre alterações para ter o mesmo volume de sons durante toda a sua gravação. Como a música é masterizada como um álbum completo, onde há a preocupação em alinhas a sonoridade de todas as faixas para se alcançar um equilíbrio, essa não é a melhor escolha. Ao aplicar normalização por faixa, as decisões do engenheiro de masterização são destruídas.
A normalização por álbum pode ser a solução, embora isso ainda seja problemático ao reproduzir uma playlist com faixas de diferentes álbuns. Na normalização por álbum, todas as faixas de um album recebem o mesmo ganho durante a reprodução.
Segundo Eelco, O Spotify optou por alternar entre normalização por faixa e normalização por álbum, com base no comportamento do usuário. Já no Tidal, Grimm explica dizendo:
“Quando a pesquisa para este artigo foi iniciada, o Tidal havia apenas preparado a normalização por faixa e decidiu não a ativar por padrão para não interferir na intenção artística dos engenheiros de masterização.”
Grimm explica que há dois tipos de normalização por album: a baseada na sonoridade média de todas as faixas e a baseada na sonoridade da música mais alta do álbum. No ReplayGain é utilizado a sonoridade média. Porém, Eelco diz que esse método pode ser abusado se um álbum tiver uma faixa muito alta e várias faixas baixas. Desta forma, a loudness war não acabaria.
A normalização por album utiliza a faixa com volume mais alto como referência para o restante das músicas. Isso faz com que as músicas mais baixas fiquem ajustadas com o mesmo volume das mais altas. A vantagem disso se reflete na produção musical, onde os artistas sabem a sonoridade de todas as faixas assim que a primeira (mais alta) estiver concluída.
Segundo Grimm, o Tidal tinha preferência pelo método de normalização por álbum utilizando a faixa mais alta.
Segundo Eelco, devido às regulamentações de segurança auditivas da Cenelec (EN 50332), os DAPs (Digital Audio Players) e celulares vendidos na Europa possuem uma limitação de -10 LUFS a 100 dBA. Por conta disso, a recomendação td1004 da AES para “Sonoridade de Transmissão de Áudio e Reprodução de Arquivos em Rede” é de que se mantenha os níveis de volume na faixa de -20 LUFS a -16 LUFS ao ouvir músicas em reprodutores de música portátil.
O estudo de Eelco Grimm possibilitou a geração de histogramas das músicas do Tidal por década, partindo dos anos 30 e chegando até 2010. A partir da imagem, é possível notar que há uma tendência de aumento no volume das faixas, comprovando o aparecimento da “loudness war”.
Para ficar ainda mais claro, Grimm gerou um gráfico mostrando uma curva dos níveis médios de LUFS das faixas mais altas por décadas. Eelco diz:
“A mediana aumentou de -16 LUFS nos anos 50 para -9 LUFS nos anos 2010. Nos anos 1990 a mediana ainda era -13 LUFS.”
Durante a análise das músicas, Grimm constatou que “muitas vezes os metadados da data de lançamento (em que esses gráficos se baseiam) não trazem a data do lançamento original” e que “muitas vezes consta a data em que um remaster foi lançado ou até a data em que o álbum foi adicionado ao banco de dados”. Porém, Eelco fala que essa questão não é culpa do Tidal, mas sim das gravadoras, que fornecem essas informações.
Mesmo com essa inconsistência nos metadados, Grimm explica que “há álbuns suficientes de várias décadas para se tirar conclusões”. Ele diz:
“As décadas de 1950 e 1960, por exemplo, têm ambas mais de 20.000 álbuns. Note que a moda de -19 LUFS dos anos 50 e 60 se deve a uma presença acima da média de álbuns de música clássica e jazz nessa época.”
Eelco compartilhou tambem informações sobre a medição de LUFS alguns para alguns gêneros, trazendo uma outra ótica da produção musical ao longo das décadas.
“Foram verificados 165.649 álbuns com metadados “Classical”: a moda na distribuição das faixas mais altas foi de -17 LUFS, e a mediana foi -16 LUFS. Para 287.722 álbuns com metadados “Jazz”, a moda foi -12 LUFS e a mediana também -12 LUFS. Para 473.557 álbuns com metadados “Pop”, a moda foi -8 LUFS e a mediana -9 LUFS.”
Por fim, Grimm mostra um gráfico onde foi quantificado a diferença de LUFS entre as faixas mais altas e as mais baixas (soft) de todos os álbuns.
Eelco explica sobre o histograma acima dizendo:
“A mediana nesse gráfico é de 4 LU, e a moda é de 3 LU. Isso significa que, em 50% dos álbuns, o engenheiro de masterização criou uma diferença de 4 LU ou mais entre a faixa mais alta e a mais suave. Em apenas 2% de todos os álbuns as faixas mais suaves ficam a menos de 1 dB das faixas mais altas. Em outras palavras, usar sempre normalização por faixa afetaria o equilíbrio de loudness entre faixas pretendido em 98% de todos os álbuns. Isso não parece ser um bom serviço aos artistas.”
Embora o Spotify tenha adicionado o áudio lossless à sua plataforma de streaming, ainda há diversos problemas serem solucionados com relação às músicas adicionadas. Além disso, existem problemas relacionados ao recurso de normalização de volume, que é ativado por padrão em seus aplicativos, onde devido ao fato de que o ganho é ativado por faixa, acaba com todo o trabalho de masterização feito nos álbuns.
O Tidal ainda é afetado pela questão da produção das músicas, além de erros nos metadados, que é causado pelas distribuidoras. Entretanto, quando se ativa a normalização, ela é feita por álbum a partir da faixa com volume mais alto, uma alternativa mais inteligente, que tende a preservar as intenções dos produtores musicais.
Compartilhe:
Nenhum comentário foi feito, seja o primeiro!