Por: Vitor Valeri
O áudio de alta resolução é uma nomenclatura utilizada para adjetivar arquivos de música com 24 bits e taxa de amostragem acima de 44,1 kHz. Ou seja, faixas com resolução 24 bits/44,1 kHz já podem ser consideradas de alta resolução, embora não sejam consideradas “Hi-Res” pela JAS (Japan Audio Society), responsável pelas especificações necessárias para se ter o selo “Hi-Res”, que exige um arquivo de pelo menos 24 bits/96 kHz.
Recomendação de artigo relacionado ao tema:
• O que é áudio lossless? Como funcionam os formatos de arquivos de música
O áudio de alta resolução é representado por arquivos com uma resolução de 24 bits/44,1 kHz. O bitrate (fluxo de dados) do arquivo da música deverá ter no mínimo 2116,8 kbps para ser um arquivo de áudio de alta resolução.
Para o áudio seja considerado “Hi-Res”, é necessário que o a música tenha uma resolução de 24 bits/96kHz, que é a especificação definida pela Japan Audio Society (JAS). Isso significa que a arquivo de áudio deverá ter pelo menos um bitrate de 4608 kbps para ser classificado como “Hi-Res”.
Para calcular o bitrate de uma música, basta saber sua profundidade de bits (bit depth), expressa em bits (exemplos: 16 bits, 24 bits, 32 bits), e sua taxa de amostragem (sample rate), que geralmente aparece nas músicas com 44,1 kHz, 48 kHz, 88,2 kHz, 96 kHz, 176,4 kHz ou192 kHz. Ao ter estes dados, você deverá utilizar a seguinte fórmula:
Taxa de amostragem (sample rate) x profundidade de bits x 2 canais (estéreo) = Bitrate (bit rate)
Exemplo:
192 kHz x 24 bits x 2 canais = 9216 kbps
De acordo com Reiss, J. D. em seu artigo “Meta-Analysis of High Resolution Audio”, publicado em 2016 no Journal Audio Engineering Society, quando é aplicado um treinamento padronizado, é possível perceber uma pequena diferença entre arquivos com resolução de CD (16 bits/44,1 kHz) e arquivos de alta resolução (24 bits/44,1 kHz ou superior).
Reiss relata na conclusão de sua meta-análise o seguinte:
“No geral, houve uma capacidade pequena, mas estatisticamente significativa, de discriminar entre áudio de qualidade padrão (44,1 ou 48 kHz, 16 bits) e áudio em alta resolução (além da qualidade padrão). Quando os participantes foram treinados, a capacidade de discriminação foi muito mais significativa.”
Joshua acrescenta dizendo que a duração do teste pode ser importante para favorecer a capacidade de distinguir o áudio de alta resolução de arquivos com qualidade de CD.
“Na seleção cuidadosa dos estímulos, incluindo sua duração, pode desempenhar um papel importante na capacidade de distinguir entre áudio em alta resolução e áudio em resolução padrão.”
Infelizmente, Reiss menciona que não pode abranger tantos aspectos práticos da percepção de diferenças no áudio de alta resolução.
“Vários aspectos práticos importantes da percepção de áudio em alta resolução não puderam ser confirmados nem refutados. A maioria dos estudos focou na taxa de amostragem, de modo que a capacidade de discriminar profundidade de bits mais alta, por exemplo, 24 bits em comparação a 16 bits, permanece uma questão em aberto. Nenhum dos estudos incluídos na meta-análise utilizou fones de ouvido, portanto, questões sobre como a apresentação por fones de ouvido afeta a percepção também permanecem em aberto. A meta-análise também não abordou questões relacionadas a implementações específicas de sistemas de áudio, como a escolha de filtragem aplicada, o formato específico de áudio em alta resolução escolhido ou a influência dos vários componentes de hardware na cadeia de gravação e reprodução de áudio (além de avaliar possíveis vieses que poderiam ser introduzidos por escolhas inadequadas).”
Mizumachi, M. em seu artigo “Subjective evaluation of high resolution audio through headphones”, apresentado em junho de 2016 na convenção 140 da AES (Audio Engineering Society) em Paris, na França, descreveu um experimento onde foi utilizado fones de ouvido para comparar arquivos de alta resolução com músicas com resolução próxima da de um CD e com faixas no formato MP3 nos bitrates 128 Kbps e 320 Kbps.
No teste de audição realizado, participaram “36 indivíduos com diferentes níveis de experiência em áudio e música, abrangendo uma ampla faixa etária (20 a 70 anos)”, de acordo com Mizumachi. Essas pessoas foram divididas em dois grupos. São eles:
• Grupo A: composto por 11 entusiastas de áudio e músicos que são familiarizados com apresentações musicais ao vivo e com arquivos de alta resolução.
• Grupo B: formado por com 25 indivíduos que costumam ouvir suas músicas em formatos com qualidade de CD e em MP3, além de raramente frequentar shows ao vivo.
Mitsunori disse:
“A seleção adequada das fontes musicais é importante para detectar perceptivamente as pequenas diferenças entre os formatos de áudio. Os autores examinaram a viabilidade de algumas fontes musicais em diversos gêneros musicais. Considera-se que uma peça de jazz é a mais adequada para esse tipo de discriminação perceptiva, pois cada instrumento pode ser ouvido de forma independente e rápidas transições temporais ocorrem com frequência.”
Foi utilizada a música chamada “Colors of Darkness” do álbum “T-TOC DATA COLLECTION VOL.2” em um formato de arquivo de alta resolução com 24 bits/192 kHz, onde os participantes ouviram 120 segundos a partir do início da faixa para depois comparar com outros formatos e resoluções, de acordo com Mizumachi. Ele diz que o arquivo de áudio foi utilizado da seguinte forma:
“A fonte original em HRA foi reamostrada e teve a profundidade de bits reduzida para o formato quase-CD de 48 kHz/16 bits. A conversão dos dados foi realizada usando a função “resample” com um filtro passa-baixa FIR cuidadosamente projetado no MATLAB. Em seguida, a fonte quase-CD foi convertida usando o codificador LAME MP3 em dois formatos MPEG com compressão com perdas: 320 Kbps e 128 Kbps, respectivamente. No teste de audição, os participantes compararam a mesma música em quatro formatos diferentes: PCM 192 kHz/24 bits (HRA), PCM 48 kHz/16 bits (doravante abreviado como CD), MP3 a 320 Kbps (MP3-H) e MP3 a 128 Kbps (MP3-L).”
Segundo Mitsunori, os equipamentos utilizados para as pessoas avaliarem as músicas foram os seguintes:
• Reprodutor de áudio “Pioneer N-50”
• Amplificador de fones de ouvido “Brüel & Kjær ZE0769-004”
• Fones de ouvido “Sennheiser HD650”
De acordo com Mizumachi, o procedimento para a realização do teste foi feito da seguinte forma:
“Foram realizadas comparações em pares entre os quatro estímulos nos diferentes formatos de áudio. Os participantes ouviram a música em dois formatos diferentes com um intervalo de 30 segundos em cada comparação em pares. No total, cada participante foi solicitado a selecionar o estímulo com melhor qualidade em 12 pares de estímulos apresentados em ordem aleatória. A taxa de acerto foi definida como a proporção de vezes em que os participantes escolheram o formato mais rico em cada par.”
O resultado dos testes mostrou que o grupo A, que está mais familiarizado com músicas ao vivo e arquivos de alta resolução, obteve um acerto de 77,3% comparando faixas com qualidade de CD e músicas em formatos de alta resolução. Já o grupo B, que escutava músicas em qualidade de CD e arquivos em MP3, além de não assistir a muitos shows, teve uma taxa de acerto de 46%.
Mitsunori também fez um comparativo utilizando os dados deste estudo com outra pesquisa que ele realizou utilizando alto-falantes dentro de um carro. Veja o resultado no gráfico abaixo.
Mizumachi comentou em seu artigo sobre as descrições feitas pelos participantes sobre o áudio de alta resolução (HRA) dizendo:
“As vantagens perceptivas do HRA (áudio de alta resolução) incluíram representação espacial, riqueza de informações e reverberação natural. Os comentários dos participantes sobre o HRA com fones de ouvido não mencionaram presença e realismo, embora a presença tenha sido uma das características perceptivas mais importantes do HRA nos experimentos anteriores com alto-falantes. Supõe-se que a apresentação com fones de ouvido seja superior à com alto-falantes na discriminação de detalhes, pois consegue eliminar interferências de ruídos de fundo e da acústica do ambiente.”
Segundo Melchior, Vicki R. em seu artigo “High-Resolution Audio: A History and Perspective”, publicado em 2019 no Journal Audio Engineering Society, o streaming de música lossless começou a surgir devido ao “envolvimento do consumidor estimulou a qualidade dos lançamentos online em alta resolução” de diversas maneiras. Melchior cita os seguintes aspectos como responsáveis por esse impulso para a utilização dos arquivos de áudio de alta resolução:
• Exigência para com a procedência das gravações: anteriormente havia o lançamento de muitos álbuns convertidos para uma resolução maior a partir de arquivos com resolução de CD (16 bits/44,1 kHz).
• Pedido para utilização de arquivos de áudio maiores: baseado apenas em relatos de melhorias sonoras incrementais, sem ter como base os princípios de engenharia e psicoacústica.
• Uso da melhor fonte disponível na remasterização de obras antigas.
Melchior diz que “taxas de dados muito altas podem fazer sentido para caminhos internos de engenharia”, ou seja, só faz sentido para quando se utiliza no processo de gravação, mixagem e masterização.
Mesmo em 2019, Melchior relata perceber que está havendo uma migração inicial dos serviços de streaming para os arquivos de áudio de alta resolução. Em 2025 é possível ver que esse movimento foi claramente adotado pela maioria das plataformas, pois já temos as seguintes opções para escutar músicas de alta resolução:
• Amazon Music
• Apple Music
• Deezer
• Qobuz
• Spotify
• Tidal
Porém, por mais que haja essa ampla adoção do áudio de alta resolução pelas plataformas de streaming, Melchior fala que as discussões sobre se músicas em resoluções mais altas deveriam soar mais transparentes já tem sido debatida nos últimos 30 anos e ao fim, ela conclui que “o uso de formatos de alta resolução não garante a percepção de transparência”.
Compartilhe: