音声圧縮技術による音質の劣化は、主に「アーティファクト」と呼ばれる現象として現れる。アーティファクトは、圧縮過程で生じる不要なノイズや音の歪みであり、音質の低下の主要な原因である。例えば、ビットレートを下げるとローパスフィルタの周波数が低下し、高周波成分が削減されるため、音がこもったように感じられることがある。しかし、この現象は「音の重厚さが減少する」という表現とは本質的に異なる。ローパスフィルタによる音質の変化は、音の明瞭さや鮮やかさの低下として現れるが、「重厚さ」という曖昧な概念とは直接結びつかない。16kHz以上の高周波をカットするフィルタを適用しても、音が極端にこもることは少なく、12kHz以上をカットした場合に初めて顕著な「こもり」が生じる。このような具体的な変化を、漠然とした「重厚さの減少」と表現するのは不適切である。
非可逆圧縮技術は、人間の聴覚が感知しにくい音の成分を優先的に削減することで、高い圧縮率を実現する。例えば、16kHz以上の高周波成分や、大きな音に隠れて聞こえにくい小さな音が削減対象となる。これらの削減は、心理音響学の知見に基づいて行われ、人間が気づきにくい形で音声データを圧縮する。しかし、こうした技術的知識を持つ人が、「音を間引くことで重厚さが減少する」と誤解するケースがある。実際には、ABXテストを通じて音を比較すれば、圧縮による音質の低下は「重厚さの減少」ではなく、アーティファクトの発生や音の歪み、トーンの不安定さとして現れることがわかる。アーティファクトは、音が汚れたり、不自然な響きが生じたりする現象であり、アナログ音声の劣化とは全く異なる。
アナログ音声の劣化は、温かみや独特の「味」として肯定的に捉えられることがあるが、デジタル圧縮によるアーティファクトは、音の汚染として否定的に評価されるべきである。アーティファクトは、心理学的にも技術的にも興味深い現象であり、その具体的な影響を理解するには実際に耳で聞く必要がある。「音の重厚さの減少」といったアナログ時代のアナタタな表現でデジタル圧縮を批判するのは、技術の本質を見誤る。非可逆圧縮技術の評価において、過去のアナログオーディオの用語に頼るのではなく、アーティファクトの発生やその影響を正確に分析することが求められる。技術的な知識を少し持つだけで、誤った解釈をするリスクが高まるため、客観的な検証が一層重要となる。
補足として、可逆圧縮技術による音質の劣化は存在しないが、非可逆圧縮ではアーティファクトが主な問題となる。このアーティファクトは、アナログ再生機器の調整による音質変化とは異なり、音の汚染として明確に認識される。アナログ機器では、音の「味」が重要な要素として扱われるが、デジタル圧縮の音質評価では、アーティファクトの少なさが品質の指標となる。アーティファクトの種類は多様であり、どの程度許容できるかはリスナーの好みに依存するが、一般的にはアーティファクトが少ないほど良いとされる。エンコーダの設定を変更してアーティファクトを意図的に増やすことは可能だが、これは推奨されない。音の汚染を好む人がいるとしても、それを他人に勧めるのは避けるべきである。
デジタル圧縮によるアーティファクトの判別には、再生環境も重要な役割を果たす。高品質なヘッドフォンやスピーカー、適切な音響環境がなければ、アーティファクトを正確に捉えるのは難しい。したがって、音声圧縮技術の評価においては、再生環境の整備も考慮する必要がある。ABXテストとサンプル音源の公開を通じて、客観的かつ透明な評価を行うことが、音声圧縮技術の進化とリスナーの満足度向上につながる。
だが、ある程度の性能がある場合、アナログ再生環境の違いで発生する音質の違いが明確な目立つアーティファクトの鑑別に影響を与えない。この事実は、音声圧縮技術によるアーティファクトが、再生機器の特性や環境の違いに左右されず、明確に識別可能な形で現れることを示している。実際にアーティファクトを耳で経験すれば、その独特な音の汚れがどのようなものかを理解できる。この経験は、音声圧縮技術の評価において、視覚的なデータや主観的な印象に頼るのではなく、実際のリスニングに基づく判断の重要性を教えてくれる。アーティファクトは、音声圧縮の過程で生じる不自然なノイズや歪みであり、これを正確に捉えるには、適切なリスニング環境と訓練された耳が必要である。しかし、高品質な再生環境であれば、アーティファクトの存在は明らかであり、再生機器の微妙な違いがその検出を妨げることは少ない。
音声圧縮技術の調整について考える際、アナログオーディオの分野での「調整」とは異なる視点が必要である。アナログオーディオでは、調整は必ずしも原音に忠実であることを目指さず、むしろリスナーが楽しめる音作りを重視する場合がある。例えば、アナログ機器のトーンコントロールや真空管アンプの温かみのある音色は、音楽に独特の「味」を加えるために用いられる。このような調整は、リスナーの好みに応じた音の個性を引き出すことを目的としている。しかし、音声圧縮技術における調整をこのようなアナタタな「音作り」の視点で理解するのは根本的な誤りである。音声圧縮技術の調整は、原音に可能な限り忠実な音を、より小さなファイルサイズで実現することを目指す。この目標は、アナログオーディオの「味」を重視するアプローチとは本質的に異なる。
例えば、最近のLAME MP3エンコーダの調整は高度に洗練されており、2004年の公開オーディション試験では、128kbpsでのLAME MP3がWMA9 StdやATRAC3よりも優れた評価を受けた。このような結果に対し、「調整による音作りは再生環境に依存するため、比較試験の結果は無意味だ」と主張する人がいる。しかし、この考えは誤っている。音声圧縮技術の基本的な目標は、「人間が圧縮前の音と識別できない音を、より小さなビットレートで実現する」ことである。この目標は、透明性を追求するものであり、再生環境やリスナーの好みに左右される「音の味」を加えることを意図していない。LAMEの調整は、この透明性の基準に基づいて行われており、特定の再生環境に最適化された「味付け」を目指すものではない。このような誤解は、音声圧縮技術の本質を理解していないことから生じる。
人間の聴覚は、驚くほど鋭い一方で、簡単に騙される特性も持つ。例えば、音の波形が大きく変化していても、リスナーがその違いをほとんど認識できない場合がある。音声圧縮技術は、この特性を巧みに活用し、知覚されにくい音の成分を削減することで高い圧縮率を達成する。このアプローチは、心理音響学に基づいており、例えば高周波成分や大きな音に隠れた小さな音を意図的に削減する。これにより、ファイルサイズを大幅に縮小しつつ、音質の劣化を最小限に抑えることができる。したがって、音声圧縮技術の比較における基本的な基準は、「圧縮前と圧縮後の音を人間が識別できない程度にどれだけ近づけられるか」である。この基準は、一般に「透明性」と呼ばれ、音声圧縮技術の品質を評価する際の最も重要な指標である。
透明性の基準に基づく評価では、単一の音源や個人の感想に依存するのではなく、多様な音源を用い、複数のリスナーによる検証が必要である。音源によって圧縮の影響は異なり、個人差も存在するため、広範なテストを通じて評価の信頼性を高めることが求められる。音声圧縮技術の調整も、この透明性の基準に基づいて行われる。調整の目的は、音の汚染(アーティファクト)を最小限に抑え、圧縮前とほぼ同等の音質を維持することである。もし圧縮によって顕著なアーティファクトが発生した場合、たとえ高性能な再生機器を使用しても、その汚染は消えず、リスナーは圧縮前と圧縮後の音を容易に識別できてしまう。このような場合、該当する圧縮技術の評価は必然的に低くなる。
多くの音源を複数のリスナーに評価してもらい、その結果を総合することで、音声圧縮技術の客観的な評価が得られる。このプロセスは、単一の視点や主観的な好みに依存しない、信頼性の高い評価を可能にする。要するに、「音の重厚さ」や「楽しむための音作り」といった観点から音声圧縮技術を評価するのは、技術の本質を理解していない証拠である。音声圧縮技術の音質は、音の汚染の有無や透明性の基準に基づいて評価されるべきであり、調整もこの基準に従って行われる。たとえば、128kbpsや64kbpsといった低ビットレートでは、Hi-Fiと呼べる音質を実現するのは難しいが、適切な調整によって透明性を高める努力が続けられている。
世の中には、音声圧縮技術の評価を自動化するソフトウェアが存在するが、その信頼性については慎重な検証が必要である。ソフトウェアによる機械的な判定は、客観的なデータを提供する一方で、人間の聴覚に基づく主観的な評価と完全に一致するとは限らない。人間の耳は、微妙な音のニュアンスや感情的な響きを捉える点で、ソフトウェアとは異なる特性を持つ。このため、機械的な評価と人間の主観的評価を一致させるのは困難であり、さらなる研究が必要である。興味深いことに、音響の専門家でさえ、256kbps以上のビットレートでは原音との違いを識別できない場合が多い。この事実は、320kbpsのMP3とCDの音質差を「いつでも簡単に認識できる」と主張する人の信頼性が低いことを示している。