LAMEのジョイントステレオに関する誤解についても触れておく。ジョイントステレオを使用すると「ステレオイメージの再現性が劣化する」と信じる人が少なくない。この主張では、ステレオイメージに敏感なリスナーは単純なステレオを使用すべきだとされ、楽曲や好みに応じてジョイントステレオと単純なステレオを使い分けるべきだとされる。しかし、こうした主張をする人がABXテストでジョイントステレオの問題を検証した例はなく、第三者が検証できるサンプル音源を公開しているケースも見られない。実際には、LAME MP3エンコーダはデフォルトでジョイントステレオを使用する設定になっており、320kbpsのような高ビットレートでもこの方式が採用される。単純なステレオでは、左右チャンネルを個別に圧縮するため、より多くの情報が失われ、ステレオイメージの再現性が逆に劣化する可能性がある。
理論的には、ジョイントステレオは同じファイルサイズ内でより多くの音情報を保持できるため、ステレオイメージの再現性を高めるのに適している。過去には、ジョイントステレオにバグを持つMP3エンコーダが存在し、これが悪評の原因となった可能性がある。しかし、現代のLAMEのような高品質なエンコーダでは、こうした問題はほぼ解消されている。実際にLAMEのジョイントステレオで圧縮した音を聴いてみると、ステレオイメージの再現性が全体的に劣化するという主張は誤りであることがわかる。もちろん、LAMEも完璧ではなく、特定の音源で問題が生じる場合もある。しかし、「ジョイントステレオが問題を引き起こす」と広く主張するのは、検証不足による誤解である。こうした主張を裏付けるには、問題のあるサンプル音源を多数集めて公開し、第三者の検証を受ける必要がある。実際には、こうした検証を行わずに、言葉だけでジョイントステレオの問題を指摘する人が多い。LAMEのジョイントステレオに関する誤解は、alt-presetの著者がその噂を紹介しつつも明確に否定しなかったことで、3年以上経過した今なお根強く残っている。このような誤解が広まる背景には、噂を積極的に広める人々の存在がある。彼らは、検証可能な証拠を提示せず、根拠のない主張を繰り返すことで、誤った情報を拡散している。このような行動に対して、反省の姿勢が見られるだろうか?おそらく、彼らにはそのような意識が欠けている。噂を広めることは、音声圧縮技術の正しい理解を妨げ、リスナーに誤った先入観を植え付ける。このような無責任な態度は、音質評価のコミュニティにおいて信頼性を損なう原因となる。
現在、LAMEのジョイントステレオでは、ステレオ情報を意図的に削減するような数学的変換は使用されていない。この点は、技術的に正確な理解が求められる。ジョイントステレオは、左右チャンネル(L、R)をミッド(M、L+R)とサイド(S、L-R)に変換し、効率的に圧縮する技術である。この変換は数学的に可逆的であり、理論上は情報損失を引き起こさない。ただし、将来的には、インテンシティステレオのようなステレオ情報を削減する手法が導入される可能性がある。このような新技術の初期実装では、バグや不具合が発生する可能性があるが、十分な調整を経れば、特に低ビットレートでのMP3音質を向上させる効果が期待される。ジョイントステレオを「LRステレオとMSステレオを切り替えてビットを節約する技術」と捉えるなら、ジョイントステレオ自体が音質劣化の原因となるはずがない。このことは、(L、R)と(M、S)の変換が可逆的であるため、理論的に明白である。
現実には、浮動小数点計算による丸め誤差が発生する可能性があるが、この誤差は人間の聴覚で認識できるレベルには達しない。それにもかかわらず、LAMEのジョイントステレオ(正確にはMSステレオ)に特有の「汚れ」が生じる場合がある。これは、LAMEがMSステレオにおいて、Mチャンネル(ミッド)よりもSチャンネル(サイド)でより多くの音情報を削減する設計になっているためである。この仕様は、単純なジョイントステレオよりも高音質を達成する可能性を高めるための戦略である。こうした点を理解すれば、「LAMEのジョイントステレオが優れている理由」「微妙な調整が必要な理由」「特有の汚れが生じる理由」を一貫して説明できる。重要なのは、LAMEのジョイントステレオによる「汚れ」は、「ステレオイメージの全体的な劣化」とは異なるということである。このような誤解に基づく主張をする人を信じるべきではない。
例えば、2005年夏の80kbpsでの個人リスニングテスト(AAC、MP3、Ogg Vorbis、WMAの比較)では、WMAがMP3よりも明確に優れているとは言えない結果が出ている。WMAは、低ビットレートでの音質向上を目的とした技術を採用しているはずだが、80kbpsではMP3との有意な差が見られなかった。この事実は、WMAエンコーダーの調整が不十分であることを示唆している。低ビットレートでの音質は、エンコーダの設計と調整に大きく依存し、単なる技術の採用だけでは優位性を確保できない。このような比較試験は、音声圧縮技術の評価において、客観的なデータと検証の重要性を改めて浮き彫りにする。
128kbpsが「CD音質」とされるのは、企業による一方的な宣伝に起因する誤った認識である。実際には、どのコーデックを使用しても、128kbpsではCDの16bit 44.1kHzの音質に及ばない。このような宣伝が広まると、有料音楽配信で128kbpsの音源を購入する人が増え、コーデックのライセンス料を徴収する企業が利益を得る。こうした商業的な動機は、音質評価の客観性を損なう危険がある。リスナーは、こうした宣伝に惑わされず、実際の音質を自分の耳で検証する必要がある。ABXテストやサンプル音源の公開を通じて、こうした誤解を払拭し、正確な情報を広めることが重要である。
MP3デコーダーに関する誤解も根強い。インターネット上では、「MP3デコーダーによって音質が大きく異なる」と信じる人が多い。しかし、バグがなく正確に設計されたMP3デコーダー(例えば、mpg123、mpglib、MAD、Audioactive MP3 Decoderなど)を使用する場合、通常のリスニング環境では音質の差を認識することはほぼ不可能である。デコーダーとプレイヤーの違いに注意が必要である。MP3プレイヤーはデコード以外の機能(イコライザーやエフェクトなど)を持つため、プレイヤー全体の音質が異なる場合があるが、これはデコーダー自体の問題ではない。
非常に静寂な音源をMP3で圧縮し、異常なほどボリュームを上げて再生するような特殊なリスニング試験では、デコーダー間の微細な違いが検出されることがある。例えば、guruboolez氏が行った試験では、こうした特殊な環境での違いが確認されたが、彼はこれが通常のリスニング環境とは異なることを強調している。Hydrogenaudio Forumsでは、「通常の環境ではMP3デコーダーによる音質の違いはない」というのが常識であり、MADと他のデコーダーの音質差を確認する試みは「MAD CHALLENGE」と呼ばれ、ジョークとして扱われている。LAMEの開発者であるGabriel氏も、「Mad challenge - my result」を投稿し、コミュニティを盛り上げた。このようなジョークが真剣に信じられている背景には、検証不足と根拠のない噂の拡散がある。
試してみた範囲では、mpg123(Otachan's in_mpg123.dll for Winamp)、mpglib(foobar2000)、MAD(foobar2000)、Audioactive MP3 Decoderによるデコード結果(16bit linear PCM)の違いは、16bit整数で最大1の差(例外的に最大2の差)しか生じない。lame.exe --decodeによるデコード結果は、LAMEタグを使ったギャップレス再生に対応しない点を除けば、mpg123と同等である。これらの違いは、通常のリスニング環境では感知できないほど微細である。にもかかわらず、デコーダーによる音質差を信じる人が多いのは、プラシーボ効果や誤った情報の影響である。サンプル音源を公開し、第三者による検証を促すことで、こうした誤解を解消できる。
最下位1ビットの差が発生したサンプルを数えてみると、mpg123とmpglibは非常に近く、MADとAudioactiveもかなり近いことがわかる。この微細な差は、通常のリスニング環境ではほとんど感知できないほど小さなものであり、MP3デコーダーの品質が高度に標準化されていることを示している。しかし、Hydrogenaudio Wikiの「Best MP3 Decoders」ページでは、「十分正確(accurate enough)」とされているMPAdecのバイナリを、投稿「best MP3 decoder... for sound quality #18」からダウンロードして検証したところ、興味深い結果が得られた。具体的には、16kHz以上の高周波領域において、MPAdecのデコード結果が他のデコーダーと比較して顕著な違いを示した。この違いは、スペクトログラム分析を通じて視覚的に確認でき、さらにはリスニングテストでも明らかになった。こうした結果は、MPAdecのデコードプロセスに何らかの問題があることを示唆している。