モンゴメリーさんの【24/192 音源は本当に馬鹿げている】翻訳

リンクが参照出来ない場合は魚拓がありますので以下からご確認下さい。

https://web.archive.org/web/20200426202431/https://people.xiph.org/~xiphmont/demo/neil-young.html

Xiph.org の記事は、かなり前から有名でありました。モンゴメリーさんという方が書いた記事で、モンゴメリーさん自身もMIT 卒のプログラマで音楽圧縮フォーマットを開発しているので、その観点から彼もこの記事を書いたと思います。当然この記事の肯定派もいれば、否定派もいます。この論争に決着は付きません。何故かと言うと、これは 数学エンジニアの主張 であるからです。

24/192 Music Downloads are Very Silly Indeed
(ハイレゾ音源は本当に愚かで馬鹿げている)
https://people.xiph.org/~xiphmont/demo/neil-young.html

この記事はエンジニア、もしくはそれに準ずる人は必ず理解してほしい、音響工学の基本も解説されています。ほとんどのエンジニア（カブれ）の人と話をすると、プラグインの話しかせず、純粋に音について基本知識を持って議論できるような人は最近は皆無です。エンジニアは基本的に頭でっかちの上に技術やアーティスティックさを求められます。デジタルオーディオの基本知識さえない、間違って覚えている人が非常に多いです。基本に返って読んでほしいです。

Twitter でこの記事を和訳する、と発言してしまったので掻い摘んで翻訳していく。ものすごく長いので結構端折ります。

24-bit/192kHz フォーマットで音楽を配信する意味はありません。

24/192 の再生音の忠実性は 16/44.1 や 16/48 よりもわずかに劣り、そして 6倍のデータ容量となります。

最初に悲しいお知らせ

基本的な信号理論やサンプリング定理を理解している人はほとんどいません。「サンプリング定理がデジタルオーディオにどのように機能するのかを実際には説明していない」と主張する人さえいました。サンプリング定理はデジタルとアナログの架け橋になる定理です。デジタルオーディオ理論ではありません。

耳の構造と人間の知覚範囲を知る

耳は有毛細胞から音を感じています。また渦巻状になっている器官はバスレフのように働き、個人差はありますが 40Hz〜65Hz あたりを感じとれます。この周波数を下回ると急激に知覚困難になります。

また人間の聴覚は周波数によって感度が異なります。(等ラウドネス曲線) 極低域、極高域の音になればなるほど、知覚するには音量が必要になります。

つまり、人間の可聴範囲と定義されている 20Hz〜20,000Hz は非常に寛大な値です。

黄金の耳など存在しない

ほとんどの人が自分は耳が良いと誤解しています。私達はそんな黄金の耳を持った人に出会ったことがありません。もちろん研究者もです。ここで言う黄金の耳とは拡張された聴覚範囲を持つ人のことです。100年以上探していますが誰も見つけられていません。おそらく存在しないでしょう。

あなたは紫外線や赤外線が見えますか？

あなたはリモコンの先から赤い光が放射されているのを肉眼でみたことありますか？これと同じように可聴範囲外の音は人間には知覚できないと間接的に説明できます。

192kHz は有害です。

192kHz のデジタル音楽ファイルには利点がありません。しかも中立的でもありません。実用的な忠実性は少し悪くなります。超音波の再生中ために起きる弊害の為です。

可聴範囲外の音をアンプが再生した場合、特性的に悪い影響をあたえます。30kHz、33kHz のトーンを再生したときに可聴範囲内に相互変調歪みが混入します。

約 0.09％の THD を持つ理論アンプでの 30kHz と 33kHz のトーンの相互変調から生じる歪み成分の図。耳に聞こえない超音波は、可聴範囲（水色の領域）で相互変調歪みを引き起こします。超音波を再現するように設計されていないシステムは通常、20kHz を超えるはるかに高いレベルの歪みを持ち、さらに相互変調に関与します。超音波を考慮して設計の周波数範囲を広げるには、可聴スペクトル内のノイズおよび歪み性能を低下させる妥協が必要です。いずれにせよ、超音波は再生性能を低下させる。

以下にテストトーンがあるので、サンプルレートをあわせてご自分の環境で再生して見ください。ノイズが発生したら再生システムに変調歪みが発生しています。

30kHz tone + 33kHz tone (24 bit / 96kHz) [5 second WAV] [30 second FLAC]
26kHz – 48kHz warbling tones (24 bit / 96kHz) [10 second WAV]
26kHz – 96kHz warbling tones (24 bit / 192kHz) [10 second WAV]
Song clip shifted up by 24kHz (24 bit / 96kHz WAV) [10 second WAV]
(original version of above clip) (16 bit / 44.1kHz WAV)

誤解と誤りだらけのサンプリング

サンプリング理論は、信号処理の知識がないと直感的に理解できないことがよくあります。ほとんどの人が日常的に誤解しているのは当然であり、多くの人が誤解していることすら気づいていません。

サンプリングされた信号は、大まかな階段（赤）として描かれていることが多く、元の信号の再現には不十分です。ただし、表現は数学的に正確であり、アナログに変換し直すと、信号は元の正確な滑らかな形状（青）を回復します。

最も一般的な誤解は、サンプリングは基本的に大雑把で損失が多いということです。サンプリングされた音声信号は、ギザギザの階段上に表されますが、これが誤解です。これがサンプリングのしくみであると考えるならば、サンプリングレートが速いほど（そしてサンプルあたりのビット数が多いほど）階段は細かくなり、近似値は近くなると考えてよいでしょう。サンプリングレートが無限大に近づくと、デジタル信号は元のアナログ信号にどんどん近づいていきます。

そしてあなたは、「うーん」と言うだろう。

サンプリングされた信号は、高周波のアナログ波形を再現できていないと感じるでしょう。音の周波数が高くなると、サンプリング品質が低下して周波数レスポンスが低下するか、位相に影響すると考えます。

見た目に騙されいます。これは真実ではありません。

ナイキスト周波数（サンプリングレートの半分）を下回るすべての音声信号は、サンプリングによって完全に補足できます。無限のサンプリングレートは必要ありません。サンプリングは周波数応答や位相には影響しません。アナログ信号を正確なタイミングで、損失なく、スムーズに再構築できます。

※ 大まかに説明すると、アナログ信号をデジタルサンプリングしてアナログに再現する場合、情報は2倍必要になる、というようなこと。だから 48kHz で 24kHz までの信号を収録できる。

それは、数学的理想的です、しかし、実世界への最も影響する事柄はなんですか？最も悪名高いのは帯域制限です。ナイキスト周波数を超える信号は、エイリアシングノイズを避けるためにサンプリングの前にローパスする必要があります。このアナログローパスは、悪名高いアンチエイリアシングフィルタです。 … そして、オーバーサンプリングするということを生み出しました。

オーバーサンプリングの是否

48kHz を超えるサンプリングレートは忠実なオーディオデータとは無関係ですが、現代のデジタルオーディオ技術では内部的に必要不可欠です。

※ この項目 DAW とミックス、マスタリングに関係してきます。は記事下部で解説

16-bit vs 24-bit

192kHz にこの問は意味をなしません。終了。

16-bit と 24-bit の違い

16-bit Linear PCM が理想的な条件で人間の耳の理論上のダイナミックレンジ全体を完全にカバーするわけではありません。また、録音や制作に 16-bit 以上を必要とする理由があります。

しかしそれは再生には関係ありません。ここでは、24-bitAudio オーディオは 192kHz のサンプリングと同じくらい無用です。いいところ上げるとすれば、少なくとも 24-bit でも音声の忠実度が損なわれないことです。ですが、容量を無駄するだけです。

16-bit のダイナミックレンジ

16-bit Linear PCM は、最も一般的な定義によると 96dB のダイナミックレンジを持ち、ダイナミックレンジは（6 *bits）dBとして計算されます。16-bit オーディオは -96dB より静かなサウンドを表現できないと多くの人が信じています。

これは間違いです。

Sample 1: 1kHz tone at 0 dB (16 bit / 48kHz WAV)
Sample 2: 1kHz tone at -105 dB (16 bit / 48kHz WAV)

16-bit/48kHz の -105dBトーンのスペクトル分析図。この音声は明らかに 96dB より深く、そうでなければ -105dB のトーンは表現できず、聞こえないでしょう。音声を再生して音量を上げてみてください。

どのようにしてこの信号を歪みなしでエンコードし、ノイズフロアをはるかに超えてエンコードすることができるのですか？

ディザーで説明が付きます。量子化ノイズは発生せず、関係のないノイズが発生するだけです。しかし、ディザーは、信号がノイズフロアを下回ると、事実上消えるはずであるという事実を変えてはいません。

-96dB のノイズフロアを超えても、-105dBのトーンは依然として明確に聞こえますか？

-96dB ノイズフロアの数値は事実上間違っています。不適切なダイナミックレンジの定義を使用しています。（※ 録音と同義で考えないこと）

ディザーノイズエネルギーを聞き取りにくい周波数に移動させるノイズシェイピングを使用すると、16-bit オーディオの有効ダイナミックレンジは 120dB に達し、6dB の主張より15倍以上深くなります。

120dB は、同じ部屋のどこかにいる蚊と、30cm 離れて聞く道路用掘削機の差よりも大きいです。16-bit は聞くことができるすべての音を収めるに十分です。永遠に十分でしょう。

信号とノイズ比

耳の S/N比が絶対ダイナミックレンジより小さいことを説明しなければいけません。実際の環境では S/Nは約30dB に過ぎないと推定されます。広い帯域幅を考慮しても、相対 S/N はフルダイナミックレンジには達しません。16-bit PCM が実際に必要とされる分解能より高い解像度を有していることを保証します。

また、16-bit から 24-bit にビット深度を増やしても、音声の知覚可能な解像度や「精細度」が向上するわけではないことも説明する必要があります。ノイズフロアを下げることによって、可能な限り小さい音と大きい音の間の範囲を広げるだけです。しかし、16-bit のノイズフロアはすでに聞こえるよりも下にあります。

24-bit の必要性

プロフェッショナルは、ヘッドルーム、ノイズフロア、便宜上の理由で、録音、制作に 24-bit を使用します。

16-bit で十分な余裕があり、実際の聴覚範囲をカバーするのに十分です。記録時に 24-bit を使用する主な理由は、間違いを防ぐためです。入力ゲインの調整でクリッピングしないように、逆に音声を小さく録音しすぎてもノイズが混入しないように、オペレータはおおよそのレベルを設定できます。

エンジニアはミキシングとマスタリングの間に 16-bit 以上を必要とします。16-bit の量子化ノイズとノイズフロアは、再生中は検出できない場合がありますが、そのノイズを数千倍にすると、結局目立つようになります。 24-bit は累積ノイズを非常に低いレベルに保ちます。音楽を配信する準備が整ったら、16-bit 以上で保存する必要はありません。

リスニングテスト

この記事では、ハイレートオーディオ支持者がハイレートの優位性を披露するために選んだ DVD-A / SACDコンテンツと、その場で 16-bit/44.1kHz まで縮小させた同じコンテンツをリスナーに提示しました。

リスナーは 49.8％の確率で音源を言い当てれました。言い換えれば、推測していたに過ぎず、聞き分けできていません。テスト全体を通して、1人のリスナーがどれが 16/44.1 でどれが高レートであるかを識別できませんでした。16-bit の信号は、ディザリング処理さへしていませんでした。

もちろんハイレートオーディオ支持者は「私はハイレートオーディオを好んで聞いてきました、その違いは明らかです。自分の耳を信用するなと本気でいっているのですか？」と言います。

※ ここではその場で音源を変換しているが、現代のハイレゾ音源はオリジナル CD 音源とはマスターやマスタリングの違いがあるのでその差を感じているかもしれない。

警告

個々の論文や「専門家の解説」を文脈から外したり、私利私欲的な情報源からのみ抜粋したりしないことが重要です。すべての論文がこれらの結果に完全に同意しているわけではありません (そして、いくつかの論文は大部分が同意しません)。そのため、考えられるすべての結論を正当化するように見える少数意見を見つけるのは簡単です。

むしろ、ネットを通じて入手できる「曖昧で決定的ではなく完全に無効な実験結果」の数は、正確で客観的なテストを構築することがいかに難しいかを浮き彫りにしています。研究者が探している違いはほんのわずかです。被験者の意識から逃れた潜在意識の選択を特定するには、厳密な統計分析が必要です。

私たちは存在しないものを「証明」しようとしている可能性が高いため、それはさらに困難になります。帰無仮説を証明することは、停止問題を証明することに似ています。できません。圧倒的な重みを与える証拠のみを収集できます。

それにもかかわらず、帰無仮説を確認する論文は特に強力な証拠となります。聞こえないことを確認することは、それを議論することよりも実験的にはるかに困難です。テスト方法や機器における未発見の間違いは、ほとんどの場合、偽陰性ではなく偽陽性の結果 (誤って聴覚的な違いを引き起こすことによって) をもたらします。

プロの研究者が、微細で孤立した可聴差を適切にテストするのにこれほど苦労しているのなら、アマチュアにとってそれがどれほど難しいか想像できるでしょう。

確認バイアス、プラシーボ効果、およびダブルブラインド

リスナーがリスニング以外の方法で2つを区別できるテストでは、結果は通常、リスナーが予想していたものになります。これは確認バイアスと呼ばれ、プラシーボ効果に似ています。潜在的な手がかりや、オーディオとは関係のない好みのせいで、人々が違いを「聞く」ことを意味します。

人間の脳は、パターンや違いが存在しない場合でもその違いに気づくように設計されています。客観的な判断を下すように求められたときに、この傾向を止めることはできません。それは完全に潜在意識です。単なる懐疑主義によってバイアスを打ち負かすこともできません。確認バイアスを慎重に排除しないテストは無価値です。

2重ブラインドリスニングテストはゴールドスタンダードです。このテストでは、テスト監督者もテスト受験者も、テストの内容や進行中の結果に関する知識を持っていません。コンピュータで実行される ABX テストは最も有名な例です。ABX はリスニングテストに意味があるための最低限の基準と考えられています。※詳しくは原文参照

ラウドネストリック

人間の耳は約1dB の振幅差を意識的に識別することができ、実験では振幅差が 0.2dB 未満であるという、潜在意識の認識を示しています。人間は普遍的には、より大きな音声をより良く聞こえる、と考えています、そして 0.2dB はこの好みを確立するのに十分です。ステレオセールスマンは長い間このトリックを知っていました。

クリッピング

クリッピングの危険性は、デジタル信号をその場で作成、リサンプリングテストでは特に有害です。 48kHz サンプリングを 192kHz ソースサンプルと比較したいとします。典型的な方法は、192kHz から 48kHz にダウンサンプリングし、それをさらに 192kHz にアップサンプリングして元の 192kHz のサンプルとABXテストで比較することです。この方法により、機器のばらつきやサンプルの切り替えが影響する可能性を排除できます。同じ DAC を使用して両方のサンプルを再生し、ハードウェアも変更せずに音声だけ切り替えることができます。

残念ながら、ほとんどの音源はフルデジタルレンジを使うようになっています。リサンプリングは時々クリップすることがあります。クリッピングを監視するか、減衰などの他の方法でクリッピングを回避する必要があります。

異なるメディアと異なるマスター

この比較は無効です。マスターは通常違います。

Inadvertent cues

原文参照。テストをする上で、不注意に気をつける。

最後に

私達が聞いているデジタルオーディオの品質を向上させるためになにをすればいいですか？

より良いヘッドフォン

最も簡単な解決策はデジタルではありません。コストに関して最も劇的な改善方法は、ヘッドフォンです。オバーイヤーだとかインイヤー、オープエアーだとかクローズドだとかは関係ありません。高価なヘッドフォンはお金に見合う価値があるかもしれませんが、高価である必要すらありません。

ヘッドフォンは、よく設計され丈夫で素晴らしいサウンドであれば高価なものを選択してください。それ以外は置物です。なぜなら、デザイン、ブランド、そしてマーケティング資金に費やされた偽物です。たとえ電子機器や音楽に特化していても、大きな家電量販店で良いヘッドフォンを見つけることはほとんどないと思います。

無損失フォーマットとより良いマスター

適切にエンコードされた Ogg ファイル（または MP3、または AAC ファイル）がオリジナルと見分けがつかないことは十分に事実です。

FLAC のような可逆フォーマットは、低品質の非可逆エンコーダ、あるいは誤って使用された高可逆エンコーダであってもオーディオの忠実度を損なう可能性を回避します。

また、SACD 版のレコーディングは CD リリースよりかなり良く聞こえる、ということを言及しました。これは、サンプルレートやビット深度の増加によるものではなく、SACD がより高品質のマスターを使用したためです。いいプロダクションとマスタリングは明らかに音楽の最終的な品質に貢献します

Monty’s articles and demo work are sponsored by Red Hat Emerging Technologies.
(C) Copyright 2012 Red Hat Inc. and Xiph.Org
Special thanks to Gregory Maxwell for technical contributions to this article
Monty (monty@xiph.org) March 1, 2012