視覚情報の実利と実害

音楽を制作する人にとって、視覚情報というのは非常に理解が難しい。

こんなことを呟いてしまいました。

まぁ、個人的には音楽を視覚的に表現するのはやめた方がいい。 https://t.co/lz4YMUh2mm
— Naruki (@Naruki_Engineer) May 28, 2024

別に深い意味がなかったのですが、こんなことを言ってしまった自分が悪い

正直、この情報は非常に良くないと思ってしまったのでポロッと嘆いたことが良くなかった。

もちろん、このポストの意味は正しい情報を伝える意図で作ったものではないだろう。ただ、ミックス解析 にしては非常にお粗末であるのは事実である。(建前がエンターテインメントでもミックス解析なんて言葉がそもそも間違い) ましてや、ある程度の知名度がある代理店、それも広報のメディアがこれを投稿してしまうコンセンサス的なものも含めて。これが個人のアカウントなら別に僕は多分嘆きはしていないのだろう。

「咎める意図はないが、思うところはある」程度で本ポストに特に恨みがあるとか、貶めたいとか、そういう意図はありません。全体的な情報の問題です。

この図を 図の通りに受け取る と、音量が一番大きいのはシンセコードスタブなんかな、って思う。そしてボーカルって真ん中の音にとって一番後ろの位置関係やなって思っちゃう。問題なのは、サビに該当するテーマパートにはボーカルが存在しないから、本当はこの解析はどの部分 (何分何秒あたり) の解析ですって言わなきゃならない。曲は常に変動するのに固定のイメージ表示を提示するからややこしい。

もちろん、これは図をそのまま解釈すると、という意味で、情報の精度としては事実とかなり乖離するので、良くないなぁって言っちゃう自分が一番悪い。黙ってればいいんだよ。エンジニアなんて。

原曲。ちょっと大人な MV なので 15 歳未満の人は閲覧注意ですね

ただし、ハイハットがステレオで 14kHz 〜 22kHz くらいに表示で書かれているけど、この原曲「The Chainsmokers – Closer ft. Halsey」を聴けばわかるけど、普通にハイハット 250Hz あたりまで聴こえるし、ハイハット明らかに右配置だし。

リードシンセは 500Hz 〜 4kHz あたりに書かれているけど、明らかに音が歪んでいて 16kHz あたりまで普通にまんべんなく音聴こえますし、基音は 200Hz あたりですよね。コードスタブはイメージ画像よりは支配的でもないし。ボーカルは普通に真ん中以外にも広がっているし。

情報として公開することに問題はない。それは各個人の感想だろうし。ただ、情報の精度として、明らかに間違っているのは、よろしくはないなぁ〜と思っちゃう。だから、視覚情報にするのはあまりオススメしない。でも、もっと良くないのは、性格悪そーな引用リポストする筆者 である。

で、なんか「言い放しって、カッコ悪いな」って思ったので、時間を見つけてはつらつらと視覚情報に関する個人的推論を書き連ねよう思います。毎度のごとく、長いのですし、初心者向けでもないです。同業者向けのアンチテーゼ、ふんだんです。

個人的な視覚情報に関する解釈

音楽を視覚的に理解するのは初心者にとっては逆に情報が増えすぎて、あまり良い側面を持たないと思います。こういうのは一部の天才というか、ごく一部の上級者向けの情報になります。複数の側面からの情報を総合的に精査でき、かつ自分で有効活用できるからこそ、役に立つ情報で、そのまま情報を鵜呑みにしてしまうと、自分の制作が迷走する原因となる情報の選択を増やしているだけになります。

もちろん、このミックスの視覚化が全く役に立たないか、というとそうではありません。自分の楽曲でこういうチャートを作ってミックスに望むことはアリだと思います。ミックスのチャートは文字でも視覚的情報でもなんでも残すのは有意義です。ミックスのプロットイメージとしては非常に有効に働く場合もあるでしょう。

ただし、他人に教えるときに有効的か、と問われると…う〜んって感じ。

重要な解釈は情報自体に有益、無益は存在しないということ。これは情報戦略の基礎と同じで、手に入れた情報を元に仮説や結論を導き出すことが目的です。情報を集めるときに自分が欲しい情報を集めてもあまり意味がありません。ただ、相手を納得させたり論破する時には、特定の情報を得に行く意味はあります。

こと、音楽制作に於いては情報は手に入れて、自分で昇華することに意味があり、そのまま利用することではありません。もちろん音楽の場合は、そのまま使ってみることができるので、自分でその情報通りのことを実行してみて、最終的に自分で判断することが重要です。

ここで初心者が陥りがちなのが、思い込みやプラシーボです。こういう知らない情報が自分にとって勝手に「足りなかった情報だ」と判断してしまいがちです。視覚情報というのは、いろいろな事実を知らないと主観が優先順位として勝手にトップに躍り出て「参考になるわー」ということになる。もちろん参考になるレベルの高い人もいれば、そうではない人もいる。重要なのは情報ではなく、情報の活用方法だ。

引用リツイートしてしまった画像はなんとなく有用な情報であるが、個人的には非常に誤解を生む情報でもあるため、深い理解がないと非常に危うい情報となる。

この話は以下の記事で詳しく語っているので割愛しますが、重要なのは「主観と事実と優先度」を自分なりに構築できるか、になります。

合わせて読みたい

直感と思い込みと主観と事実と優先度

Category: Column
2020/04/30

筆者ですら理解していないことはたくさんある

ぶっちゃけ、プロの現場で活躍、活動している音楽家、エンジニアであっても各種のメーターの見方が本質的に理解できていない、なんていうことはザラにあります。

だって、僕がそうでしたから。スタジオに入って SSL に付いている位相相関メーターの見方なんて、先輩から教わったことないですから。学校でなんとなく、LR で同相成分が多いときにメーターが縦方向に振れます、逆位相成分が多いと横方向にメーターが広がります、的な知識を卓上で学んだだけで、知識として知っていても、まず、同相と逆位相がどういうものか具体的で実践的な情報を得たわけでもないのに見方なんて全くわかりませんでした。

稀に周波数特性を表示するメーター (Spectrum Analyzer) が置いてあるスタジオがありましたが、そもそも 31 Bands の Analog Style メーターであり、表示方式の詳細を知らないメーターなぞ役に立ちません。ただ、わからなくても毎日使っていけば傾向が見えてきて何となく使える状況は見えてきます。一番良くない例だとは思いますが…

筆者が考えるミックスチャート

例えば Hook はボーカルとコードシンセが主体でほぼ混ざり合っている様に聴こえる

では、実際にはこの該当曲がどの様に視覚的に見えているかを考える。

音は実際には特に前後関係なぞ存在しなく、両方が混ざりあった音が聴こえるので、視覚的に表現するなら前後感が表現されないように、色が混ざったように表現するべきだと思ったりするわけで。

特に Hook はほぼボーカルとコードシンセとキック、クラップのみ4種しかないため、視覚的な情報はこれで足りる。クラップは周波数としては結構ノイズっぽい音になるため、全体に聴こえ、かなりの音ををマスクする、しかし、キックと同時発音はないため、Hook 部分では絵で考慮していない。

そもそもこの楽曲の Kick サウンドはすべての要素をかき消すレベルで主張してくるが、それはせいぜい 100ms 程度であり、100ms でスっと消えていく。

視覚化する場合、ほんの数 ms の間でチャートが常に変化することを理解しないと、殆ど深いミックスへの理解は無理だと言っておこう。もちろんミックス解析としての視覚情報で別に各個人が勝手に脳内変換して見えるイメージとは異なる。

Kick はほんの数 ms でクリック音である 300Hz 以上の音はすぐに消える。時間軸で周波数が絶えず変化することを聞き取れなければ意味がほぼないと言っていいと個人的には思う。

ちなみにこの楽曲、Kick が鳴っている時は Bass のほうが基音高い。Bridge の部分で 40Hz あたりの単音ベースが聴こえる。

そして、もちろん、Pre-Chorus ではピアノとボーカルしか音が鳴っていない。のでチャートは役に立たない。コーラス、テーマ部分では、そもそもキックとクラップとリードシンセしか殆ど鳴っていないので、それぞれのセクション事にチャートは考えるべきである。

なぜ、視覚情報が基本的に役に立たないのか

それは 波形の視覚化 と実際の 音の整合性 が取れないことにあります。

以前、動画で「アナログ信号とデジタル信号の物差し」についての話をしました。

ここでは 1km と 1mile について感覚的な話を例にあげている

これと同じ要領なんですが、実際にメーター見ている信号と実際にスピーカーから聞いている信号の整合性が取れますか、っていう話なんです。ここでは見える音と聞こえる音の話で各個人が脳内変換したイメージとは違います。

僕は小学生の頃から野球が好きで当時 MLB で投手の投げるスピード表示が mile で、このマイル表示が小学4年生には理解できませんでした。 100 mile が約 160 km/h なのは知っていて、93 mile が約 150 km/h、90 mile が約 145 km/h なのをアナウンサーの実況で聞いて覚えて、自分で電卓で大体、1 mile = 1.609 km/h かな、って求めるような小学生でした。ですから mile に関する感覚は昔からあります。しかし、普通の日本人はヤード・ポンド法ではなく、メートル・グラム法が一般的なため、マイルやポンド、フィートって言われると途端に理解できません。それと同じようなことが音楽制作で起こります。

視覚情報と音が一致するかどうか、が重要です。

訓練が必要なんです

メーターは役に立たない、という論調を持ち出す人は結構います。

EQ するときに「アナライザーばかり見て音を聞いていない」等の事を言う人、いっぱいいました。僕もしょっちゅう言われました。多分、今でも「メーター見て EQ してないか？」って言う人いると思います。もう、そういう時代でもないしそういう次元で私個人は制作してません。

僕はバンバンメーター見て EQ しますよ。そのあとに音を聴きます。要は「視覚情報だけで EQ するな音を聴け」なんですが、エンジニアっていう生き物はすぐに極端に走ります。「メーターを見るな、信用するな」と。ふと、ある時気づきました。「あぁ、そもそもアナライザー表示と音が一致しないからそういう事言うんだな」って。

重要なのは「メーターは嘘は付かない」という事実です。メーターはあなたの耳より正確な情報を表示しています。ただ聞こえる音というのは非常に多角的な視聴環境の問題により、メーターと実際の音が乖離し、その時に、「潜在的な問題がそこに存在する」と判断できるだけの知識と経験が必要なのです。

つまり、メーターを正しく読み取る訓練をしないと「メーターは役に立たない」という意見が芽生えます。自分が位相相関メーターがスタジオにあっても見方がよくわからないから見てなかったことと、殆ど本質は一緒です。見方がわからないから使えないレッテルを貼るし、見方を教えられないから見るな、ということを言う。

昔ながらのエンジニアさんは、現代みたいな FFT が表示される高性能な Digital EQ を使ってこなかったので「そんなものに頼るな、耳を鍛えろ」っていう、あれよね、そのメンタルというかそういう志向は大事だと思います。しかし「なぜデジタル EQ の設計者が FFT を表示させているか」を考えると「メーターも使ってね」ということです。

ただし、メーターを正しく使うにはかなり訓練が必要です。特に測定値を正しく読み取る知識が必要です。

そもそもメーターの表示方式がバラバラ

また、ポスト引用になり申し訳ないのですが、こんなことがあります。

やっぱ FFT の見方が問題ですよねぇ、日本語だとちゃんとしたアナライザーの見方、みたいな解説がまったくないですから。そもそも Slope の設定でフラットの位置が全くことなるし、リリース速度調節したら、どんな曲もだいたいフラットに見えるんですよねぇ… https://t.co/PLcv7FcR0j
— Naruki (@Naruki_Engineer) May 30, 2024

元々はマルチバンド処理でフラット云々のポストが原点ですが、そもそもフラットの定義がよくないのです。

実は「周波数帯域がフラット」という言葉、意味不明な言葉なんですよ。

例を出して色々事実を知っていきましょう。

ホワイトノイズとピンクノイズ

ノイズの話も実は結構重要で、ホワイトノイズとピンクノイズについては知って置く必要があります。他にもブラウンノイズとか色々あるんですが、とりあえず、音響の世界で一番使われるであろう、ホワイトノイズとピンクノイズについて知りましょう。

これを知らないと後々の話が理解できない、レベルには重要な話です。

ホワイトノイズ

実はノイズはめっちゃ専門的な知識が必要になります。ホワイトノイズについてちゃんとした説明すると…

信号処理において、異なる周波数で等しい強度を持ち、一定のパワースペクトル密度を持つランダム信号

となります。意味不明ですね。まぁ機器測定とかに使いやすいスペクトル特性を持った信号でいいですが、もう少し砕けて説明すると…

すべての周波数が均等に含まれているランダムな波形であり、これは、白い光がすべての可視光線の波長を均等に含んでいることに近しい意味でホワイトと命名されています。太陽光は基本白く、虹が出来るのは可視光線の波長をすべて含んでいるから、と同じようなことですね。

この説明がわからない人はそもそも工学的な視点ミックスが向いてないかもしれない。

ピンクノイズ

ピンクノイズもちゃんと説明すると…

ピンクノイズはパワースペクトル密度 (周波数間隔あたりのパワー) が信号の周波数に反比例するような周波数スペクトルを持つ信号

こんな感じ、意味不明ですね。

要は「周波数が高くなるほどエネルギーが減少する特性を持っている波形」です。このパワースペクトルを持つ可視光がピンク色に見えることからピンクノイズと命名されてます。命名の法則は音とは関係ないね。

ノイズが役に立つ？

さて、これらが何に役に立つのか、実例を見ていきましょう。

ホワイトノイズはすべての周波数に於いて同じパワー (エネルギー) を持つということで、事実上、フラット と定義してもいいと思います。

ですよね？だって「すべての周波数が均等に存在する波形」なんですから。

つまり「フラットを目指す＝ホワイトノイズ特性」と定義してもいいですよね。言葉の定義としてはフラットでしょう？

ではホワイトノイズをアナライザーを見てみよう

ホワイトノイズを多分よく使われている EQ に入力して FFT を見てみましょう。FFT というのは高速フーリエ変換の意味ですが、いちいち Spectrum Analyzer と打つのが面倒なので、周波数特性表示のことを FFT と置き換えて説明する場合があります、FFT とは Spectrum Analyzer 表示のことです。

Reaper さんの White Noise Generator で各 EQ の表示の比較してみました。

すでに表示がバラバラなのが理解できるしょう…

つまり、本当の意味でのフラットであるホワイトノイズの特性を目指す場合、利用するツールでフラットの表示定義がバラバラになります。つまりフラットを目指すということは「どのツールと目指すのか」で、本当に意味不明なバランスになりうるということです。

つまり、物によって FFT 表示が「フラットを目指す」という意味で役に立たない場合があります。

このような状況下では「メーターは役に立たない」は正論になります。ただし、それはレベルが低い人の意見となります。そもそも「フラットの定義がクソ」っていうことです。

そもそも周波数スペクトルが一定の音なんてある？

ホワイトノイズはすべての周波数に於いて一定のエネルギーを持つ波形です。

そんな音、自然界にある？いや、ホワイトノイズは自然界にあるんだけどなｗ

そういう意味じゃなくて、例えばピアノで C のメジャーコードを弾いたとする。その周波数スペクトルはフラットかを考えてみる。音は基音と倍音の関係性で基本的に基音が一番エネルギーが大きく、倍音がなだらかに減衰していくようなイメージだ。

まーた反論意見が出そうなので一応記載しておくが、スネアのスナッピーとかほぼホワイトノイズ成分だし、シンバルにもホワイトノイズ成分が多分に含まれているぞ。

あるピアノのコード「C」メジャーの周波数分布を Pro Q3 – **Tilt: 0 dB/Oct** で見た時

この図の様に通常の楽器音の構成の場合、C4 の基音構成からコードの和音のピーク、そして倍音のパワースペクトルが右肩下がりで見える。(G3 の音は和音として一緒に弾いています。)

また、矩形波を生成した場合には「フラット」と形容するような信号を生成できるが、自然な音ではない。

**Tilt: 0dB/Oct 表示** でシンセサイザーの音を矩形させた、が、フラット特性にはまだ及ばない。

シンセサイザーで作った C4 の信号でもフラットの表示の実現が難しい。が、ここにも落とし穴がある。

C1 の音を矩形させてかつ EQ の Analyzer の **Tilt 表示を 6dB/Oct** に設定した

あーら。フラットが実現できました。

(もう折り返し雑音とか色々ごちゃごちゃした信号なのでナイキスト周波数近くのパワーが少しだけ多い…？)

そもそも「何がフラットであるか」がワケワカラン状態になってきたと思います。

これらをしっかりと理解するために、複数の事前知識が必要になります。

スペクトラムアナライザーの基礎知識

これを知らないと、そもそも FFT、Spectrum Analyzer の見方、使い方がわからない。

Free でかつ、優秀な Analyzer に登場してもらおう。

Voxengo Audio の SPAN だ。

くっそ優秀な無償 Spectrum Analyzer なのでこれを使いこなせれば、すべてのアナライザーに対して応用が効くようになる。はず。

上記はホワイトノイズをフラットに表示させている。この設定は以下の画像だ。

右下に「Slope」という設定があるが、これはオクターブごとにパワースペクトルをどれだけ補正して表示するか、という設定である。(Slope 以外にも Tilt という表示名の場合もある)

補正値 0 dB ということは、すべての周波数のパワースペクトルに表示補正をしないということ。

「ハッ…もしかしてホワイトノイズって利用価値ある…？」って気づける人が上達が早い人だと思う。

つまり、ホワイトノイズはすべての周波数のパワースペクトルが一定の信号であり、ホワイトノイズを利用して FFT がフラットに表示されることに意味が見いだせる。

この EQ の FFT の Slope または Tilt 設定は補正ナシだな！っと把握することも出来るし、有能なプラグインの場合、FFT の Slope または Tilt 設定を変えることが出来る。

ですから Slope または Tilt 設定を極端に設定してやれば…

このスペクトラムは Pro-Q3 で見た C メジャーのコードを弾くピアノの音を無理やりフラットに近づけて表示している。同じ音だが、表示設定を変えるだけで、まるで違う音のように、視覚的には情報が得られてしまう。

オクターブごとに 9 dB の補正表示をするため、エネルギー表示がオクターブごとに +9 dBされていく

つまりは表示設定と音がリンクしていないのに FFT の表示を見ても仕方がないのである。つまり「アナライザーを使った作業はするな」というのは、そもそも物差しがわからないのに使ってもしょうがないでしょ、という意味となる。この事実を知っている方からすると、であるが…

それじゃイカンわけで。

メーターを使う努力をするべきで、それには知識と訓練が必要なのです。

スペクトラムアナライザーは波形を変換表示しているだけ

FFT とは DAW 上で表示されるナミナミの波形を縦軸がエネルギー量、横軸を周波数に変換したものであり、その波形が持つ情報をグラフに変換表示しているに過ぎない。すべての周波数が均等にエネルギー (パワー) を持っているホワイトノイズやオクターブごとにエネルギー(パワー) が半減するピンクノイズを利用すれば Spectrum Analyzer の傾向やスタジオ機器、スタジオの環境やスピーカー特性も観測できる。

重要な大きな問題

常に FFT の表示補正値を頭に入れておかないと、プラグインごとに表示が違うのはなんとなく経験的に知っていても、各プラグインでの感覚の統一ができないため、FFT つまり Spectrum Analyzer の表示によって EQ のかかり具合の違いみたいな錯覚を得ることがあります。

FFT の表示深度が深い EQ プラグインを使った場合、変化量が数値的には少しだとしても、表示、見た目的に大幅に変化する場合、非常に EQ の直感的動作に弊害をきたす場合があります。

例えば、今でも人気のある Waves の REQ や Q10 の UI に慣れている人が比較的新しい UI の EQ を使った場合、見た目だけで EQ を手癖のように行ったら非常に困る事象がたくさん存在する。

まず、FFT の精度と補正値が違う。両方ともホワイトノイズを入力しているのだが、Waves の方は Tilt: 4.5 dB/Oct くらいの表示設定っぽいが、SSL は補正ナシということがわかる。マニュアル嫁って話なんだけどね。

そして FFT というか dB の表示深度が違うため、Waves の Q Series などに慣れていると、同じような UI 感覚で EQ をすると dB 深度が違うために値がかなり異なる。

Waves REQ の場合「125 Hz, 2.5 Q, -4.5 dB」という設定で、その見た目だけを SSL X-EQ2 に移植してみたが「168 Hz, 4.2 Q, -6.7 dB」という感じになる。

これが、物差しの話だ。当たり前だけど通常はこんな運用はしないだろう。が、見た目ありきで EQ してきた層が新しい EQ へ移行できない理由は、新しい EQ 感覚に追いつけないからである。悪い意味ではない。「使い慣れた道具」という意味は「音と見た目が一致している」という部分は非常に大きい。

だからちゃんとした物差しを手に入れろ、ということ。

重要なのは常に同じ物差しを持っておくこと

FFT の表示深度や Tilt 設定が同じではないことはもう仕方がない、と諦めるしかない。

だってFFT の表示設定を変更できるプラグインは少数派だからだ。

だから SPAN みたいな標準となる Spectrum Analyzer を自分で設定して使っていくべきなのである。

どうやって物差しを作るんだい？

問題なのは Slope 設定や Tilt 設定で物差しが変化してしまうことなので、標準を作る必要がある。

え、Slope も Tilt も 0dB 設定でいいんじゃね？っていうのわからんでもないが、それじゃ、フラットの定義付けが夢のまた夢へ遠のく。

思い出して欲しい、矩形したシンセサイザー信号をフラットに表示させた方法は Tilt 設定 6dB/Oct というものでした。

ここで重要なのは矩形波とはどういう特性をもつ信号なのか、ということ。

矩形波について工学的にボンボンと語りたいが、すでにいろんな記事で言及しているため、ちょっと省かせてくれ。

合わせて読みたい

史上、最も嫌われ、そして最も求められる効果「歪」

Category: 有料コンテンツ
2024/06/05

矩形波っていうのは、音圧戦争時にもやり玉に挙げられた、信号が海苔波形になっているような波形のことを言います。が、実際には海苔波形は見た目の解像度の問題で、音と相関関係はありません。海苔波形は評価の対象にはできません。見た目の問題なので。

矩形波でググってくれたらいい。矩形信号は面積が大きいのでエネルギーが大きいんですよ、つまり内包する周波数特性が増えるということでもあって、うんたらかんたら。

もっとざっくりいうと、クリッパーやオーバードライブなどで作れる音です。エンジニアが言う「いい音」っていうのは大体「周波数が満遍なくなっている音」って勝手に私は思っていますが、クリッパーで矩形すればエネルギーと周波数特性が広がるのでいい音って脳が勝手に解釈します。(偏見です。実際には歪み過ぎで良くないことも多いです。)

まぁ、深くは突っ込みませんが「リミッターやマキシマイザーで音がかっこよく、言い音になった！」っていう錯覚はエネルギーの増加と周波数特性の均一化に由来していると、私個人が勝手に解釈しています。まぁこれはほぼ間違ってないと思ってますけど。

矩形波って…流石に極端すぎやろ

そうなんですよ、矩形波がいい音、という定義は流石に飛躍し過ぎです。ですから、極端に矩形しない程度に結構飽和している音はかなり有効的なんじゃないか、って半ば強引に考えていきます。

まぁ、つまりアナログディストーションやサチュレーションの話になっていくんですけどね。もっと深く突っ込むとどの様に信号を適切に飽和させていくか、に繋がっていく。この記事では深く突っ込みません。

以下は C メジャーのピアノコードを極端に矩形しない程度に歪ませてみました。ただ、トランジェントが結構矩形しちゃった…けど。

これは左下に表示してある通り、エネルギーの表示補正、Slope の設定は 0 dB です。

当たり前ですが、先程の C4 の矩形波は 260 Hz しか出力していない信号を矩形させているので、6dB/Oct の設定でフラットな表示になりましたが、単音の音楽をつくる人は殆どいないと思うのでコードを弾いた音でより実践的な値を見ていく。

これに対してフラットに近づく様に Slope を設定してあげると…

ピアノでコードを演奏した場合、2次、3次の倍音も含まれ、そこに歪みがたされていけば、基音の周波数よりも上の倍音のエネルギーが必然的に増幅され、この時の表示だと 2〜3kHz が持ち上がっているようにみえる。ので、もう少し調整してみる。

まぁ、フラットかな…レベル。今度は飽和する波形の特徴を知らないと理解できないかもしれないが、以下で語っているので、ここでは割愛するぞ。

合わせて読みたい

史上、最も嫌われ、そして最も求められる効果「歪」

Category: 有料コンテンツ
2024/06/05

飽和するということは、倍音が増えるんですが、すべての倍音が等倍にゲインを得るわけではないため、高域は普通に減衰しますよね、これがわからん人はまだこの話を理解するレベルにないと思ってください。

コードの基音 260 Hz そして C5 も同様に弾いているので 520 Hz の 3 次倍音あたりまでフラットに見えていれば良さそうだなぁって感覚的に思っていただけたら言いです。ただ、あくまでピアノコードで参考画像を見せているに過ぎないのでこの感覚は共通の感覚としては使えない。

だから…ここで、ピンクノイズのこと思い出してあげてください。

ピンクノイズはパワースペクトルが信号の周波数に反比例するような周波数スペクトルを持つ信号

まぁ、だからなんだよって感じでしょうが、ピンクノイズはオクターブごとに約3dB エネルギーが減衰するんです。これは数式で表すことが出来るんですが、誰もそんな事望んでいないと思うので、そういう波形だって覚えてください。

ほぉ。つまり、いい感じに飽和している音って 3dB/Oct でフラットってこと？

という こじつけがましい推論 が導き出されます。

もちろん、そんな明確ないい音の定義なんて有りません。強引な説明のためのこじつけ解釈ですのでアシカラズ。

ピンクノイズって実はめっちゃ使える！

非常にこじつけがましい推論でここまで来ましたが、普通にリファレンスにピンクノイズ使おうぜ、っていう話は英語文献などで普通にたくさん見つけられます。ですから、ピンクノイズはリファレンスに使えるんです。

上記はそれぞれ 3.00、2.80、3.25 の補正をかけた FFT を見ている。

別に 3.00 を絶対的な標準にするより、Tilt や Slope の値は各個人の裁量だが、この曲は重心低い曲だから 2.75 くらいを目安に FFT を使っていくか〜っとか、この曲はハイパーポップ系だから 3.25 くらいの重み付けで FFT 見ていくか〜っていう柔軟な対応が取れるやつが強いぞ。つまり筆者つおい。

もちろん重み付けの仕方は各個人で調整だ。低域を豊富にしたいときに Slope 設定を 3 より増やすか減らすかは個人の物差しで決めるべきです。あくまで、バランスの見え方の問題なので注意しよう。

SPAN の重み付けは FFT の監視ではあるんだけど、FFT の Slope を柔軟に変更していけば、極端なレゾナンス周波数を耳と目で発見出来る可能性があるぞ。

Block Size

FFT であまり語られないのが Block Size だ。

ブロックサイズは計算速度と解像度って思ってもいい。で、Block Size は実は重要で、表示できる周波数の解像度を上げることが出来る。そしてその関係性はすごく単純な式であらわすことができる。

サンプリング周波数 / Block Size

つまり、SAPN の標準の Block Size: 2048 という設定は「48000Hz / 2048 = 約 23.44 Hz」であるため、精度的には少しお粗末ではある、が可聴範囲ギリギリってところでしょうか。低域における詳細表示が必要ない場合は 2048、パフォーマンスと表示のいい塩梅で 4096、少し詳細に監視したいときに 8192 という感じ。

それ以上はリアルタイム性が欠けてくるので、上級者が利用してね。って感じ。

逆に Block Size 128 だと 375 Hz という分解能なので、375 Hz 以下の周波数はぶっちゃけ何もわからない。

Block Size によっても少し FFT の重み付けの表示が異なるため、あくまでも自分で標準を作っていく必要がある。それは Pink Noise を使うことも大事だが、自分のミックスしたい音のバランスで決めるべきだし、それには訓練が必要である。

Block Size 128 でフラットっぽく表示させようとすると Slope は 3.60 になる。そして低域の表示が全く意味をなさない

Block Size 32768 の場合、多少リアルタイム性は薄れるが約1.46 Hz の分解能が得られる。つまり 2Hz くらいまでの詳細な解像度が得られる。Slope の値は 2.70 あたりになった

Block Size も非常に重要なパラメータであるが、これもいじれるプラグインが少ない… Pro-Q3 と Kirchhoff EQ は数値ではないが、Miximum とか選択できる。デフォルトの FFT の値はあまり信用しちゃいかんということだ。Pink Noise 入れて確認確認！

そして自分の物差し用の Analyzer をしっかりと持って置くことが重要！

FFT の Windows Function (窓関数)

エンジニアにとってもっと理解が難しいのが窓関数の問題である。

これは普通に専門的な高速フーリエ変換の数学の話が関連する。かなり高度な話で大学で情報数学とか信号理論を真面目に学んだ限られた人しかそもそも理解できないレベルの内容だから、音楽のエンジニア如きが理解できるものではない。そもそも大学で情報数学を専攻していても、内容はなんとなく知っているが、完全に理解しているかはまた別の話。

理解できるかは重要ではなく、これらが関連するという事実を知っておく

ある程度の数学というかデジタルの音響の知識がある方なら離散化によって時間領域から周波数領域への変換が可能だということはサンプリング理論の基礎知識も含め、知っていると思うが、時間を離散化するということは時間を有限時間として定義して周波数領域も有限の値に変換するということである。

フーリエ変換の基礎の話で少々話をすっ飛ばすが、時間領域を周期的に離散化すると周波数領域も離散的かつ周期的となる。これを 離散フーリエ変換 (DFT 変換) というらしい。そしてこれを効率的に計算するアルゴリズムを高速フーリエ変換という。つまりあくまで「離散フーリエ変換」の高速計算方法が 高速フーリエ変換 だってことで実は FFT の中身は離散フーリエ変換である。

賢い人なら「有限」という言葉だけで FIR に結び付くと思う。FIR の最終的な有限の意味はインパルス応答が必ず 0、Steady State に収束する話、つまり数学的に有限でかつ安定。IIR は 0 には収束しない、安定しないという意味だが、設計次第でもある。もちろん実際にはデジタル IIR フィルターだって離散化しないと計算できないので、有限だし、コンピュータで計算可能って話で IIR の Infinite の意味は確かに無限なのですが、再帰構造 (フィードバック構造) のお陰で有限の計算になるのがややこしい。

デジタル実装では常に離散的なサンプリングと計算が行われていますが、IIR フィルターは差分方程式で記述され、これがサンプリングレートに応じて離散的に適用されます。そのため IIR は時間連続的に動作するように見えることもあります。

そして時間領域の離散化、つまり、時間領域の細かさが大雑把でいいのであれば、周波数領域への変換も大雑把になるよ、というような話で、Windows の関数と Block Size がアナライザーにも FIR フィルターにも重要になる。

そもそも時間を離散的に数学的に変換しなくてはいけないので「時間を細かく扱う有限の切り出し区間」というのが Block Size であり、その時間領域をどういう関数で切り出して周波数領域に変換するのか、が窓関数 (Windows Function) の話である。

信号の流れとしては窓関数で切り出しをして更に離散フーリエ変換をすると周波数領域が観測できる。

引用: http://www.ic.is.tohoku.ac.jp/~swk/lecture/yaruodsp/win.html

実際にはデジタル信号はサンプルレートに準ずる有限時間であるが、この部分を離散的に時間領域と定義してこの四角い青い線の関数に従って周波数領域へ変換する。この青い線が関数であり、四角い関数なので、Rectangular Window、日本語にすると長方形窓とか矩形窓とか方形窓とか言われます。

対してこちらの青い線の関数をハミング窓 (Hamming Window) と呼ばれ、かなり利用される。

窓関数によって明らかに周波数領域への変換が変化してしまうのは、さすがに高校を卒業しているレベルであれば、誰でも理解できるだろう。であるから、窓関数によって見え方が違うし、もちろん周波数ドメインで処理されるプラグインは窓関数によって出力結果が異なる、なんてことも余裕で考えられる。

詳しい理論的な周波数解析の話を知りたい人は こちら からどうぞ。

窓関数が良くわからない人のために、簡易的に Chat GPT に紹介してもらった、用途に合わせて選択するしか、現状のアプローチは存在しない。

—

デジタル信号の周波数解析では、信号を時間領域から周波数領域に変換するために、主にフーリエ変換 (特に離散フーリエ変換：DFT) が使用されます。しかし、実際のデジタル信号は有限の長さであるため、そのままDFTを適用すると、周波数成分に「スペクトル漏れ」が生じ、解析精度が低下することがあります。ここで「窓関数」が重要な役割を果たします。

なぜ窓関数が必要なのか？

デジタル信号は有限長で切り取られるため、時間軸の端で信号が急激にゼロに切り替わります。この「端の不連続性」が、DFTを行う際に周波数空間で不要な成分 (サイドローブ) として現れ、スペクトル漏れ (leakage) を引き起こします。窓関数を使うことで、信号の端を滑らかに減衰させ、不連続性を抑え、スペクトル漏れを低減することができます。

主な窓関数とその特徴

窓関数にはさまざまな種類があり、目的に応じて選択する必要があります。それぞれの特性が異なるため、解析内容に応じた最適な窓関数の選択が重要です。

1. 矩形窓 (Rectangular Window)

特性: 窓関数がすべて 1 の値を持つ。
メリット: 周波数分解能が高い。
デメリット: サイドローブが大きく、スペクトルの「漏れ」が多い。
信号に直接フーリエ変換をかけるのと同等。周波数分解能は高いが、リーク「漏れ」が多い。

2. ハミング窓 (Hamming Window)

特性: 窓関数が 0 から徐々に立ち上がり、端で0.08まで減衰。
メリット: サイドローブが低減し、振幅がなだらか。
デメリット: 矩形窓に比べて周波数分解能がやや低下。
周波数漏れが低減され、スペクトルの安定性が向上。ピーク周囲の周波数成分が抑えられるため、信号のピークが明確になる。

3. ハニング窓 (Hann Window)

特性: 両端が 0 で中心に向かって山形に膨らむ形状。
メリット: サイドローブのレベルが低く、スペクトル漏れが少ない。
デメリット: 周波数分解能がやや低め。
ハミング窓と似た特性で、サイドローブが抑えられ、漏れが減少。周波数成分の分解能は少し低くなるが、安定性が良好。

4. ブラックマン窓 (Blackman Window)

特性: 両端が 0 で中心に向かって丸みを帯びた山形。
メリット: サイドローブがさらに低減し、精度が高い。
デメリット: 周波数分解能が他の窓関数よりも低い。
サイドローブが非常に低く、スペクトル漏れを大幅に抑制できるが、周波数分解能はやや低い。

5. ブラックマン・ハリス窓 (Blackman-Harris Window)

特性: ブラックマン窓よりもなだらかで、さらに低いサイドローブ。
メリット: 非常に低いサイドローブで、漏れの影響が最小。
デメリット: 周波数分解能が低くなる。

6. ケーザー窓 (Kaiser Window)

特性: パラメータでサイドローブと周波数分解能を調整可能。
メリット: フレキシブルに調整ができ、用途に応じた設定が可能。
デメリット: パラメータ調整が必要で、計算が複雑。
パラメータで周波数分解能とサイドローブ抑制を調整可能。柔軟性が高く、特定の周波数解析に適応できる。

7. バートレット窓 (Bartlett Window)

特性: 三角形の形状を持ち、中央が最大で両端が0。
メリット: サイドローブが低く、矩形窓よりも滑らか。
デメリット: 周波数分解能がやや低め。

これらはあくまで一例だ。かなり高度なプラグインになるともっと窓関数を選べるため、そもそも初心者さんバイバイである。

まぁ、アナライザーの表示は Rectangular、Hann、Hamming と Blackman がわかればよろしいかと。

好みにカスタマイズしたら音が見えてくる

よくさ「EQ で Resonance の周波数を見つけてカットしましょう」って言うじゃん。

その共振周波数どこだよ…って思いません？

僕も毎日作業していますが、毎日思ってますよ。だって耳で聞いて、なんか邪魔だなぁって音が聴こえてくるけど、どの周波数がわかんないもん。

みんなも安心して、共振周波数、筆者も聞いただけじゃわかんないこと多いです。

そのために FFT の表示が使えるよ！っていうこと。

これはシンセコードの倍音がモジュレートしてしまっている例で、共振周波数の音量由来で耳障りに聴こえるんだけど、これだけ FFT が見えちゃうとすぐにどこの周波数が問題かが見えてくる。

もちろん赤丸以外にも極端にモジュレートしている周波数がみえるけど、エネルギーの大きさや、音として耳で観測できるか、が問題となる。ここの周波数を EQ で下げてやるだけで結構音がまとまるので、ちゃんと音を聴いて、なにか変な音があるなって思うことが大事。そして、その異変や違和感を目で観測できるだけの知識があるかが大事。

僕だってモジュレートしている周波数が頭で浮かばない。ただ、聴こえはする。という状況だから、その違和感の出どころである音を目で探しに行くのだ。

これを EQ 付属の FFT で見えるか、と言われると、はっきりとは見えづらい場合が多いです。

まだまだあるよ！AnSpec

Voxengo Audio にはもっと素晴らしい無償のアナライザーがある。

AnSpec だ！

The Chainsmokers – Closer ft. Halsey のアナライズ

最初に YouTube の貼っつけた曲のサビというかテーマあたりのを見ている。

フラットだろ…まぁまぁ、これ。

20 Hz 周辺と 20 kHz 周辺はガクッと落ちるけど、そもそも、圧縮音源なら 16kHz 以上ががそもそもデータとして存在しないことがあるし、そこに音としてエネルギーが存在しないなら、表示が落ち込んでいても問題ないし。

テキトーに Spotipy の音とか Apple Music の信号をプラグインに入力させて AnSpec の表示見ながら音楽聴いてみてください。

大体このようなバランスに落ち着きます。おそらくあなたの楽曲も極端なバランスには表示されないはずでは？

ミックスやマスターでフラットを目指す…？そもそも測定方法でフラットの定義変わるし、この AnSpec で見てみたら、だいたいフラットやないか？

君の楽曲も AnSpec で見てみてください。平均的な値に絶対落ち着くと思うよ。もちろん、極端な楽曲の場合は違うけど、普通に作ってたらフラットな表示に近づくと思うよ。それでも偏りが見える場合、それは流石にケアしたほうがいいんじゃない？っていう状況だと思うよ。

僕 AnSpec はガチで毎日使っているのでみんなも使ってみてね。ちなみにSlope は 3 で 31 Bands 表記がいいぞ、632 Hz が中心周波数だと考えるといいんだ。

で、これを軸に大雑把な EQ ができるんだ。

この画像の音は Strings の音なんだけど、アナライザーの表示と実際の音を聞いても、なんかハイの情報量が少ないというか、ちょっとこもっている音像で元気がない Strings の音なので、AnSpec の表示を目安に EQ をしてみる。

なんとなく Strings に元気がでた。もちろん、これはあくまで例で、全部がそうじゃないぞ。

そもそも、この Strings の音の周波数が偏っている、ハイが足りない、と思えるような音楽的素養が必要なので EQ は難しいのだが、たくさんの音楽を聴いたりしていくうちに、いつもとは違う音がする、という違和感を覚える耳を形成しなくてはいけない。

実際の Strings の音を聴いて、その音を覚えて、そしてレコーディング時に EQ して実際に聞こえる音とスピーカーから聞こえる音の整合性を取るというのがレコーディングエンジニアの仕事ではあるんだけど、現実はそうではないことが多い。

10 kHz Shelving で 9 dB ブーストしてます。普通によくやるやる。ってか筆者がただ単に High Shelf 大好き人間だからかも。

で、AnSpec で 1.6 kHz がピークが多かったのを観測したので 1.6 kHz を 2 dB カット。

AnSpec のいいところは 31 Bands や、あとは41 Bands、51 Bands とか 61 Bands で表示した時の周波数のポイント。利用するアナログ系のプラグインのなぞの EQ ポイントが絶対に見つかるはず。基本は 31 Bands がオススメ。1/3 Oct 表示で使いやすいし、極端に Band 数増やしてもあんまいいことないから。

高速フーリエ変換が理解できれば波形が読める

FFT の基礎構造を理解できると、波形表示から音が見えてくる。

もちろん複雑な波形は難しいというか、無理だが、要領を得たら簡単だ。

これは 36 Hz と 4800 Hz の合成周波数なんだけど、非常に簡単、秒間 36 回振動する間に 4800 回振動する信号が 36 振幅の波形の上に合成されているだけ。波形から周波数が見えてくるのだ！

もちろん、こーんなわかりやすい波形だらけなわけがないが、基本周波数が強い波形は見た目でかなり分かるぞ、特に低音楽器はよく分かる。

そもそもみんな波形から音を想像できないでしょう、まぁ複合的な音見ても無理だよねそりゃ。

ただし、Bass Future 系やリズム楽器や極端なリードシンセなどは波形からおおよそ音が見える場合があるし、極低音が使われている信号の場合はよく目で見える。

だから何だよって話かもしれないが、波形の合成を理解できることは非常にアドバンテージになることがあるってこと。

高速フーリエ変換の基礎知識くらいはエンジニアと名乗るなら知っておけとは思う。

これは数学的な視点で語っているので音楽に役立つには普通に数学の素養が必要

こちらのほうが FFT の基礎がわかりやすい

フラットを目指すってなんだよ？

以上のことを踏まえて、フラットってそもそも、どこを目指してんの？って話だし、フラットとか言う言葉、マジで意味ないです。

例えばさ、機材レビューでさ

「クセのないフラットな周波数特性で…」

とか

「フラットな音で収録できるマイクです」

とか、言うじゃん。

全く参考になりません。そもそもフラットってどういう音ですかって話。機材レビューでその機材の周波数特性とか公開されている場合があるんですが、ぜんぜんフラットではないことは多い。

特にマイクなんかはラージダイヤフラムのマイクになればなるほど物理的な問題を考慮すれば 10kHz あたりから特性が極端に変化することは、ある程度のエンジニアでも知っている事実だろう。

もちろん、フラットっていうのは業界にいれば「ああいう音の傾向をフラットっていうよね」っていう総意というか同意は得られるんですけど、個人の主観がそれぞれ入り乱れるので、「この機材、どこがフラットやねん」っていう感想を抱く人もいるんだ。

おさらい

重要なのは、音と測定値が自分の感覚で一致する測定方法を開拓すること。

そのための基準として Pink Noise は優秀だよ。

Block Size と周波数の重み付け (Slope や Tilt) をしっかりと設定し、いつも同じもの同じ設定で使うこと。

違和感を見つけたときに集中して音を聴いて、その違和感と同じ音が目でも見つけられるようになること。

繰り返し訓練をすれば、バランスの 違和感を目と耳の両方で観測できるようになる こと。

訓練さへすれば、問題となる共振周波数を目でも見つけられるようになる。

おまけ

やっちゃいけない、業界スタンダードの共振周波数の見つけ方。

よくあるピーキング EQ してレゾナンスを見つける方法がありますが…

うっとりするほどの British English で聞き取りやすい

動画でも解説されているように、ピーキングブーストして周波数をスイープしならが EQ Point を探すなって言ってます。

ここでも Peaking EQ というかサージカルでレゾナンス周波数を探すコントが繰り広げられる

Peaking Q で Resonance を探すという行為を冗談交じりに紹介し、殆ど役に立たないことを説明している。

我が師、Gregory Scott のスパルタ思想 EQ について

これらサージカルやスイープ EQ をすることではなく、耳を鍛えろ、的なスパルタ思想をセクシーに教えてくれるグレゴリー。

どうやって耳を鍛えるの？

これは楽器の音を知ること、音楽理論を工学的な視点で勉強すること。

そもそも音楽なのだから EQ なんて不必要な音程や違和感を感じる音程を聞き取れるか、であるため、相対音感を鍛えるべきなのだ。音程感がわかれば、旋律に不要な共振周波数は自ずと聴こえてくる。

こればかりはたくさんの生楽器の音や少し極端に音を歪ませて、明らかに邪魔な音が聞き分けられるか、繰り返し訓練するしかないです。

EQ についてはこの動画で詳しいメソッドを解説している