今回はITUが策定したラウドネス正規化の中身を見ていきます。最近のDAWにはラウドネスメータが組み込まれていると思います。図はDAWのReaper付属ラウドネスメータです。
またDAWに組み込まれていなかったとしても、Youlean Loudness Meterなど、フリーで優秀なラウドネスメータプラグインは存在するので、入手に困ることはないと思います。
ラウドネスメータには以下のように複数のメータで構成されています。まずはこれらの意味を知っておく必要があります。
True Peak
これは波形の瞬間最大値を見ていますが、実際のサンプルのレベルではなく、サンプル間を含めて最大レベルを計算で求めています。下図のように青棒の各サンプルは0dBを超えていなくても、オーバーサンプリングなど理想的なアナログ波形(緑色)にした場合に、サンプルとサンプルの間が0dBを超えることがあります。True Peakは、それを監視するためのメータです。
LUFS-M (Loudness Unit Full Scale Momentary)
フィルタを通した後、400ms(ミリ秒)分のRMS値を出力します。リフレッシュ(表示回数)の規定はありませんが、推奨1秒間に10回以上とあります。つまりメータによって動きの滑らかさが違う可能性があることを意味します。下図は波形に対してLUFS-Mを出力するときのイメージ図です。1番から順に400ms分を計算し、100msごとに出力し続けるLUFS-Mイメージです。オーバーラップ量75%とも表現できます。
そのためメータの反応はVUメータに近く、遅めという感じですが人間の感覚に近いとも言えます。下波形はリズム部分ですが、400msという長さはピークと最小値をまたぐ長さなので、わりとまったりした音量感が出力されるのが理解できると思います。特にラウドネスメータはフィルタを通しているので、VUメータよりも低音の影響を受けず、人間の感覚に近いと言えます。
また下図の場合100msecごとに計算し出力しているので、メータの動きは10コマ/秒ということになります。これは、それほど滑らかな動きは期待できないフレームレートです。滑らかな表示をしたい場合は、リフレッシュの回数を上げる必要がありますが、CPU負荷は上がっていきます。個人的には可能な限り滑らかにしたいメータです。
LUFS-S (Loudness Unit Full Scale Short-term)
同じようにフィルタを通った後、3秒間のRMS値を出力します。推奨リフレッシュはMomentaryと同じく100ms以上となっています。個人的にはMomentaryほど滑らかさは求められないので100ms以下でも問題ないと思います。下図は上記と同じ波形を500msごとにリフレッシュする場合のLUFS-Sイメージです。
LRA (Loudness Range)
LUFS-Sの主な範囲を示すメータです。これを見ることで、おおよそのレンジの広さを把握できます。
LUFS-I (Loudness Unit Full Scale Integrated)
フィルタを通った後、計測範囲全体(曲全体)のラウドネス値になりますが、ゲートが適用されるところが他と大きく異なるところです。
アルゴリズム
読み取る上で注意事項がいくつかあります。まずはITUが提唱するアルゴリズム(信号の流れ)を見ていきます。サラウンド対応となっています。チャンネルごとに計算する部分と、合計して計算する部分があります。音楽の場合は、通常ステレオ2チャンネルなので、上の2チャンネルだけ使います。K-filterを通り、Mean squareへ入ります。これはRMSの計算を意味します。その後各チャンネルは統合され、LUFS-IのみGateが適用されます。これは注意すべきことです。
さらに見慣れないK-filterという周波数重み付特性というフィルタがあり、特性はこのようになります。
つまり、これが等ラウドネス曲線と言いたいのでしょう。本当の等ラウドネス曲線は以下のようなものです。人の聴覚は音量によって、周波数ごとに感度にばらつきがあるというものです。音量によって大きく異なります。グラフは感度なので逆の関係になっています。
ITUで策定したものは、音量差は考慮していません。また低音域はラウドネス曲線に近いですが、3kHz以上は一定です。ラウドネスを名乗るには、ちょっと雑というのが個人的な感想です。実際、音量はユーザー環境で変わってしまうので、小音量から爆音まで考慮するには話が複雑になりすぎます。またラウドネス曲線を正確にトレースするのも、あまり現実的ではありません。実際は様々なハードウェアやソフトウェアなどを考慮する必要があるため、可能な限り簡易的である必要があります。
おそらく音量は一般家庭での利用を想定し、音量範囲を絞り込んでいます。音量範囲さえ決まってしまえば、固定のK-filterで十分だという結論に至ったのだと思います。重要なのは低音の適度なカットと、2~4kHz当たりにピークがあることでしょう。また10kHz当たりは本来感度が落ちるのですが、K-filterは高感度として処理するので注意すべきところかもしれません。
次回はK-filterの検証とアルゴリズムの残りのブロックを解説していきます。
コラム「sound&person」は、皆様からの投稿によって成り立っています。
投稿についての詳細はこちら