今とこれからのイマーシブサウンド / Immersive sound, now and then.

2022-04-30

■ イマーシブって何？

最近「イマーシブ（immersive）」という言葉を聞くようになってきました。昔からMA、映画業界ではたまに聞いた言葉なのですが出会う頻度が少なく、聞くたびにネット辞書で意味を調べていました。最近では知らないと専門家として恥ずかしいという感じになってきましたね。

PlayStation5も発売されVRの世界は少し盛り上がっています。NHKのワースポMLBなんかでもゼウスやバーチャルスタジアムとか視聴者にはわかりにくいけど実験的なコーナーもやってます（VRなら山本萩子キャスターでもサイヤング投手トレバーバウアーや大谷翔平の球をヒットすることが可能だ）。PS5の試しプレイやVR体験は他のバラエティ番組でもたまに見かけたり、YouTube動画でも体験動画が上がってたりします。タレント（YouTuber含む）がわーきゃー騒いでるだけでなんにもわかんねーよ。という感想が多くの視聴者の思いだと思いますが、そのような時の感想で「イマーシブ」という言葉が使われます。（最近またそれすらなくなってきたけど、、）

「イマーシブ（immersive）」、日本語で訳すと没入感という言葉になります。

わかるようなわからんような言葉ですが、まるで別の空間にいるような感覚、と言った方がわかりやすいかもしれません。立体音響もほぼ同じような意味で使われますが、最近ではこっちで言う人も多いかもしれません。

■ イマーシブ業界の現状

僕は映画のサラウンド5.1ch、7.1chの制作やドルビーアトモス、DTS:Xも知っています。残念ながら日本ではアトモスやDTS:Xで制作される作品は限られており、たまにDTSの宣伝用にアップミックス（5.1をアトモスやDTS:Xにする作業）を行なったり、マニア向けにHeadphone:Xの制作を行うくらいで、日本の映画、映像作品の制作現場では一般的とはとても言えません。

イマーシブの手法が一番積極的に取り入れられ、これから一層普及すると思われるのがゲーム業界です。正直映画などの映像作品にはイマーシブなものは向いていないと思います。映画やドラマは物語を一歩ひいた落ち着いたところから観るから味わいが増すのだと思います。VRの宣伝文句のように体験するものではありません。ホラーなどの一部の映画には効果的かもしれませんが、映画館はお化け屋敷ではありませんので限界があります。音響的には5.1chくらいまでは意味があるかもしれませんが、2Dのスクリーンで3Dの音響演出は果たしてどこまで有効なんだろう、とアトモス上映の映画を観るたびに思います。映画の3D上映というのも一時期は流行ってましたが、結局今ではそこまで発展する事なく上映館は減っていっているような気がします。本が本であるように映画は映画という事でしょう。
ダミーヘッドマイクというものもありますが耳元で何か囁いてもらいたいマニア向け、という用途に限定されているかと思います。

僕はVRは技術的にまだまだ足りないと思います。やはり、あの仰々しいゴーグルをかけなければいけない、部屋にある程度のスペースが必要、とか物理的な制約をなんとか超えなければ結局そこまで発展しないのではないかと思います。Nintendo 3Dsなんてものもありましたね。ハード的にスタートレックのホロデックのように完全なものを作らねば一部の愛好家のみの技術になってしまうでしょう。VRはまだまだ始まったばかり、というところなのでコンテンツの見せ方や楽しみ方はこれからどんどん進化してくるのではないでしょうか。今後も注目していきたいですね。結局我々の生活を変化させるほどのものでなければ普及はしないと思います。

■ イマーシブサウンドの困難さ

さて、そんなイマーシブな業界において音響は少し苦戦しているように思います。3D音響の様々なソフトも続々と登場しています。しかし、決定版といえるような支配的なソフトはまだ登場していません。アトモスのように多チャンネルのスピーカーを用意できる環境は限られてくると思うので、今後はDTSのHeadphone:Xのようなヘッドフォンの中での3Dミックスが一般的になるのではないかと思います（すでにそうなっている）。

音の発生源が2つしかない状況（ヘッドフォンの中に数個のユニットがあったとしても耳との距離は同じなので2個とする）で360度の遠近を表現する音場を作るというのは技術的にも至難の技です。ここにイマーシブサウンドを作る難しさがあります。視覚情報ならばカメラで360度撮影しつなぎ合わせればまるで360度見渡せるかのような映像が作成できます。このような技術はグーグルアースなどでも結構前から取り入れられています。なぜ音もこのような方法が取れないのか少し考察してみましょう。

■ 視覚と聴覚の違い

これは聴覚と視覚（視野）の違いを考えるとヒントになるのではないでしょうか。人間の視野は左右に約200度、上下方向に約125度と言われています。この範囲から入ってくる光が目に入り視神経に受容して視覚として認識します。つまり3Dの現実空間に居たとしても360度を知覚する世界にいるのではなく、視覚だけの世界では左右約200度、上下方向約125度だけの世界にいるのと変わらないのです。だから360度の映像データがあれば視野の移動、回転に応じて視野の映像を動かすプログラムと装置を作れば3Dの映像世界を作る事が可能になるのです。それは専用ゴーグルで再現可能ですし、視界を覆ってしまえば視覚そのものを表現する事ができます。いわば視覚そのものをバーチャルにしてしまえるのです。

一方音の方はどうでしょうか。我々の聴覚（耳）は常に360度の世界を知覚しています。マンションに住んでいれば大きな物音がすれば隣の部屋からの音なのか、下、上の部屋どこから音がするのかがわかります。これは空気振動（音圧変化の波）が左右の鼓膜に届く時間の違い、耳の形状によって方向と距離感を認識する事ができるのです。

これを踏まえて音をバーチャルにする事を考えます。

バーチャルな音とはそこに存在しないがそこにあるような音、そこから音がするような音という事です。実現の為に一番簡単な考え方は実際周囲に無数のスピーカーを置いてそこから実際音を出すという方法です。

これはマルチチャンネルという考え方に近く、サラウンドやアトモスのように天井に多数のスピーカーを設置し、チャンネル毎にどのスピーカーから音を出すか指定します。しかし、数メートル先に都合よくスピーカーを置くことは出来ませんし、一々チャンネル設定するのはチャンネルが増えてくると制作側の負担が大きくなります。そこでイマーシブサウンドには主にオブジェクト型という方法が取られます。オブジェクト型とは一般的な説明ではパン（位置情報）と音量データを記録し、それをリアルタイムで再生する事でスピーカーの位置に依存せず音を動かす事ができる、、云々と言われています。まぁ、ぶっちゃけそれは機器の開発側と設置側の問題であって、視聴者も制作側もそこまで気にする事はありません。すごい技術なんですけどね。視聴者、体験者からすれば音が3Dに動くことが感動ですし、クリエイター側はパンナーソフトを弄って自由に音を設置し操作する事が重要です。実際にはアトモスもDTS：Xもマルチチャンネルとオブジェクト型のハイブリッド型です。アトモスやDTS:X、使ったことはありませんがAuro 3Dもこの方法（とにかくスピーカーをたくさん設置してw）でバーチャルな音を再現します。これは実際音がする方向の知覚に音を配置し、そこから音がするように見せかけているので聴覚をバーチャル化したと言えます（正直映像ほどのクオリティーではないが、、）。

このように実際スピーカーを対象の周りに配置して3Dサウンドを作る場合、音をバーチャルに配置する事は既存の技術で可能です。しかしこれには条件があります。対象が映画館のように座席から動かない事です。動いてしまうと調整したパンニングが崩れてパンが綺麗に表現されなくなってしまいます。今では人の位置とスピーカーとパン（位置）を調整するソフトも出てきますが、これも複数人がある部屋で好き放題動き出すとスピーカーでは対応できません。スピーカーは一つしか音像を提供出来ないのです。これでは人々が自由に動く体験型や複数人でのゲームプレイでは使えません。

その為先述したヘッドフォンを使ったイマーシブサウンドが主流になるのではないかと思うのです。しかし、ここでまた問題が出てきます。ヘッドフォン、もしくはイヤホンでは鼓膜に近接したユニットから音が発生することになります。これでは耳の形状や空間の反射を利用した知覚で位置や距離を測ることが出来ません。これは人間の聴覚にとってはとても大きなことです。これを克服する為、音響心理学や微細なパン、残響、周波数特性などを駆使して調整してDTSのHeadphone:Xのようなヘッドフォン内で3D音響を再現する技術が生まれ、今は音響業界でこの技術を追っている状況です。
まだまだ十分なクオリティーとは言い難いです。特に上下感を出すのは至難の技です。フルフェイスのヘルメットみたいなゴーグルを開発して頭頂部にスピーカーを埋め込めば状況はよくなりますが、家でフルフェイスのヘルメットをわざわざかぶるユーザーはいないですねw

このように聴覚を完全にバーチャル化する事はまだ難しいです。視覚に比べ相対的な要素が圧倒的に多いからでしょう。

この技術はなかなかいいところまで来ていると思いますがソフトウェア上では限界かな、とも感じます。ソフトウェア上でのシミュレーションに時間を使うより、イマーシブ用イヤホンやヘッドフォンのハードウェアを開発する方が早いのではないでしょうか。耳の後ろにユニットを配置するだけで大分改善されるような気もします。しらんけど。

ここで足元をひっくり返すような事なんですが、3D、360度と何度も言っていますが実は音響は360度じゃありません。なぜなら下から音が鳴る事を想定していません。現実世界では地面の中から犬に吠えられたり、人から声をかけられる事はありませんが、自分の足音、足元でのチャリンという小銭の音、様々な音が足元からしているのは確かです。例えば今の技術で足元を見たら砂浜を歩いているような映像を作ることは可能です（感触はまだ無理）。しかし、今の技術で足元から砂を踏む音を出せるかというと難しいと思います。それと近距離の音は難しいと思います。絶対値で何メートルから鳴る音という指定は不可能です。
だから僕たちが乗っているイマーシブのコックピットはまだガンダムのような完全な全天周囲型モニターのコックピットではなく、旧ザクのように死角の存在する不完全なものなのです。よくわからんって？　わからなくてもどうという事はない。

これから大注目の分野だと思います。これからも動向を注視して自分の創作活動に活かしたいと思っています。

コラム「sound＆person」は、皆様からの投稿によって成り立っています。
投稿についての詳細はこちら

Taiyo Haze

ギタリスト、サウンドエンジニア（ミキサー、MA、PA）、コンポーザー、WEBデザイン（エンジニア）、詩人、ヘルシー志向、珈琲、喫茶店、読書家、野球好き。人生のあらゆる時点で自分の興味と好奇心、その時環境が要求する知識、スキルに真摯に取り組んできました。そして、何より幸運だったのがどの学びの時も、その分野の生き字引のようなメンターの元で経験と研鑽を積めたことです。特に20代の頃は狂気のように深遠な体験と専心から何物にも揺るがぬ感性を身につける事が出来ました。何にでも興味は持つけれど、同時に飽きっぽくもあります。3年以上続いてるのは、音楽、野球（今はプレーしてないです）、読書（特にSF）、WEBくらいでしょうか？だいたい3年超えると一生やり続ける気がします。
website https://kaosway.com/
twitter https://twitter.com/kaosway
instagram https://www.instagram.com/kaosway/