話者の声の向きを識別するメカニズムを解明

VR空間でのより臨場感のある音響の実現に貢献

本研究の要点

ヒトが、話者の声が発せられた「向き」をどのように認識しているかの仕組みを解明。
最も大きな手掛かりは音の大きさで、その他の音響的な特徴も参照して話者の方向を識別していることが判明。
VR（仮想現実）やAR（拡張現実）におけるより豊かなサウンド体験の実現に寄与すると期待。

研究の概要

上智大学理工学部の辻慎也特別研究員、荒井隆行教授、日本放送協会（NHK）の杉本岳大副部長、木下光太郎職員、中山靖茂副部長らの研究グループは、私たち人間が話者の声の方向を識別する際、最も重要な手がかりは音の大きさであること、それに加えてスペクトル成分などの他の音響的な特徴も活用していることを突き止めました。

近年、ARやVRが普及しつつあり、視覚体験だけでなく、音響体験の向上も求められています。音源から放射される音は方向ごとに異なる周波数特性を持つことから、より臨場感のある音響を作り出すためには、そうした音の特性を再現する必要があります。それと同時に、人間が聴覚を通じて環境を認知する仕組みや特性を理解することも重要です。

そこで本研究では、話者がどの方向に向かって話しているのかを、私たちヒトがどのように識別しているのかについて調べました。具体的には、話者の向きが異なるとき、話者の向きごとにラウドネス（ヒトの聴覚で感じる音の大きさ）は異なることから、「ヒトはラウドネスを手掛かりにして話者の向きを認識している」という仮説を立て、検証を行いました。

その結果、話者の向きを認識する上で、予想通りラウドネスが最も重要な要素であることがわかりました。さらに、ラウドネスだけでなく、音響のスペクトル特性も参照して、声が発せられた方向を認識していることがわかりました。また、音声を比較することで方向性のパターンを学習し、より精緻に音声の方向を認識できることもわかりました。

今回の研究は、ARやVRなどの仮想空間におけるバーチャル型コンテンツで、より現実空間に近い音響体験を再現する際に重要になります。たとえば、自分以外のユーザーがどこを向いて話しているのか、音源の位置だけでなくその声の広がり方（指向性）もVR内で再現できることが期待されます。

本研究成果は、2025年5月1日に国際学術誌「Acoustical Science and Technology」に掲載されました。

研究の背景

近年、VR（仮想現実）やAR（拡張現実）など、バーチャル空間のコンテンツは拡大し、それに伴いコンテンツの多様化が進んでいます。こうした仮想空間内において、空間内の音響情報もより重要度を増しています。特に、ユーザーが顔や身体を自由に動かせるようなコンテンツ(virtual sound field with six-degrees-of-freedom, 6DoF)では、より臨場感のある音響を実現するための技術が求められています。

現実世界では同じ空間で他人といっしょにいるとき、その誰かが自分に向かって話しかけているのか、どこを向いて別の誰かに向かって話しかけているのかを自然に聞き分けることができます。しかし、仮想空間においては、そうした音響環境の再現はまだ難しいのが現状です。

先行研究では声の指向性により音響特性が変化することや、様々な方向から到来する音源の位置を特定するメカニズムはよく知られていました。一方で、声を聴くヒトが、声を発している話者がどの方向を向いているのかを認識するメカニズムは詳しくわかっていませんでした。そこで本研究グループは、ラウドネスに特に着目した実験を行いました。

研究結果の詳細

実験は、被験者に対して設置されたスピーカーから流れてくる音声を聞いて、話者がどの方向を向いていると思うか、被験者が答える形で行われました。

実験に用いる音声は、話者に対して異なる5つの方向（話者の水平面の右半身 0度、45 度、90 度、135 度、180 度）に設置された複数のマイクで同時収録しました。なお、話者はナレーター経験の6名（男女それぞれ3名）が担当しました。

実際に行った実験は以下の通りで、それぞれ異なる処理を行った音声を用いました。それぞれ25名の被験者を対象に実施しました。

実験A：話者の向きによるラウドネスのちがいが保存された（現実空間での音響に近い）音声を使用。

実験B：話者の向きが変わってもラウドネスが一定になるように調整した音声を使用。これにより、音量以外の要素が判断にどう影響するかを調べることができる。

実験A（左）、実験B（右）の結果。上からセッション１，２，３。色が濃いほど正答率が高いことを示す。

実験A、Bともに、条件を変えた3つのセッションを実施しました。

セッション１はそれぞれの話者がいずれかの向きに対して話している音声を1話者につき1 方向のみ聞いてもらい、話者の向きを予想してもらいました。

セッション２は、まずは正面を向いて発話した音声（リファレンス音）を聞いてもらい、次に同じ話者がちがう角度に向けて発話した音声（ターゲット音）を聞いてもらい、ターゲット音の方向を答えてもらいました。

セッション3は、男女2名の話者それぞれについて5方向の音声を聞き比べ、それぞれの音声がどの角度の音声かを回答してもらいました。なお、セッション3では時間制限を設けず、音声は何度でも聞くことができるようにしました。

実験の結果、実験Aのほうが実験Bよりも全般に正答率が高いことがわかりました（図）。これは、話者の向きを認識する際、ラウドネスが重要な手がかりであることを示唆する結果です。また、実験 A・実験 B 双方において、セッション1の正答率が最も低く、セッション3がもっとも正答率が高いという結果も得られました。

このことは、何も比較する情報がない条件よりも、比較対象がある方が話者の向きが認識しやすくなることを示しています。

今後の展望

本研究は、仮想現実や拡張現実などのバーチャル空間、特に自分の顔やからだをユーザーが自由に動かせるデバイスを使ったコンテンツにおいて、従来のような音の大小だけではなく、その音響特性を加味したより豊かな表現技術を生み出す上での基礎となる重要な成果です。

研究を主導した辻慎也研究員は「テクノロジーが進歩するとともに、Meta QuestやApple Vision ProなどのVR、ARはより一般に普及していきます。将来のデバイスに向けたコンテンツ開発に本研究が寄与していくことが期待されます」と、今後の可能性について述べています。

論文名および著者

媒体名: Acoustical Science and Technology

論文名: Perception of speech uttered as speaker faces different directions in horizontal plane: Identification of speaker’s facing directions from the listener