コンピューターにも視覚を。人と同じように世界を理解させるために

人は視覚を通じて多くの情報を理解しています。では、コンピューターに画像や映像を入力すれば、人と同じように世界を理解できるようになるのでしょうか。そんなコンピュータービジョンの研究に、理工学部の山中高夫准教授は取り組んでいます。

人は視覚を通じて得た情報を脳内で処理し、世界を理解しています。光の信号を受け取るのは網膜にある受容体で、光の3原色(赤・緑・青)に反応する受容体と、光の強さを感知する受容体があります。入力された視覚情報に基づいて人が脳内で行っているのと同じ情報処理を、コンピューターで再現することを目指すのがコンピュータービジョンです。

ニューラルネットワークと呼ばれる、脳の神経回路を真似た方法で意思決定を行う機械学習プログラムがあります。2012年に画像認識コンペティションでニューラルネットワークを発展させた深層学習を利用した手法が提案され、それまでの画像認識能力を飛躍的に向上させました。ニューラルネットワークは、認識に役立つ情報の抽出方法を、与えられたデータから学習することにより見つけ出します。それまでは、役立ちそうな情報の抽出方法を試行錯誤して作り上げてきていましたが、大量の画像データとニューラルネットワークにより自動的に情報抽出が行えるようになりました。それ以降、深層学習が画像認識に使われるようになりました。

1枚の風景写真から、周辺全体の状況を推定する

現在、取り組んでいるテーマは、全天球画像生成です。草原などで撮影した1枚の写真をもとに、同じ位置から全方向360度を撮影して得られる全天球画像を自動的に生成する技術です。全天球画像は、手間をかければ通常のカメラでも撮影できます。例えば、Googleのスマートフォンでは、ある場所でさまざまな指定された方向の写真を撮影すると、それらをつなぎ合わせて360度全方向の画像を生成してくれる機能があります。また、360度カメラという1回の撮影で全天球画像を撮影してくれる特殊なカメラもあります。しかし、これらは撮影に手間がかかったり、特殊なカメラを必要としたりするので、手軽に利用できるという状況ではありません。

そこで、我々はこのような全天球画像を、深層学習を使って1枚のスナップ写真から生成する方法を提案しています。人は1枚の写真から周囲の状況をなんとなく把握することができるので、その情報を使って1枚の写真からできる限り自然に見える全天球画像を生成しています。例えば古い映画から360度見渡すことのできる360度映画を生成したり、ある観光地で撮影した複数の観光スポットの写真からそれらすべての観光スポットを含んだ360度画像を生成したりすることが考えられます。

脳内の活動を理解し、視線の向かう先を推測する

他にも、人が画像を見たときに視線がどこに向かいやすいかを推定する研究も行っています。このような情報は、例えば動画圧縮に役立てることができ、視線の向きやすい部分だけ高精細に情報を保存することが考えられます。また、視線の向きやすさが分かれば、その情報を広告の作成などにも活用できると思います。

これらの深層学習を活用するコンピュータービジョンの研究により、私が目指しているのはさまざまなアプリケーションに汎用的に活用できる技術開発です。研究領域も年々広がっていて、深層学習を発展させればいずれ人が脳内でモノを認識するために活用している機能を再現できる可能性もあります。極めて省電力で作動している脳内メカニズムが解明できれば、低消費電力で動作するコンピューターの実現やそれらを使ったコンピュータービジョンアプリケーションなども考えられ、研究領域の発展する余地は、現時点では想像もできないぐらい広がっています。

この一冊

『コンピュータビジョン最前線』
(共立出版)

学部4年生ぐらいに適したレベルですが、コンピュータービジョンや生成AI、機械学習などの最先端技術が紹介されています。最新の技術を把握するのに最適の情報誌です。

山中 高夫

  • 理工学部情報理工学科
    准教授

東京工業大学電気電子工学科卒、同大学院電気電子工学専攻修士課程修了。キヤノン株式会社を経て、東京工業大学大学院電子物理工学専攻博士課程修了。博士(学術)。日本学術振興会特別研究員DC2、海外特別研究員(Department of Computer Science, Texas A&M University)、上智大学理工学部電気電子工学科講師を経て、2008年より現職。

情報理工学科

※この記事の内容は、2024年7月時点のものです

上智大学 Sophia University