ここから本文です。
産学公連携、産業振興の一環として、京の研究者・専門家の皆さんを紹介するページです。
(掲載日:平成31年月18日、聞き手・文:ものづくり振興課 足利)
京都大学大学院情報学研究科 知能情報学専攻 画像メディア分野 延原章平博士にお話をおうかがいしました。
―どんな研究なさっているのですか?
延原) 「先回り」できるロボットを実現したいのです。例えば、先回りして何かをしてくれるなどの「気の利いた」介護やサービス、不審な行動をとっている人に予め「見ているよ」というサインを出すなどの「能動的・予防的な」警備や見守りといったことですね。
―素晴らしいことです。
延原) 私の研究はその実現のために何が必要かというところでして、先回りできるためには、「相手の意図を理解」しなければなりません。そのためには、「相手を観察」できることが最低条件として必要です。相手を観察するために必要なことは何か?
―何ですか?
延原) 現代は既に「超多視点カメラ社会」と言えます。街角には監視カメラが多く設置されていますし、多くの人々がスマートフォンで画像や動画を撮影し、自動車にはドライブレコーダーが標準的に設置されています。しかし、単に撮影されていればよいというわけではありませんし、解像度を上げればいいというものでもありません。適切な視点から観測できていることが重要なのです。相撲の行司のような動きと言いましょうか、コトが起こるところを先回りして見るということです。
―相手の行動を予測するということですか?
延原) そのとおりです。さきほど申しました「相手の意図を理解(行動理解)」するためには「相手を観察(能動的視点選択)」が必要で、そのためには、おっしゃるとおり、「相手の行動を予測(行動予測)」が必要なのですが、そのためには結局「行動理解」が必要です。この「行動理解」のために、「グループ構造推定」「3次元運動推定」等の研究をしているのです。
―そうなのですね。
延原) 例えば、密集・動的シーンでは移動しながら観測すること、すなわち「移動・個人視点」が必要ですが、個人視点映像だけでは大局が分からないという課題がありますので、個人視点と俯瞰視点の融合が重要です。監視カメラやドローン等の俯瞰視点映像からの姿勢推定、個人が持っているスマートフォンやロボット等の個人視点映像からの骨格運動、顔・視線推定等を行い、先回り撮影を行うといったモデルを構想しています。
―大変おもしろいです。こうした研究をされることとなった経緯を教えてください。
延原) 正直、京大に入学した時には何も考えてませんでした。そして、どの研究室に行くかを決めるとき、定員を超える応募があった場合は、うちの学科では伝統的にクラス委員の指揮の下、じゃんけんで決めていました。私も今の研究以外にも、漠然と通信や情報系全般に関心がありましたよ。しかし、師匠の先生から3次元ビデオという、10年でも20年でも取り組める大きなテーマをいただき、「これだったら、やることがいくらでもある!」と思って惹きこまれました。
―今後の展望はいかがでしょうか?
延原) LiDERをはじめ高精度なセンサーも登場してきていますが、人間って見ることに関して恐ろしく最適化されてるんですよねえ。高精度なセンサーを使えば植え込みの枝一本まで形状を正確に知ることもできますが、道を歩くときに人間はそこまでは気にしません。知ろうと思えば枝ぶりまでもちろん認識できるけど、歩くというシナリオ的には不要だから気にしない、という取捨選択をしています。むしろ植え込みであれば詳細な形状よりも「ぶつかったら痛いけどクッションのように働く」といった重さや柔らかさを、路面であれば詳細な凹凸1つ1つよりも「滑りやすそう」、「泥が跳ねそう」、のような路面状況のような情報を見ただけであたりをつけながら歩いています。ロボットでも、例えばシーンを見ただけで「これは事故回避のためならぶつかっても許される」「これは絶対ぶつかってはダメ」といった判断ができることも重要になってきます。
―なるほど!
延原) 今の研究で、「わかるように見ること」と「人の行動・意図を理解・予測すること」を追求し、新たな社会システムのデザインに貢献したいと思っています。
大変楽しみです!!!
お問い合わせ