知覚情報システム研究



Director: 小林哲則教授

人の生活空間で活動するロボットに必要なコミュニケーション能力について研究を行っています。通常の音声対話によるコミュニケーションにとどまらず、実生活で行われる様々なコミュニケーション形態に対応できる対話システムを構築しています。







コミュニケーションロボット
ROBITA

(Real-world
Oriented
BI-modal
Talking
Agent)


マン・マシンコミュニケーションのための音声・画像処理



ROBITAは、HMMを用いた大語彙連続音声認識によって人の音声を認識し、自然言語処理によって人の意図を理解することができます。現在は、更に高精度な音響モデル(PHMM)の構築・音響特性を考慮する事によるハンズフリー音声認識機能の実現に取り組んでいます。画像処理としては、入力画像から顔画像を抽出し、統計的手法(PCA, ICA)によって顔方向認識や個人識別を行います。更に動画像処理によってジェスチャ認識を行うことができます。










Scene.1
A: こんにちは > R
R: こんにちは > A
Scene.2
A: こんな感じでしゃべれるんですよ > B
Scene.3
R: (interest) > B
B: どんな質問をしても大丈夫ですか? > A
Scene.4
R: (interest) > A
A: はい、何か聞いてみてください > B
Scene.5
R: (interest) > B
B: 何歳ですか? > R
Scene.6
R: 私は4歳です > B

アイコンタクトを用いたグループ会話への参与



グループ会話とは、複数の人間が対面して行う対話形態です。グループ会話への参与能力は、複数の人間が狭い空間に存在している我々の生活空間で、人の指示を的確に理解し活動することが期待されている補助(介助)ロボットには必須の能力です。会話中には、任意の話者が任意の話者に向かってしゃべりかける状況に対処しなければなりません。これまでに、話者が何をしゃべっているか認識するための音声認識能力、誰がしゃべっているかを認識するための顔識別・音源定位能力、誰にしゃべっているか認識するための顔方向識別能力といった、会話の参加に必要とされる機能や、視線を利用して自身の発話の対象を表現する機能を有する対話ロボットシステムを構築しています。











マルチモーダルインタラクション



人が生活空間のような狭くて複雑な空間で対象物を指示する場合、冗長な言語表現ではなく、より正確・簡潔に対象物を表現できる指差しのような非言語表現を用いることを好みます。ROBITAは言語処理機能と画像処理によるジェスチャ認識機能を統合することで、人間の指差しを使った指示(例:「あれ持ってきて」)を理解することができます。自身も人間に対して指差し表現(例:「あれですね」)を行うことで指示を確認できます。




Content Top    


Copyright by Humanoid Robotics Institute, Waseda University. All rights reserved.