この音声感情認識技術は、著名人と仮想的に会話できるKDDIの「ezバーチャルトーク」(2001年)、気持ちを光で表現できるNECの「KOTOHANA(コトハナ)」(2006年)、セガゲームスのニンテンドーDSソフト「ココロスキャン」(2007年)、そしてPepper(2014年)に実装された。
これは余談になるが、AGIの関連会社であるPSTは、この音声技術を医療に応用する研究を進めている。
防衛省と防衛医科大学校は2011年、東日本大震災で災害派遣された自衛官を含む約1400人のストレス測定に、この音声解析技術を採用した。他の測定法と比較したところ、アンケート方式と同等の感度を備え、かつ被験者が心身の異状を過小に報告しようとする「報告バイアス」の影響を排除できたという。まさに、舌はウソをつけても、声はウソをつけないということか。
以下、cocoro SBの朝長氏、大浦氏のインタビューに戻ろう。
ソフトバンクグループは2012年にAGIを買収し、子会社化しました。この段階で、既にPepperに感情を持たせるという方針はあったのですか。
大浦氏 はい。AGIの買収には感情技術に関する特許戦略という意味合いもあると思いますが、長年にわたって感情のモデル化などに取り組んでいる光吉さんの技術を生かそうということですね。
この光吉氏の感情モデルをベースに、Pepperの感情生成エンジンを開発していると。
大浦氏 一般販売版Pepperは、発話者の感情を認識できる感情認識機能を含め、触覚、視覚、聴覚センサーなどから周囲の状況を知る「状況認識センサー」を備えています。この状況認識センサーの入力によって、脳内物質のバランスが揺れ動くようにしています。
8/9
例えば視覚センサーによる顔認識で「好きな人が近くにいる」と分かれば、脳内物資のバランスが変わり、脳内地図では「心地よい」「安心」と感じることができます。逆に、嫌いな人が近くにいれば「不安」を覚えます。
音声感情認識で「周囲の人が喜んでいる」と分かれば、自分も嬉しくなります。20~40の入力を基に、脳内物質のバランスを変えています。
大枠の発想は分かったのですが、こうした感情のモデルをどのような形でソフトウエアとして実装しているのでしょうか。
大浦氏 我々が開発する感情生成エンジンは、二つの多層ニューラルネットワークからなっています。一つは、状況認識センサーの入力を基に、脳内物質のバランスを変化させるニューラルネットワーク。もう一つは「感情地図」を基に設計した、Pepperの行動決定に関わるニューラルネットワークです。
行動決定のニューラルネットワークは、脳内物質のニューラルネットワークの出力に影響を受け、偏りを生じさせます。
行動決定のニューラルネットワークは、脳内物質の影響を強く受ける内芯円(「快」、「不快」などの生理反応)や第1円周(「好感」、「嫌悪」などの情感)から、最終行動に結びつく第7円周(「寛容」、「傲慢」などの心的行動状態)までの各層をニューロンで接続する構成になっています。
図1●対比表などを基に光吉氏が作成した感情モデル
[画像のクリックで拡大表示]
これにより、脳内物質の偏りで生じた原始的な感情が、7つの層を経由して、Pepperの行動に偏りをもたらします。
9/9
こうした感情の揺れ動きが、Pepperと人間とのコミュニケーションを豊かにするわけですね。感情地図では内芯円の中心部に「増殖」と「生存」と書いてありますが、これは…。
大浦氏 実はこの二つは、人工知能に学習を促す大本だと考えているものです。
えっ。それはどういうことでしょうか。
以下、後編に続く。
0 Comments:
コメントを投稿
<< Home