話しかけるだけで自動言語識別。音声対話型AI搭載「駅案内ロボット」の外国語対応機能を強化。

 フェアリーデバイセズ株式会社(本社:東京都文京区、代表取締役:藤野真人、以下「当社」)は、オムロングループのオムロン ソーシアルソリューションズ株式会社(本社:東京都港区、代表取締役:細井俊夫、以下「OSS」)が2019年3月16日から8月27日まで京王電鉄株式会社 井の頭線下北沢駅で試験運用しておりました駅案内ロボットに提供中の当社の多言語音声翻訳エンジン「mimi® powered by NICT」に加え、9月18日より「自動言語識別機能」を用いた実証実験を共同で行うことをお知らせいたします。なお本機能の搭載に合わせて、駅案内ロボットは京王線新宿駅に移設されます。
  • 導入の背景

少子高齢化による労働力不足により、接客業務の負荷軽減を目的として業務を代替するロボットの実現が求められています。このようなロボットに適切な接客対応を行わせるために、当社では騒音環境下でも正確に音声を収集し、適切に聞き取ることができる音声処理技術を提供しています。

現在、京王電鉄 井の頭線下北沢駅で実施していた実証実験では、日本語、英語、中国語、韓国語の4か国語で案内対応をしており、そのうち利用者の約3割が外国語を使用されていたことから、さらなる利便性の向上を目指し、新たに「自動言語識別機能」を試験提供しました。

本機能により、お客さまに画面上で手動により使用言語を選択いただく必要なく、話しかけていただいた言語を自動で識別することが可能になります。

※関連リリース
「駅の窓口業務を行う「駅案内ロボット」に音声処理技術とマルチマイクハードウェアを提供」
URL:https://www.fairydevices.jp/blog/2019/03/05/9

「新人駅員「下北沢レイ」がマルチリンガルに! 駅案内ロボットに多言語音声翻訳エンジンを提供」
URL:https://www.fairydevices.jp/blog/2019/07/23/1

  • 自動言語識別機能*1の特徴

従来の言語識別方式では10秒程度の長い発話でないと言語の識別は困難でした。
知識蒸留学習*2により、「短い発話でも識別精度が高く、かつリアルタイムで識別可能な小規模ニューラルネット」を作成することで、1.5秒程度の音声での識別率9割以上を実現しています。

  • 8言語*3に対応し、短い音声をリアルタイムで識別し、翻訳の言語設定が不要。
  • 発話時間1.5秒の音声の識別率9割以上、識別時間0.15秒以内のリアルタイム識別。
  • 何語を話しているかわからない外国人の言葉も、即座に識別し、認識・翻訳が可能。

*1:本機能は、国立研究開発法人情報通信研究機構(NICT)が開発したものです。

*2:規模の大きいニューラルネットは識別精度が高い代わりに、計算に時間を要する問題があり、リアルタイム処理を求められる場合には適しません。一方、高速演算可能な小規模ネットワークはそのまま学習させただけでは識別精度が悪いという問題があります。知識蒸留学習では、大規模ネットワークを(教師モデル)として、小規模ネットワーク(生徒モデル)が教師モデルと同じ結果になるよう学習させることで、高速かつ高精度の結果を得ることが可能となります。

*3:自動言語識別機能の対応言語は(日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア)の8言語。本試験運用での対応言語は4言語(日、英、中、韓)となります。

  • 今後の展開について

当社は人間と機械とのコミュニケーションをより自然なものとしたいと願っています。そのため、音声認識処理に関連するソフトウェアのみならず、音声を正確に集音するためのハードウェアの技術開発にも力を注いでいます。
多言語での「音声認識・翻訳・音声合成」に加え、当社の持つ「話者識別」「環境音認識」などを組み合わせることで、コミュニケーションロボットのパーソナライズ対応を可能にしたり、本件の駅案内ロボットにも採用されたレイアウトフリーマルチマイク「Fairy I/O T-02」を使用することで、騒音環境下でも適切に音声認識が可能なサイネージへの導入など様々な業務現場でのビジネスやソリューション開発を支援することが可能です。

当社は業務現場における音声AI技術活用のリーディングカンパニーとして、デジタルトランスフォーメーションのさらに先の世界を見据え、これまでの音声認識技術では踏み込めなかった領域を、ソフトウェア・ハードウェアの一体開発によって切り拓いてまいります。

●「 mimi®」 について URL: https://www.fairydevices.jp/mimi_about.html

高度な音声対話システムを構築するための疎結合なソフトウェアスタックです。マイクアレイ・フロントエンド処理機能を担う「mimi XFE」、多言語での音声認識及び翻訳機能、音声合成を担う「mimi ASR/TRA/TTS」、話者識別機能を担う「mimi SRS」、環境音識別機能を担う「mimi ESR」等のコンポーネントからなり、ローカル側に搭載可能なライブラリ、もしくはクラウドAPIの形で提供されています。

「mimi powered by NICT」は国立研究開発法人情報通信研究機構(NICT)にて研究開発された音声認識・翻訳・音声合成機能を知的財産の実施許諾契約に基づき、当社の音声認識クラウドサービス「mimi cloud API service」にて提供しているものです。

※開発者向けのデベロッパーコンソールはこちらです。https://console.mimi.fd.ai/
一日50回までの無償評価試用ができます。

●フェアリーデバイセズ株式会社について URL: https://www.fairydevices.jp/
フェアリーデバイセズ株式会社は、「使う人の心を温かくする一助となる技術開発」をコーポレート・アイデンティティとして掲げ、VUI・VPA関連技術、音/音声認識と関連する機械学習諸分野の応用研究開発、及び対話システム・UXデザインの設計と評価に強みを持ちます。

VUI:Voice User Interface VPA :Voice Personal Assistant

※本プレスリリースに記載されている会社名、製品名は各社の登録商標または商標です。

関連記事一覧