RESEARCH
当研究室では、人間のように自然で楽しい会話ができる音声対話システムの実現を目指し、基盤技術から社会応用まで幅広い研究に取り組んでいます。
DiaROS: リアルタイム音声対話フレームワーク
ROSベースの音声対話システム構築
人間のような自然な対話を実現するには、音声認識、対話管理、音声合成といった複数のモジュールがリアルタイムかつ密に連携する必要があります。本研究では、ロボット開発で広く利用されるROS (Robot Operating System) の思想を応用した対話システム構築フレームワーク「DiaROS」を開発しています。
これにより、複雑な対話システムの開発を容易にし、新たな対話機能の追加や管理を効率化することを目指します。
デモ動画
DiaROSによるリアルタイム音声対話のデモ(2025年12月版 その1)
DiaROSによるリアルタイム音声対話のデモ(2025年12月版 その2)
関連論文
- Ryota Nishimura, Takahiro Mori, and Norihide Kitaoka. "ROSを利用したリアルタイム制御が可能な音声対話システムの構築", 日本音響学会講論集, 2-3Q-4, pp. 1123-1126, Sep. 2021.
- 西村良太, 眞鍋麟太郎, 中野有紀子. "ROSアーキテクチャに基づき情報統合・共有を行う音声対話システムの開発", 人工知能学会研究会資料, SIG-SLUD-B503-15, pp. 79-84, 2017.
フォトリアルCGエージェント「Saya」との対話
人間と見分けがつかないほど写実的な3D CGエージェント「Saya」に、知能と対話能力を付与する研究です。DiaROSフレームワークを用いて、Sayaが人間の発話を理解し、適切なタイミングや表情で応答するマルチモーダル対話システムの構築を進めています。
関連論文
- 北岡教英, 西村良太, 太田健吾. "フォトリアルCGエージェントとのマルチモーダル対話", 日本音響学会誌, Vol. 78, No. 5, pp. 257-264, May 2022.
対話制御・ターンテイキング
話者交替予測
スムーズな会話の鍵は「間」にあります。相手の発話が終わるタイミングを予測して滑らかに話し始める技術を研究しています。人間同士の対話では自然に行われるターンテイキング(話者交替)をモデル化し、システムが適切なタイミングで応答を開始できるようにします。
デモ動画
話者交替予測のデモ(2023年)
相槌生成タイミング予測
会話の途中で適切な「相槌」を打つタイミングを予測するモデルを開発しています。「うん」「へえ」などの相槌は、聞き手が話を理解していることを示す重要なサインです。
デモ動画
相槌生成タイミング予測のデモ(2025年)
相槌表層選択モデル
状況に応じて相槌の言葉(「はい」「ええ」「うん」「そうですね」など)を使い分ける表層選択モデルを開発しています。話の内容や文脈に応じて適切な相槌を選択することで、より人間らしい対話の流れを生み出します。
デモ動画
相槌表層選択モデルのデモ(2024年)
関連論文
- Ryota Nishimura and Seiichi Nakagawa. "Response timing generation and response type selection for a spontaneous spoken dialog system", IEEE ASRU, pp. 462-467, Dec. 2009.
- Norihide Kitaoka, Masashi Takeuchi, Ryota Nishimura, and Seiichi Nakagawa. "Response Timing Detection Using Prosodic and Linguistic Information for Human-friendly Spoken Dialog Systems", JSAI, Vol. 20, pp. 220-228, Nov. 2005.
音声認識・音声合成
リアルタイム・VADレス音声認識
現代の音声アシスタントは、まず発話区間を検出(VAD)してから認識処理を行うため、応答に遅延が生じます。本研究では、VADを必要とせず、音声入力をストリーミングで逐次的に認識するモデルを開発しています。これにより、ユーザが話し終わる前からシステムが応答を準備でき、割り込み応答など、よりインタラクティブな対話の実現を目指します。
デモ動画
リアルタイムVADレスASRのデモ(2024年)
関連論文
- Jiahao Chen, Ryota Nishimura, and Norihide Kitaoka. "End-to-End Recognition of Streaming Japanese Speech Using CTC and Local Attention", APSIPA TSIP, Vol. 9, e25, pp. 1-7, Nov. 2020.
Large TTS:知識蒸留による高品質軽量音声合成
多数話者を含む大規模音声コーパスで学習したLarge TTSモデルが持つ汎用的な音声表現を知識蒸留し、単一話者のTTSに反映することで、Large TTSの持つ多様な表現力を備えた軽量で高速なTTSを目指しています。韻律情報、発話速度、イントネーションなどの豊かな表現を保ちながら、実用的な速度で動作するモデルの開発を進めています。
応答音声の韻律制御モデル
対話における応答音声の韻律(イントネーション、強調、ポーズなど)を適切に制御するモデルを研究しています。文の意味や対話の文脈に応じて自然な韻律パターンを生成し、より人間らしい応答を実現します。
関連論文
- Taiga Yamazaki, Kengo Ohta, Ryota Nishimura, and Norihide Kitaoka. "End-to-End Japanese Speech Synthesis with Expression of Emotion", EURASIP JASM, 2021.
医療AI・対話分析
LLMによるインフォームドコンセント対話の発話平易化
医療現場でのインフォームドコンセント(IC)対話において、専門用語を含む医師の説明を患者が理解しやすい表現に変換する研究です。大規模言語モデル(LLM)を活用し、医学的な正確性を保ちながら、患者にとってわかりやすい説明文を生成するシステムの開発を進めています。
LLMを用いたCT所見文の構造化と診断文の簡易化
CT画像の所見文をLLMで構造化し、診断文を患者向けにわかりやすく簡易化する研究です。医師の負担軽減と患者への情報提供の質向上を両立させることを目指しています。
LLMを用いた言語聴覚士の初期評価対話からのSOAP生成
言語聴覚士(ST)が患者と行う初期評価対話から、LLMを用いてSOAP形式(Subjective, Objective, Assessment, Plan)の記録を自動生成する研究です。医療従事者の記録作業の効率化に貢献します。
対話音声からのワーキングアライアンス推定
不眠症患者とセラピストの認知行動療法(CBT-I)対話音声から、治療関係の質を示すワーキングアライアンス(WA)を推定する研究です。音響特徴量を用いてWAIスコアを予測し、さらに治療の寛解・非寛解の判別にも応用します。
スマートホスピタル:医療画像AI
CT画像から深層学習を用いてがんの進行度を判定するシステムの構築に取り組んでいます。医師と患者双方を支援する、次世代の医療の形を模索します。
関連論文
- Kei Daizumoto, N. Osafune, Kouhei Torii, Ryota Nishimura, et al. "Development of pT classification prediction system in UTUC using deep-learning", EAU Congress, Vol. 85, pp. S852-S853, Apr. 2024.
対話システムの人間性
音声対話システムへのキャラ付け(ペルソナ付与)
固定されたペルソナ(年齢・口調・背景設定)を付与し、応答内容に一貫性のあるキャラクター性を持たせる研究です。軽量LLMと音声合成モデルを組み合わせ、リアルタイム性を確保しつつ自然な対話体験を実現します。CO-STAR手法によるプロンプト設計で、キャラクターの一貫性を維持しながら、ユーザーの対話満足度・自然性・親近感の向上を目指します。
その他の応用研究
英会話能力判定・訓練サポート
AIを用いて学習者の英会話能力を自動で評価し、パーソナライズされたフィードバックを提供するシステムの開発を目指しています。流暢さ、正確さ、語彙の豊富さなどを多角的に評価するモデルを構築し、いつでも手軽にスピーキング練習ができるアプリの開発を目指します。
高齢者支援AI
高齢化社会における課題解決のため、AI技術を活用します。特に、日常会話の音響的・言語的特徴から認知機能の低下傾向を早期に検知するモデルの開発に注力しています。高齢者の健康維持とQOL(生活の質)向上に貢献することを目指します。
関連論文
- Meiko Fukuda, Ryota Nishimura, Hiromitsu Nishizaki, et al. "A new speech corpus of super-elderly Japanese for acoustic modeling", Computer Speech & Language, 101424, June 2022.
- Ryota Nishimura, et al. "Proposal of Reminiscence Therapy System using Spoken Dialog to Suppress Dementia", IEEE GCCE 2017, pp. 418-419, Oct. 2017.