• 一覧にもどる

    音声信号処理

    音声認識、音声合成、音声感情認識など、音声信号にこめられている様々な情報を可視化し、音声コミュニケーションを発展させる研究に取り組んでいます。

    • 音声認識

      音声認識は、人が話した音声を文字として記録する技術です。 電話応対やオンライン会議などの自然な会話を正確に文字に起こすことで、音声を聞き直すことなく打ち合わせの内容を把握し、簡単に共有することができます。 100万時間を超えるビジネス音声対話データとデープラーニング技術により、高性能な日本語音声認識器の研究開発をしています。また、日本語だけでなく英語やインドネシア語などの他の言語への適用を実現します。

    • 音声感情認識

      音声感情認識は、話手がどんな感情で話しているかを音声から推測する技術です。 どのような感情で話しているのか、どのような感情で話しているように聞こえているのかが明らかになることで、ビジネスシーンにおいて適切な応対だったのかどうか判断することができます。 発話の音声的特徴と発話された内容の言語的特徴の二つの特徴を考慮して、発話した人の感情の推定の精度向上させる研究を行っています。

    • 音声合成

      音声合成は、コンピューターがテキストを自然な音声で読み上げる技術です。 留守番電話やIVRなどコンピューターによる自動応対を、機械的な音声ではなく自然な人に近い音声で実現することを目指しています。 ディープラーニングを使って、自然な声を生成できるだけでなく、様々なバリエーションの音声を生成できるような技術にも取り組んでいます。

    • 声質変換

      声質変換は、声を別の性質を持った声にリアルタイムに変換する技術です。 応用例として、騒がしい場所でも声が良く通る人の声の再現があります。このような声は雑音化でも聞きやすい音声的特性を持っていて、その特徴をどんな人にも付加することも声質変換で実現できます。 機械学習を応用して、様々な声の特徴を加えて、聞き取りやすい声で発信する技術について研究開発しています。

    • 音声信号前処理

      音声区間検出・話者分離・話者識別・言語識別S/N比測定・留守電判定・保留音判定

      音声データを解析するためには、いろいろな前処理技術が必要になります。主に、音声認識をするための前処理を中心的に研究開発しています。 音声データの中で人が話している部分だけを取り出す音声区間検出、複数の人が話しているとき一人ひとりの音声に分離する話者分離、どのような言語で話をしているのかを識別する言語識別、留守番電話や保留音の判定などです。

  • 一覧にもどる

    自然言語処理

    情報抽出や対話要約を通じてコミュニケーションの内容を理解しやすくする、発話表現からコミュニケーションスキルのレベルを測定するなど、話し言葉や対話に関する研究に取り組んでいます。

    • 対話要約

      対話要約は、対話を人が理解しやすいように自動的に要約する技術です。 従来の自動要約は、主に文書を対象としています。一方、我々は音声認識による対話の書き起こしを対象とした自動要約について研究開発を行なっています。大きな違いは、音声認識による間違い、言い淀みやフィラー、複数話者による受け答えや質問応答、話し言葉や非文法的な表現などを多く含みます。このようなテキストを理解しやすい文書として生成ことを目的としています。

    • 固有表現抽出

      固有表現抽出は、発話に含まれる固有表現(人名、企業名、住所、電話番号など)を見つけ出す技術です。 ビジネスシーンにおける応対には、情報セキュリティ上、秘匿にすべき内容を含む場合も多くあります。そのために、容易に応対を記録できない場面も存在します。このような条件を満たすために、音声認識による書き起こし結果から秘匿すべき情報を検知して、自動的にマスキングをする技術を研究開発しています。

    • キーワードクラウド・対話可視化

      相手に伝わるような対話や発話をしてるのか、礼儀正しい表現を使えているのかなど、応対の質について知ることはコミュニケーションのスキルを向上させる上で重要なことです。応答の質を計測するために、よく使うキーワードや表現を可視化したり、敬語や文法の誤りを検出する機能を研究開発しています。

  • 一覧にもどる

    複合領域

    音声、言語、動画像を組み合わせた複数の情報をもとにAI技術を発展させる研究に取り組んでいます。

    • 自動電話応対AI

      自動電話応対AI(AI IVR)は、音声認識、音声合成、対話エンジンを組み合わせて、人と自然な会話で電話応対できるAI技術です。 代表電話やコールセンターの一次受けなどでの利用を想定し、オペレーターにつなぐ前に人と自然に会話することができるAIについて研究しています。

    • Speech2Face

      Speech2Faceは、音声からその声にあった人の顔画像を生成する技術です。 電話応対やオンライン会議でもプライバシーを配慮しなければならない場合もあります。この技術を使うことで、声は本人であるが顔画像はこの世に存在しない別人やアニメキャラクター的なアバターを生成し会議に参加させることができます。

  • 一覧にもどる

    産学連携共同研究

    国内外に問わず大学の研究室と連携し、学術的研究成果を産業として花開かせる取り組みに貢献することを目指しています。

    • 筑波大学

      筑波大学 システム情報工学研究群 情報理工学位プログラム 山田武志 准教授

    • 京都大学

      京都大学 大学院情報学研究科 知能情報学専攻 河原達也 教授

    • 九州工業大学

      九州工業大学 情報工学部 知能情報工学科 嶋田和孝 教授

    • Speech Emotion Recognition based on Attention Weight Correction Using Word-level Confidence Measure

      INTERSPEECH 2021

      Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Shoji Makino(Waseda Univ./Univ. of Tsukuba), Kenkichi Ishizuka, Takekatsu Hiramura(Revcomm)

      Emotion recognition is essential for human behavior analysis and possible through various inputs such as speech and images. Considering the complexity of emotions, speech emotion recognition(SER) is a challenging task. Recently, automatic speech recognition (ASR) has played a role in obtaining text information from speech. The combination of speech and ASR results has improved the SER performance. However, ASR results are highly affected by speech recogni- tion errors. Although there is a method to improve ASR perfor- mance on emotional speech, it requires the fine-tuning of ASR, which is costly. To mitigate the errors in SER using ASR sys- tems, we propose the use of the combination of a self-attention mechanism and a word-level confidence measure (CM), which indicates the reliability of ASR results, to reduce the impor- tance of words with a high chance of error. Experimental results confirmed that the combination of self-attention mechanism and CM reduced the effects of incorrectly recognized words in ASR results, providing a better focus on words that determine emo- tion recognition. Our proposed method outperformed the state- of-the-art methods on the IEMOCAP dataset.

      詳しくみる