• 一覧にもどる

    音声信号処理

    音声認識、音声合成、音声感情認識など、音声信号にこめられている様々な情報を可視化し、音声コミュニケーションを発展させる研究に取り組んでいます。

    • 音声認識

      音声認識は、人が話した音声を文字として記録する技術です。 電話応対やオンライン会議などの自然な会話を正確に文字に起こすことで、音声を聞き直すことなく打ち合わせの内容を把握し、簡単に共有することができます。 100万時間を超えるビジネス音声対話データとデープラーニング技術により、高性能な日本語音声認識器の研究開発をしています。また、日本語だけでなく英語やインドネシア語などの他の言語への適用を実現します。

    • 音声感情認識

      音声感情認識は、話手がどんな感情で話しているかを音声から推測する技術です。 どのような感情で話しているのか、どのような感情で話しているように聞こえているのかが明らかになることで、ビジネスシーンにおいて適切な応対だったのかどうか判断することができます。 発話の音声的特徴と発話された内容の言語的特徴の二つの特徴を考慮して、発話した人の感情の推定の精度向上させる研究を行っています。

    • 音声合成

      音声合成は、コンピューターがテキストを自然な音声で読み上げる技術です。 留守番電話やIVRなどコンピューターによる自動応対を、機械的な音声ではなく自然な人に近い音声で実現することを目指しています。 ディープラーニングを使って、自然な声を生成できるだけでなく、様々なバリエーションの音声を生成できるような技術にも取り組んでいます。

    • 声質変換

      声質変換は、声を別の性質を持った声にリアルタイムに変換する技術です。 応用例として、騒がしい場所でも声が良く通る人の声の再現があります。このような声は雑音化でも聞きやすい音声的特性を持っていて、その特徴をどんな人にも付加することも声質変換で実現できます。 機械学習を応用して、様々な声の特徴を加えて、聞き取りやすい声で発信する技術について研究開発しています。

    • 音声信号前処理

      音声区間検出・話者分離・話者識別・言語識別S/N比測定・留守電判定・保留音判定

      音声データを解析するためには、いろいろな前処理技術が必要になります。主に、音声認識をするための前処理を中心的に研究開発しています。 音声データの中で人が話している部分だけを取り出す音声区間検出、複数の人が話しているとき一人ひとりの音声に分離する話者分離、どのような言語で話をしているのかを識別する言語識別、留守番電話や保留音の判定などです。

  • 一覧にもどる

    自然言語処理

    情報抽出や対話要約を通じてコミュニケーションの内容を理解しやすくする、発話表現からコミュニケーションスキルのレベルを測定するなど、話し言葉や対話に関する研究に取り組んでいます。

    • 対話要約

      対話要約は、対話を人が理解しやすいように自動的に要約する技術です。 従来の自動要約は、主に文書を対象としています。一方、我々は音声認識による対話の書き起こしを対象とした自動要約について研究開発を行なっています。大きな違いは、音声認識による間違い、言い淀みやフィラー、複数話者による受け答えや質問応答、話し言葉や非文法的な表現などを多く含みます。このようなテキストを理解しやすい文書として生成ことを目的としています。

    • 固有表現抽出

      固有表現抽出は、発話に含まれる固有表現(人名、企業名、住所、電話番号など)を見つけ出す技術です。 ビジネスシーンにおける応対には、情報セキュリティ上、秘匿にすべき内容を含む場合も多くあります。そのために、容易に応対を記録できない場面も存在します。このような条件を満たすために、音声認識による書き起こし結果から秘匿すべき情報を検知して、自動的にマスキングをする技術を研究開発しています。

    • キーワードクラウド・対話可視化

      相手に伝わるような対話や発話をしてるのか、礼儀正しい表現を使えているのかなど、応対の質について知ることはコミュニケーションのスキルを向上させる上で重要なことです。応答の質を計測するために、よく使うキーワードや表現を可視化したり、敬語や文法の誤りを検出する機能を研究開発しています。

  • 一覧にもどる

    複合領域

    音声、言語、動画像を組み合わせた複数の情報をもとにAI技術を発展させる研究に取り組んでいます。

    • 自動電話応対AI

      自動電話応対AI(AI IVR)は、音声認識、音声合成、対話エンジンを組み合わせて、人と自然な会話で電話応対できるAI技術です。 代表電話やコールセンターの一次受けなどでの利用を想定し、オペレーターにつなぐ前に人と自然に会話することができるAIについて研究しています。

    • Speech2Face

      Speech2Faceは、音声からその声にあった人の顔画像を生成する技術です。 電話応対やオンライン会議でもプライバシーを配慮しなければならない場合もあります。この技術を使うことで、声は本人であるが顔画像はこの世に存在しない別人やアニメキャラクター的なアバターを生成し会議に参加させることができます。

  • 一覧にもどる

    産学連携共同研究

    国内外に問わず大学の研究室と連携し、学術的研究成果を産業として花開かせる取り組みに貢献することを目指しています。

    • 筑波大学

      筑波大学 システム情報工学研究群 情報理工学位プログラム 山田武志 准教授

    • 京都大学

      京都大学 大学院情報学研究科 知能情報学専攻 河原達也 教授

    • 九州工業大学

      九州工業大学 情報工学部 知能情報工学科 嶋田和孝 教授

    • Speech Emotion Recognition Based on the Reconstruction of Acoustic and Text Features in Latent Space

      APSIPA ASC 2022

      Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm), Shoji Makino(Waseda Univ./Univ. of Tsukuba)

      Speech emotion recognition (SER) has been actively studied in the recent decade and has achieved promising results. Most state-of-the-art SER methods are based on a classification approach that ultimately outputs the softmax probability over different emotion classes. On the other hand, we have recently introduced an anomalous sound detection approach to improve the SER performance of the neutral class. It uses a neutral speech detector consisting of an autoencoder that reconstructs acoustic and text features in latent space and is trained using only neutral speech data. The experimental result confirmed that the reconstruction error could be successfully used as a cue to decide whether or not the class is neutral and suggested that it could be applied to other emotion classes. In this paper, we propose an SER method based on the reconstruction of acoustic and text features in latent space, in which the reconstructor for different emotion classes, including the neutral class, is used. The proposed method selects the emotion class with the lowest normalized reconstruction error as the SER result. Unlike the classifier approach, one reconstructor is dedicated to each emotion class and trained using only the data of the target emotion class. Therefore, the reconstructor can be trained without being affected by imbalanced training data and also facilitates the application of data augmentation to only a specific emotion class. Our experimental result obtained using the IEMOCAP dataset showed that the proposed method improved the class-average weighted accuracy by 1.7% to 77.8% compared with the stateof-the-art SER methods.

    • Speech Emotion Recognition Based on Self-Attention Weight Correction for Acoustic and Text Features

      IEEE Access(Vol.10)

      Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm), Shoji Makino(Waseda Univ./Univ. of Tsukuba)

      Speech emotion recognition (SER) is essential for understanding a speaker’s intention. Recently, some groups have attempted to improve SER performance using a bidirectional long short-term memory (BLSTM) to extract features from speech sequences and a self-attention mechanism to focus on the important parts of the speech sequences. SER also benefits from combining the information in speech with text, which can be accomplished automatically using an automatic speech recognizer (ASR), further improving its performance. However, ASR performance deteriorates in the presence of emotion in speech. Although there is a method to improve ASR performance in the presence of emotional speech, it requires the fine-tuning of ASR, which has a high computational cost and leads to the loss of cues important for determining the presence of emotion in speech segments, which can be helpful in SER. To solve these problems, we propose a BLSTM-and-self-attention-based SER method using self-attention weight correction (SAWC) with confidence measures. This method is applied to acoustic and text feature extractors in SER to adjust the importance weights of speech segments and words with a high possibility of ASR error. Our proposed SAWC reduces the importance of words with speech recognition error in the text feature while emphasizing the importance of speech segments containing these words in acoustic features. Our experimental results on the Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset reveal that our proposed method achieves a weighted average accuracy of 76.6%, outperforming other state-of-the-art methods. Furthermore, we investigated the behavior of our proposed SAWC in each of the feature extractors.

      詳しくみる
    • Performance Improvement of Speech Emotion Recognition by Neutral Speech Detection Using Autoencoder and Intermediate Representation

      INTERSPEECH 2022

      Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Kenkichi Ishizuka, Taiichi Hashimoto(RevComm), Shoji Makino(Waseda Univ./Univ. of Tsukuba)

      In recent years, classification-based speech emotion recognition (SER) methods have achieved high overall performance. However, these methods tend to have lower performance for neutral speeches, which account for a large proportion in most practical situations. To solve the problem and improve the SER performance, we propose a neutral speech detector (NSD) based on the anomaly detection approach, which uses an autoencoder, the intermediate layer output of a pretrained SER classifier and only neutral data for training. The intermediate layer output of a pretrained SER classifier enables the reconstruction of both acoustic and text features, which are optimized for SER tasks. We then propose the combination of the SER classifier and the NSD used as a screening mechanism for correcting the class probability of the incorrectly recognized neutral speeches. Results of our experiment using the IEMOCAP dataset indicate that the NSD can reconstruct both the acoustic and textual features, achieving a satisfactory performance for use as a reliable screening method. Furthermore, we evaluated the performance of our proposed screening mechanism, and our experiments show significant improvement of 12.9% in the F-score of the neutral class to 80.3%, and 8.4% in the class-average weighted accuracy to 84.5% compared with state-of-the-art SER classifiers.

      詳しくみる
    • End-to-end Speech-to-Punctuated-Text Recognition

      INTERSPEECH 2022

      Jumon Nozaki, Tatsuya Kawahara(Kyoto Univ.), Kenkichi Ishizuka, Taiichi Hashimoto(Revcomm)

      Conventional automatic speech recognition systems do not produce punctuation marks which are important for the readability of the speech recognition results. They are also needed for subsequent natural language processing tasks such as machine translation. There have been a lot of works on punctuation prediction models that insert punctuation marks into speech recognition results as post-processing. However, these studies do not utilize acoustic information for punctuation prediction and are directly affected by speech recognition errors. In this study, we propose an end-to-end model that takes speech as input and outputs punctuated texts. This model is expected to predict punctuation robustly against speech recognition errors while using acoustic information. We also propose to incorporate an auxiliary loss to train the model using the output of the intermediate layer and unpunctuated texts. Through experiments, we compare the performance of the proposed model to that of a cascaded system. The proposed model achieves higher punctuation prediction accuracy than the cascaded system without sacrificing the speech recognition error rate. It is also demonstrated that the multi-task learning using the intermediate output against the unpunctuated text is effective. Moreover, the proposed model has only about 1/7th of the parameters compared to the cascaded system.

      詳しくみる
    • Selective Multi-Task Learning For Speech Emotion Recognition Using Corpora Of Different Styles

      ICASSP2022

      Heran Zhang, Masato Mimura, Tatsuya Kawahara(Kyoto Univ.), Kenkichi Ishizuka(RevComm)

      In this paper, we investigate a speech emotion recognition based on multi-task learning (MTL) considering the style attribute. We also hypothesize the neutral expression, which has the largest number of samples, is not affected by the style, and thus propose a selective MTL method that applies MTL to emotion categories except for the neutral category. Experimental evaluations using the IEMOCAP database and a call center dataset confirm the effect of the combination of the two corpora, MTL, and the proposed selective MTL.

      詳しくみる
    • Neutral/Emotional Speech Classification using Autoencoder and Output of Intermediate Layer in Emotion Recognizer

      日本音響学会 2022年春季研究発表会

      Santoso Jennifer、Yamada Takeshi(Univ. of Tsukuba)、Ishizuka Kenkichi、Hashimoto Taiichi(RevComm)、Makino Shoji(Waseda Univ./Univ. of Tsukuba).

      In recent years, there have been several deep-learning-based methods to im- prove the performance of speech emotion recognition (SER). However, in most of these studies, the recognition of neutral speeches, which is the most common type of speech in practical settings, tend to have poor performance. One of the reasons is the wide data distribution for neutral speeches, which is harder to generalize than emotional speeches.
      In several practical settings, such as business conversation analysis, most conversations do not contain emotions. Emotional speeches, therefore, are considered an unusual occurrence and might be an indicator of trouble or unanticipated events in the conversation. Therefore, by taking advantage of a large number of neutral speeches available, it is possible to tackle problems in the SER from the anomaly detection approach, where neutral speeches are considered normal and emotional speeches are considered anomalous.

      詳しくみる
    • NELE-GANの学習に用いる音声データ量および多様性の影響についての調査

      日本音響学会 2022年春季研究発表会

      加藤 集平、橋本 泰一 (RevComm)

      電話などの音声通話においては、話し手がいくらクリーンな環境下で話していても、聞き手が雑音環境下にいると話し手の声を聞き取りづらくなることがある。このような状況において、音声強調によって(聞き手側での)音声了解度を向上させることは near-end listening enhancement (NELE) と呼ばれている。NELEの代表的な手法の一つにNELE-GANがあるが、その性能の検証は比較的少量かつ限られた話者の音声データを用いたものにとどまっている。本稿では、非常に大量かつ多様な音声データを用いた検証を行い、比較的少量のデータを用いる場合と比べて、音声了解度を同程度に保つかさらに向上させた上で、音声品質を大幅に向上させられることを明らかにした。

      詳しくみる
    • 会話音声から句読点付きテキストの End-to-End 認識

      情報処理学会 第84回全国大会 2022 春

      野崎樹文(京都大)、石塚賢吉、橋本泰一(RevComm)、河原達也(京都大)

      一般に音声認識システムの出力するテキストには句読点が含まれていない。これは音声認識結果の可読性を下げる要因の一つである。また、機械翻訳や自動要約などの後続の自然言語処理タスクへの入力として望ましくない。本研究では、音声を入力として句読点の付いたテキストを End-to-End に認識するモデルを提案する。これにより音響情報を使用しながら、音声認識誤りに対して頑健に句読点を予測することを目指す。評価実験は日本語と英語のデータセットを用いて行い、提案モデルの有効性を示す。さらに、BERTを用いて音声認識結果のテキスト情報のみから句読点を予測する従来のシステムとの性能を比較する。

      詳しくみる
    • Speech Emotion Recognition based on Attention Weight Correction Using Word-level Confidence Measure

      INTERSPEECH 2021

      Jennifer Santoso, Takeshi Yamada(Univ. of Tsukuba), Shoji Makino(Waseda Univ./Univ. of Tsukuba), Kenkichi Ishizuka, Takekatsu Hiramura(Revcomm)

      Emotion recognition is essential for human behavior analysis and possible through various inputs such as speech and images. Considering the complexity of emotions, speech emotion recognition(SER) is a challenging task. Recently, automatic speech recognition (ASR) has played a role in obtaining text information from speech. The combination of speech and ASR results has improved the SER performance. However, ASR results are highly affected by speech recogni- tion errors. Although there is a method to improve ASR perfor- mance on emotional speech, it requires the fine-tuning of ASR, which is costly. To mitigate the errors in SER using ASR sys- tems, we propose the use of the combination of a self-attention mechanism and a word-level confidence measure (CM), which indicates the reliability of ASR results, to reduce the impor- tance of words with a high chance of error. Experimental results confirmed that the combination of self-attention mechanism and CM reduced the effects of incorrectly recognized words in ASR results, providing a better focus on words that determine emo- tion recognition. Our proposed method outperformed the state- of-the-art methods on the IEMOCAP dataset.

      詳しくみる
    • 営業電話における大規模 End-to-End 音声認識システムの活用

      日本音響学会 2019年秋季研究発表会

      平村 健勝(RevComm)、篠崎 隆宏(東工大)

      詳しくみる