技術開発ニュース No.168

- ページ: 52
-
研 究 成 果
Results of Research Activities
音声対話の要約技術
Spoken Dialogue Summarization
議事録作支援に向けて
会議などの自然発話においては「言語的曖昧性」を含む話し言葉から要旨を把握するの
は容易ではない。本研究では、議事録作成の前段階として、このような音声対話をテキス
ト化し、発話内容の要点をまとめる要約技術について検討を行った。さらに、提案手法を
模擬会議データで評価した結果について述べる。
1
執筆者
先端技術応用研究所
情報技術グループ
瀬川 修
Transformer に基づく End-to-End 方式をベースとして、
背景と目的
話者数既知のマルチチャネル録音に対し、マイクを装着し
た「主話者」の音声を選択的に判別するダイアライゼー
これまで会議など音声対話の要約の研究が多数試みられ
ション方式を考案した(特許出願中)。
ているが、自然発話の認識の難しさに加え、曖昧な話し⾔
マルチチャネル録音では、話者別に口元で録音したとし
葉から要旨を把握するのは容易ではない。また、音声対話
ても周囲の話者の声がオーバーラップして混入する。そこ
においては発話分割と併せ話者識別という困難な問題が存
で、提案手法では、各チャネルの話者数が 1 名という条件
在する。
の下で、モノラル混合音声の各フレームにつき主話者の発
最近では深層ニューラルネットワークに基づく音声認識
話区間かノイズ区間かの 2 値判別を行う。具体的には、入
技術の発展によって、音声対話の認識性能が向上し、対話
力音声の全体構造から話者区間を推定する global ネット
内容の要約が技術的なスコープに入ってきた。そこで、本
ワークと、入力音声の局所的構造から話者区間を推定する
研究では議事録の自動生成に向けた音声対話の要約技術に
local ネットワークの 2 つ推論結果の統合によって、チャネ
ついて検討を行い、模擬会議データによる提案手法の評価
ルごとの主話者区間を推定する。そして、各チャネルの推
を行った。
定結果(話者ラベル)を統合することによって最終結果を
2
得る。
音声対話の要約技術
(2)音声認識
2015 年 頃 か ら 系 列 変 換 モ デ ル と Attention に 基 づ く
音声対話の要約の実現に向けては、主な要素技術とし
End-to-End 音声認識手法の検討が盛んに行われるように
て、発話分割と話者識別、音声認識、および要約などが挙
な っ た。 本 研 究 で は、Transformer と CTC を 併 用 し た
げられる。各要素技術と技術課題を第 1 表に示す。
Encoder-Decoder によるアルゴリズムを用いた。認識の
最小単位(トークン)は日本語キャラクタである。
第 1 表 音声要約技術の課題
要素技術
課題
発話分割と話者識別
・複数話者の識別
・発話のオーバーラップ
音声認識
・自然発話の認識
・未知語の学習
要約
・話し⾔葉からの要旨把握
・要約文の生成
End-to-End 音声認識手法では、モデル学習に音声と書
き起こしテキストのペアが必要であり、語彙の追加にコ
ストを要していた。そこで、我々はニューラル音声合成
(Text-to-Speech :TTS) を用いて、テキストデータから対
応する音声データを自動生成する「データ拡張」の枠組み
を検討した。
(3)要約
要約には、発話の重要度を評価して抜粋する「抽出型
3
アルゴリズム検討
以下では、各要素技術の概要と課題を解決するためのア
ルゴリズムについて述べる。
(1)発話分割と話者識別
長 時 間 の 音 声 に 対 し 発 話 分 割 と 話 者 識 別( 誰 が い つ
喋ったか)を行う手法のことを総称して話者ダイアライ
ゼ ー シ ョ ン(Speaker Diarization) と 呼 ぶ。 当 該 分 野
では、2019 年頃からニューラルネットワークに基づく
End-to-End 方式が盛んに検討されている。本研究では、
51
技術開発ニュース 2024.03/No.168
要約」と、対話全体を勘案して要約文を生成する「生成
型要約」がある。最近では、大規模⾔語モデル(Large
Language Model: LLM)を利用して生成型要約を行う方
式が盛んに検討されるようになり、長期文脈を考慮した要
旨の把握が可能になりつつある。本稿では、Transformer
に基づく自己回帰型の LLM(オープンソース)を用いて生
成型要約を行う方式の初期検討を行った。
ここで、オープンソースの LLM を利用するメリットで
あるが、分野やタスクに特化した独自の学習(ファイン
チューニング)が可能なこと。また、クローズドな環境で
運用の内製化が可能などの点が挙げられる。
- ▲TOP