技術開発ニュース No.168

- ページ: 53
-
研 究 成 果
第 3 表 音声認識性能評価
4
Model
評価
(1)評価データ
CSJ-Transformer
33.9
CSJ-Transformer +FT
17.6
CSJ-Transformer +FT +TTS
16.8
日本語に関しては、研究開発に利用可能な十分な質量の音
第 4 表 TTS データ拡張による未知語学習の効果
声対話と要約の評価データが整備されておらず、今回独自に
模擬会議コーパスの収録を行った。収録にあたっては、マルチ
チャネル録音装置と話者数分のピンマイクを用意し、各話者の
胸元にマイクを装着して話者に対応する音声チャネルを記録し
た。評価に用いた模擬会議データの概要を第 2 表に示す。
時間長
(min)
収録場所
話者数
58
64
会議室 B
5
3. 音声書き起こし業務説明
61
会議室 A
会議室 C
4
5. 音声書き起こし業務進捗確認
33
会議室 C
会議室 C
4
1. 情報セキュリティ
2. 画像アノテーション業務説明
4. コロナ&テレワーク
6. 他の業務の作業付与
7. 安全衛生、コンプライアンス
70
14
64
データ拡張なし
あと一違うい知かなもうそっか
あそれが出た事あって
社員者もだから
データ拡張あり
あと非通知 違う非通知 からもう
うっかりそれが出たことあって
社員証もだから
(4)要約
今回用いた LLM はオープンソースとして公開されている
第 2 表 模擬会議データの概要
議題
CER (%)
会議室 C
会議室 A
Llama2 の日本語モデル(ELYZA-Llama-2-instruct、パラ
メータ数 70 億、130 億)である。試行評価では、別途収
録した模擬会議(議題「議事録の要約学習データ作成業務
4
説明」、話者 4 名、時間長 21min)の音声認識結果(人手
3
第 5 表に示す。
4
3
(2)発話分割と話者識別
修正あり)を用いた。要約で用いたプロンプトと要約例を
同表より、モデルのパラメータ数に着目すると 70 億と
比較して、130 億のほうが具体的で要旨を捉えた生成結果
になった。また、プロンプトに条件を与えることにより、
モデル学習には日本語講演音声コーパス CSJ に含まれ
口語調の対話からフォーマルな様式の要約文が生成できる
る 3,212 講演からランダムに選択した 2 話者の発話を組
ことがわかった。なお、ファインチューニングの効果につ
み合わせて作成したシミュレーション対話を使用した。
いては、執筆時点で会議要約の学習データが十分用意でき
また、評価データは第 2 表のコーパスから 4 セッション
なかったため、今後の検討課題である。
(2,3,4,6)を用いた。
実験では評価指標として検出誤り率 DER を用い、30.8%
という性能が得られた。パワーが大きく周波数帯域が類似
した話者はラベルの間違いが発生することがあるため、こ
のようなエラーの低減は今後の課題である。
(3)音声認識
音声認識の基本性能、および前述の TTS によるデータ
拡張の有効性を評価するため、第 2 表のコーパスを用い
た実験を行った。模擬会議コーパスのうち 4 セッション
(5,663 発話)を学習データ、3 セッションを評価データ
(4,616 発話)として用いた。
実験では、以下の 3 つの条件設定で性能比較を行った。
「CSJ-Transformer」は日本語講演音声 CSJ で事前学習さ
れ た ベ ー ス ラ イ ン モ デ ル。「CSJ-Transformer +FT」 は
模擬会議コーパスでファインチューニングしたモデル。
「CSJ-Transformer +FT +TTS」は、人間系で作成した未
第 5 表 会議音声要約のプロンプトと要約例
議題「議事録の要約学習データ作成業務説明」
プロンプト : あなたはプロの編集者です。これから⽂章を渡すので、以
下の条件に従ってその要約を作成してください。
# 条件
・重要なキーワードを取りこぼさない。
・
「あー」や「えーと」など、⾔い淀み(間投詞、フィラー)を取り除く。
・⽂章の意味を変更しない。
・架空の表現や⾔葉を使⽤しない。
要約例 : ELYZA-Llama-2-7b-instruct(パラメータ数 70 億)
学習データの作成のために、議事録の要約を行う必要がある。議事録
は、日時、場所、出席者、発言内容などの項目から構成されている。ま
た、議事進行の方の話の要点を書き、それに対して質問をしている姿を
想像できるような感じでまとめる。
要約例 : ELYZA-Llama -2-13b-instruct(パラメータ数 130 億)
業務の⼀つとして、議事録の要約作成がある。議事録は厚⽣労働省のワ
クチン打ち合わせの会議のものを例に、分割して作成することが推奨さ
れる。司会者が議事内容をまとめている箇所を抽出し、要約とする⽅針
で作業を⾏う。今回は、地震津波に関する会議の例を 20 点ほど頂いて
おり、要約は⼿間がかかるが、量は多くないため、1 枚程度にまとめる
のが適切である。
知語を含む 414 の例文を TTS でデータ拡張してファイン
チューニングしたモデルである。学習時のミニバッチにお
けるリアルデータと拡張データの割合は 2:1 とした。
評 価 結 果 を 第 3 表 に 示 す( 評 価 指 標 は 文 字 誤 り 率
5
まとめ
CER)
。同表から、ベースラインに対し模擬会議音声で
本研究では議事録作成の前段階として、会議における音
ファインチューニングを行った効果が確認できる。また、
声対話の要約技術の検討を行い、実現性を確認した。(本
TTS データ拡張によって未知語が学習され、CER が低減し
研究は㈱ Human Dawaware Lab. との共同研究として実
ていることがわかる。データ拡張の有無によって改善した
施した)
発話の例を第 4 表に示す(太字が例文で学習された未知語)
。
技術開発ニュース 2024.03/No.168
52
- ▲TOP