技術開発ニュース No.168

- ページ: 96
-
研 究 紹 介
Introductions of Research Activities
生成系 AI を用いた議事録作成支援技術
Supporting Meeting Minutes Creation Using Generative AI
会議の動画・音声データから簡易議事録を自動作成
執筆者
会議や打合せが開催された際、議事録を作成する機会は多い。また近年は Web 会議の
普及等を背景に会議の録音・録画データの入手が容易になっている。こうした点に着目し
開発した、音声認識 AI と話題の生成系 AI を組み合わせ、会議の音声データをもとに簡易
な議事録を自動作成する技術、およびアプリについて紹介する。
1
はじめに
会議や打合せが行われた際、業務記録や参加者・関係者
先端技術研究所
情報技術グループ
追良瀬 利也
① 会議音声の前処理と音声認識 AI による文字起こし
② 生成系 AI による文字起こしデータの修正(整文)
③ 生成系 AI による整文後データの要約
③の結果が会議の簡易的な議事録となることから、ユー
への共有を目的として、議事録を作成する機会は多く、
ザはこれをもとに議事録を作成することで、大幅な議事録
作成する担当者へは多大な負荷がかかっている。また近年
作業時間の短縮が可能となる。
ではスマートフォンを中心としたデジタル機器の普及や、
Web 会議が一般化していることもあり、会議の録音・録画
データの入手が容易になってきている。
こうした点に着目し、近年発達が著しい生成系 AI と音声
3
会議音声の前処理および文字起こし
認識 AI を組合せ、会議の録画・録音データをもとに、簡易
本項では、会議の録画・録音データをもとに文字起こし
的な議事録を作成する議事録作成支援アプリを開発した。
結果を作成するまでの処理内容を解説していく。
本稿では開発したアプリの概要や内部で行っている処理内
容について紹介していく。
(1) 会議音声の前処理
ユーザがアップロードしたデータを音声認識 AI に入力
するため、以下の手順で前処理を行う。
2
議事録作成支援アプリの概要
① 音声の抽出
ユーザがアップロードした、データが Web 会議の
レコーディングデータなどの動画ファイルであった場
本アプリは社内専用の Web アプリケーションとして開
合、音声認識 AI にそのまま入力することは出来ないた
発しており、社用 PC からブラウザを用いてアクセスでき
め、音声のみを抽出し音声ファイル形式に変換する。
る。開発したアプリ画面を第 1 図に示す。
② 無音部分の削除
音声認識 AI の認識精度向上のため、録音開始から会
議が開始するまで、また会議が終了してから録音が終
了するまでの無音(雑音を含む)時間を削除する。
③ 音声の分割
1 時間を超える会議音声などはそのまま音声認識 AI
に入力出来ないため、一定の間隔で音声を分割する。
これを音声認識 AI に入力するデータとする。
(2) 音声認識 AI による文字起こし
95
第 1 図 議事録作成支援アプリ画面
(1) 項で準備したデータを用いて、音声認識 AI にて文
ユーザは Web 会議のレコーディングデータやスマート
発・公開している Whisper というモデルを用いている。
フォンで録音した会議の音声データをアップロードし、要
このモデルは英語や日本語を含む 68 万時間分の音声
約方法を指定した後、スタートボタンを押すだけで処理が
データで学習されており、高い精度で音声の文字起こし
始まる仕組みとなっている。議事録作成支援アプリ内にお
が可能となっている
ける大まかな処理の流れは以下①~③の通りである。処理
することにより、1 時間ほどの音声が 3 分ほどで文字起
終了後、ユーザは各処理の結果をダウンロードすることが
こし後のテキストデータに変換され、後に続く整文処理
出来る。それぞれの処理内容の詳細は 3,4 章にて解説する。
に渡される。
技術開発ニュース 2024.03/No.168
字起こしを行う。音声認識 AI には、米 OpenAI 社が開
。本アプリからこのモデルを利用
(1)
- ▲TOP