技術開発ニュース No.169

- ページ: 34
-
研 究 成 果
評価セットとして、対策が記述されている完全知識の
ント要約によって行い、評価指標は前記 (3) と同様に R1、
セット(「発生概要」、「発生状況」、「対策」)と、対策が記
R2、RL、BERT-Score を用いた。LLM に与えるプロンプ
述されていない不完全知識のセット(
「発生概要」、「発生
トは、前記 (3) の対策生成の文言に加え、「以下の複数事例
状況」)を用意した。評価セット作成においては、情報量
を簡潔に箇条書きで要約してください。要約結果のみを出
のコントロールのため、
「発生概要」+「発生状況」は両者で
力してください。」を用いた。評価結果を第 2 表に示す。ま
共通のレコードを用い、「対策」の有無のみの違いとする。
た、提案手法②による対策生成の結果例を第 3 表に示す。
(2)実験条件
今回の評価実験では、電力業務に関連した以下の 10 個
のクエリを用い、後述の各種評価で使用する。
配電の高所作業、配電の活線作業、配電設備巡視、
変電所巡視、送電線巡視、水力設備巡視、伐採作業、
現場での重量物運搬、熱中症、ドローン
知 識 検 索 に お い て は Embedding モ デ ル と し て、
Multilingual E5 を用いた。また、LLM として、Llama3.1
を日本語コーパスで継続学習した指示チューニングモデル
である Llama3.1-8B-EZO-1.1-it( パラメータ数約 80 億)
を用いた。
「対策」が無い不完全知識を補完する方法として、LLM
を用いた対策生成の評価を行った。実験では、前述の 10
個のクエリで検索された結果の上位 30 件の各事例の「発
生状況」と「発生概要」を LLM に入力し、「対策」を生成
する。そして、これらを人間系作成の対策と比較するこ
とによって、生成結果の妥当性を評価した。LLM に与え
るプロンプトとして「あなたは誠実で優秀なプロの編集
者です。以下の事象から対策を考えてください。
」を用い
た。評価指標としては正解(GT)とのキーワードの一致
率を評価する ROUGE-1(R1)、ROUGE-2(R2)、ROUGEL(RL)、および BERT による潜在意味空間における類似度を
評価する BERT-Score を用いた。生成された 300 件の「対
策」の評価結果を第 1 表に示す。生成結果を目視確認した
ところ、概ね妥当な対策が生成されていることを確認した。
第 1 表 LLM による対策生成の評価
0.179
R2
0.026
要約の元になる
情報源
BERT-Score
R1
R2
RL
①「発生概要」+
「発生状況」+
「対策」
0.294
0.065
0.162
0.708
②「発生概要」+
「発生状況」+
「対策(生成)」
0.328
0.067
0.170
0.703
③「対策(生成)」
のみ
0.275
0.055
0.150
0.707
④「発生概要」+
「発生状況」
0.178
0.029
0.113
0.648
第 3 表 提案手法②による対策生成例 : クエリ「熱中症」
(3)LLM による対策生成の評価
R1
第 2 表 知識補完の有効性評価
RL
0.138
BERT-Score
0.649
(4)知識補完の有効性評価
提案手法の有効性を確認するため、完全知識の場合と不
完全知識の場合における知識補完の有無による条件下でマ
ルチドキュメント要約の比較評価を行った。実験では完全
1. 作業時間調整 : 熱中症リスクが高まる時間帯 ( 午前 10 時から午
後 3 時頃 ) に、作業時間を調整して水分補給と休憩を促進する。
2. 予防体制の強化 : 熱中症のリスクが高まる期間に、特に労働者
が多い部門や作業場所で早期に対策を講じる。3. 気温と湿度の監
視 : 気温が高くなると、水分摂取不足により熱中症が発症するた
め、温度と湿度を監視し、適切な水分補給を促す。4. 定期的な水
分・塩分補給 : 作業員に定期的に水分と塩分を補給させ、実践を
確認する。5. 気象情報のチェック : 休暇前や出向前、現場の気象
予報を確認し、日中の高温となる可能性がある場合に十分な対策
を講じる。
(5)考察
第 2 表の ROUGE スコアに着目すると、
「生成した対策」を
加えた②のケースでは、完全知識の①を上回る結果が得られ
た。これは LLM で知識補完した情報が、人間系作成の対策
に匹敵する情報量を含んでいると考えられ、提案手法の有効
性が確認できた。また、②と④のケースの比較では、不完全
知識(「発生概要」と「発生状況」)の集合から一足飛びに対
策の要約を生成するよりも、一旦それぞれの「対策」を生成
して情報源として用いた方が、良好な結果が得られることが
分かった。これは段階的に推論を行うことによって、ある種
の Chain-of-Thought のような効果が表れていると考えられ
る。また、生成した対策のみを用いる③ケースは、①と②の
結果に及ばず、要約生成において、
「発生概要」と「発生状
況」のコンテキストが重要であることを示唆している。
知識を使うケース①と、知識補完を行う 3 つのケース②~
④を比較する。
①「発生概要」+「発生状況」+「対策」
②「発生概要」+「発生状況」+「対策(生成)」
③「対策(生成)」のみ
④「発生概要」+「発生状況」のみ
評価における GT は、前述の 10 個のクエリごとにサンプ
リングした複数事例 30 件について、人間系で対策をまと
めた要約結果を用いた。生成結果の評価はマルチドキュメ
4
まとめ
本稿では、RAG を用いたヒューマンエラー事象の対策立
案の一手法として、外部知識の補完によって拡張された知
識源を用い、複数事例の対策を集合知としてまとめる手法
を提案した。
(本研究は㈱中電シーティーアイとの共同研究として実施した)
技術開発ニュース 2025.03/No.169
34
- ▲TOP