技術開発ニュース No.168

- ページ: 50
-
研 究 成 果
Results of Research Activities
ヒューマンエラー事象のテキストマイニング技術
A Text Mining Method for Human Error Events
ヒヤリハットのビッグデータを有効活用
ヒヤリハット事例は、ヒューマンエラーの発生傾向、因果関係、背景要因等の各種分析
において有用性が高い。これまでにグループ会社全体で約 50 万件の膨大な事例が蓄積さ
れているが、これらビッグデータを有効活用するための分析手段が十分検討されていな
い。そこで、本研究ではヒヤリハット事例を知識資産として活用するためのテキストマイ
ニング技術を検討した。
1
背景と目的
テキストマイニング(Text Mining)とは、構造化され
ていない曖昧な⾔語情報から有用な知識を抽出する分析技
3
執筆者
先端技術応用研究所
情報技術グループ
瀬川 修
分析手法の概要
(1)関連キーワード推定
特定の状況(シチュエーション)を「交差点+危険+
術である。具体的には、文書に含まれる単語の統計量や意
死角」のように単語の意味ベクトルの加減算によって合
味的な関連性に基づき、カテゴリ分類、トピック抽出、
成し、当該文脈における関連キーワードを推定する手法
キーワード分析などを実現する自然⾔語処理技術である。
を考案した。具体的には、何らかのシチュエーションを
我々は、これまで顧客意見や学術情報を対象とした独自の
Word2Vec など自己教師あり学習に基づく⾔語モデルを用
テキストマイニング技術の開発を行い、ビッグデータの分
いて「単語分散表現」のベクトルで表現し、当該ベクトル
析支援ツールとしての有効性を確認している。本稿では、
に類似したキーワードを近傍検索することにより意味的に
最新の取り組みとして、ヒューマンエラー事象を対象とし
関連の深いキーワードを推定する。
た分析手法の概要と有効性評価について述べる。
(2)因果関係分析
⾔語モデル BERT で用いられている Masked Language
2
ヒヤリハット事例の分析
「ヒヤリハット」とは事故や災害につながりそうな事例
を収集し、ヒューマンエラー防止に寄与する情報を共有す
る取り組みである。蓄積された事例データは、ヒューマン
Model(MLM)を応用し、入力されたトークン系列のマス
ク箇所を推定することによって因果関係にある概念を推定
する手法を考案した。複数のマスクがある場合は、ビーム
サーチによりマスク箇所のトークン系列を推定する。
(3)対策立案
ヒヤリハットデータの約 6 割には、再発防止のための対
エラーの発生傾向、因果関係、背景要因等の各種分析にお
策が記述されており、これらの情報は危険予知や対策立案
いて有用性が高い。これまでにグループ会社全体で約 50
などに有用な情報である。この約 27 万件の「事象と対策
万件の膨大な事例が蓄積されているが、ビッグデータを有
のペア」を知識源として、LLM の一種である T5 の事前学
効活用するための分析手段が十分検討されていない。そこ
習モデルのファイチューニングを行い、検索質問の事象に
で、本研究ではヒヤリハット事例を知識資産として活用す
るためのテキストマイニング技術を検討した ( 第 1 図 )。
以下、本稿では各種分析手法の中で、キーワード分析、
対し適切な対策文を生成する手法を考案した。
(4)要約
Transformer に 基 づ く 自 己 回 帰 型 LLM を 用 い た 生 成
対策立案、要約について主に大規模⾔語モデル(Large
型要約手法について初期検討を行った。今回用いた LLM
Language Model: LLM)に基づく手法について検討した
はオープンソースとして公開されている Llama2 の日本
結果を述べる。
語 モ デ ル(ELYZA- Japanese-Llama-2-7b、 パ ラ メ ー
タ 数 70 億 )、 お よ び GPT-NeoX の 日 本 語 モ デ ル(rinna/
japanese-gpt-neox-3.6b、パラメータ数 36 億)である。
ここで、オープンソースの LLM を利用するメリットで
あるが、分野やタスクに特化した独自の学習(ファイン
チューニング)が可能なこと。また、クローズドな環境で
運用の内製化が可能などの点が挙げられる。
第 1 図 ヒヤリハット事例のテキストマイニング技術
49
技術開発ニュース 2024.03/No.168
- ▲TOP