技術開発ニュース No.169

- ページ: 71
-
研 究 紹 介
Introductions of Research Activities
生成 AI を用いた研究報告書検索システム
Enhancing Research Report Search with Retrieval-Augmented Generation
RAG の仕組みがもつ課題とその対策案の紹介
生成 AI 技術の進化に伴い、非公開の社内情報に関する回答生成を可能とするRAG 技術
が注目されている。当社でも自社構築によりRAGの検討を進める中で、様々な課題が明ら
かになってきている。本稿では、検討の中で明らかとなったRAGの仕組み上の課題や、そ
の対策を検討し実装した研究報告書検索システムの内容について紹介する。
執筆者
先端技術応用研究所
情報技術グループ
追良瀬 利也
1
はじめに
2
RAG の仕組みが持つ課題と対策
近 年、ChatGPT を 代 表 と す る 生 成 AI 技 術 の 急 速 な 発
本章では、検討を進める中で実際に明らかとなった基本
展 に よ り、 チ ャ ッ ト 形 式 で ま る で 人 間 と 話 す か の よ う
的な RAG の仕組みが持つ課題と、その対策として報告書
に AI と 対 話 で き る 技 術 が 広 ま っ て い る。 そ の 中 で も、
検索システムに実装した仕組みの概要について紹介する。
RAG(Retrieval-Augmented Generation) と 呼 ば れ る 技
(1) 大きな表データの検索と回答
術が広く使われている。これは、ユーザからの質問に応じ
最も大きな課題の 1 つは、大きな表形式データに関する
て内部的に個別のデータソースを検索し、検索結果と質問
質問回答である。生成 AI はその仕組み上、大きな表形式の
内容を一緒に生成 AI に送ることで、固有のデータをもとに
データをそのまま与えて表に関する質問に回答させたり、
した回答を可能とさせるものである。RAG のイメージを第
データを選択させたりする回答生成が難しく、ハルシネー
1 図に示す。
ション※を起こす可能性も高まる。実際に、報告書検索シ
ステムにおいても、1000 行を超える報告書のタイトルや
担当者、実施期間などのデータをもつ表データを与え、
ユーザの質問(例:2023 年に行われた AI の研究はありま
すか? )に的確に答えさせることは難しく、ハルシネー
ションも見られた。そこで、ユーザから表データに関する
質問が来た際、表から回答に必要なデータを事前に抽出す
る処理を組合せ、回答を生成させることにした。この処理
第 1 図 RAG の概略図
においても生成 AI を用いて、ユーザからの質問をもとに
表探索用のプログラムの動作補助のための情報を抽出して
この仕組みにより、通常の生成 AI が知識として持って
いる。動作の概要は第 2 図の通り。報告書検索システムで
いない、一般には非公開の社内情報等に関して回答させる
は、表に関する内容や数を問う質問が来た際はこのような
ことが出来ることから、こうした取り組みは各社で社内用
動作をシステム内部で行い、回答を行う。
チャットボットとして活用が広く進んでいる。当社もそ
※ AI が誤った情報や事実とは異なる情報を生成する現象。
の 1 つとして、自社構築で様々な部門のデータを対象に、
新人教育や業務検索の高度化などを目的に活用を進めてい
る。研究開発を主なミッションとする技術開発本部におい
ても、過去の研究知見の活用や新たな知見・アイディア創
出を効率的に行うため、研究情報がまとめられた研究報告
書を対象とした RAG の仕組みを検討している。
検討を進める一方で、基本的な RAG の仕組みが持つ課
題や苦手な領域についても明らかになってきている。本稿
では、その課題・苦手な領域の一部を紹介しつつ、その対
策を検討し試作した研究報告書検索システムについて紹介
第 2 図 表探索の補助・生成を行う仕組みの概要
していく。
(2) 都度の情報探索による弊害と処理分岐
基本的な RAG は、第 1 図のような質問→検索→回答の流
71
技術開発ニュース 2025.03/No.169
- ▲TOP