「期待値に届かない生成AIの回答」その根底にある問題とは：日立が紐解く業務特化型LLM成功への道

2025年10月22日 03:402024年12月25日 05:10

共通

レベル★

この記事でわかること	生成AIの回答精度が低い根本原因（LLM自体ではなくデータ整備の問題）業務特化型LLMの成功に必要な「LLM＋RAG＋ファインチューニング」の三位一体戦略日立が開発したハルシネーション抑制技術やデータパイプライン構築支援ツールの概要
この記事の対象者	企業のDX推進、生成AI活用プロジェクトを推進する担当者 RAGを導入したが回答精度が期待レベルに達していないと悩む開発・情シス部門システム運用、製造現場、コールセンターなど特定業務のAI適用を目指す管理者
期待できる効果	AI活用をPoCで終わらせず、実業務適用へと進める具体的なロードマップの理解 LLMを自社の専門知識で強化し、ハルシネーションリスクを最小化する技術的戦略人財不足解消に向けたシステム開発、カスタマーサービスなどでの業務効率向上

企業の経営企画部、DX推進部、そして情報システム部門の皆様へ。

人財不足が深刻化する中、生成AIは「業務効率化の切り札」として期待され、多くの企業がRAG（検索拡張生成）の導入に踏み切りました。しかし、その結果、多くの現場から次の不満の声が聞こえてきます。

「一般の議事録要約や翻訳はできるが、自社固有の専門的な質問には回答精度が低い…」「RAGで社内データを与えたのに、なぜか的外れな回答（ハルシネーション）が止まらない…」「結局、業務に使えるレベルにならず、PoC（概念実証）で停滞している…」

多くの人が、この精度の低さを「LLM（大規模言語モデル）自体の問題」と考えがちです。しかし、自社を実験場として1000を超えるユースケースを検証してきた日立製作所の知見は、その真因が「LLM＋RAG」の前段階にあることを示しています。

その真因とは、「期待するアウトプットのためのデータ（質問と回答のセット）がインプットされていないこと」、そして「データパイプラインの整備不足」です。

本稿では、日立製作所の試行錯誤から得られたノウハウに基づき、「生成AIが使えない」という悩みを解決し、業務特化型LLM（LLM＋RAG＋ファインチューニング）を成功に導くための具体的なステップと技術的戦略を徹底解説します。

「期待値に届かない生成AIの回答」その根底にある問題

生成AIの回答精度が低い原因とは？ — 引用：ITmedia「『業務利用するには回答精度が低い』真因と成果に向けた具体的ステップ」

LLMの限界：自然言語モデルの「前提条件」

日立が検証を通じて見出した「生成AIが使えない」根本原因は、LLMが自然言語モデルに過ぎないという前提にあります。

前提: LLMが期待するアウトプットを出すには、「そのアウトプットを出すためのデータ（質問と回答）がセットでインプットされている」ことが前提です。
真因: 特定業務において「明確な答えがない質問」を投げかけると、LLMは誤った回答であるハルシネーションを発生させます。これは、LLMが「自然言語」しか理解しないため、特定業務のデータや形式知化された暗黙知が事前に整備されていないために起こります。

汎用LLMは、議事録の要約や翻訳といった一般的なフロントオフィス業務には有効ですが、制御系システムや生産ラインの管理といった特定業務への適用には、自社固有の知識を取り込む業務特化型LLMが必要不可欠です。

RAG導入企業の落とし穴：「データを読み出せない」データベース

RAGは、社内情報や最新情報を外部ソースとして利用することで回答精度向上を期待できますが、単にドキュメントやデータを大量に与えるだけでは不十分です。

データパイプラインの欠如: 知識DB（データベース）に大量のドキュメントやデータを与えても、生成AIが読み出して検索できる状態になっていないことが問題の核心です。
データの粒度と形式: 不要なデータは削除した上で、粒度や形式をそろえた知識DBを用意しなければ、LLMは適切に情報を読み取れず、やはり期待する回答は得られません。
暗黙知の形式知化: 例えばシステム運用に生成AIを活用する場合、「何らかの障害が発生したとき、どのような操作を行ったのか」というベテラン担当者の暗黙知をヒアリングし、「質問と回答」という形式知にまとめて学習データとしてインプットする作業が求められます。

「思うような効果が得られない本当の原因」は、LLMの性能ではなく、LLMが適切に処理できる「データの土台」が整備されていないことにあるのです。

業務特化型LLM構築の3ステップ：日立の検証が示すロードマップ

日立製作所は、この課題に対し、全社で1000を超えるユースケースを抽出し、「LLM＋RAG＋ファインチューニング」を組み合わせた業務特化型LLMのロードマップを確立しました。

Step 1: 業務のユースケース抽出と適用領域の特定

まず、生成AIの活用が最も効果を発揮する領域を特定します。日立の検証では、以下の領域で業務効率の向上が見込めると判断されました。

システム開発業務: ソースコードのコーディング、レビュー、単体テスト。
カスタマーサービス: コールセンターなどでの顧客からの問い合わせ対応。

現在、日立はこれらの領域での実業務への適用を進めています。

Step 2: LLMの直接改良（ファインチューニング）による専門知識の注入

RAGによる外部知識の参照だけでは難しい特定業務の用語や専門的な知識の理解のために、LLMの直接改良（ファインチューニング）を行います。

事例（JP1認定試験）: 日立は、統合システム運用管理ソフトウェア「JP1」の認定資格試験をターゲットに、LLMをファインチューニングする取り組みを実証実験しました。
結果: ファインチューニング単体で正答率を大幅に向上させ、さらにRAGを組み合わせることで、難易度の高い認定コンサルタント試験で合格ラインの正答率70％を達成しました。

この検証から、LLMの専門性（Expertise）を担保するためには、RAGによる参照だけでなく、ファインチューニングによるLLM自身の「知識の強化」が有効であることが証明されました。

Step 3: RAGの技術改良によるハルシネーションの抑制

RAGシステムにおける回答精度の低さや不安定さという最後の壁に対し、日立は以下のような独自技術を開発し、ハルシネーションの抑制に成功しています。

専門用語の表記揺れ修正: 業務特化のLLMにおけるベクトル検索が苦手な専門用語の表記揺れを、自動的に修正するデータ前処理技術。
マルチドキュメント参照: 複数のドキュメントを参照することで、学習していない質問にも適切に回答する技術。
誤回答過程の分析: 誤回答の生成過程を分析・類型化し、プロンプトエンジニアリングを組み合わせることで、「回答精度を高めるツール」を開発。

これらの技術改良により、生成AIの回答を「模範回答」に近づけることが可能となり、実務で使える信頼性（Trustworthiness）が確保されます。

AI成功のための日立の戦略的ソリューションと組織体制

日立は、自らの試行錯誤で培ったこれらのノウハウを、企業の生成AI活用を支援するサービスとして体系化し、提供を開始しています。

業務特化型LLM構築・運用サービスの提供

日立は、LLMの工場とも言える「業務特化型LLM構築・運用サービス」を提供しています。

オーダーメイドのLLM: 顧客の目的に応じて「どのようなデータを、どのような方式で学習させるか」をアドバイスし、業務に活用できる回答が得られるまでLLMの改良を重ねます。
安全な実行環境: LLM構築に必要なNVIDIAの最新GPUや、日立が強みを持つ次世代ストレージをAIインフラソリューション「Hitachi iQ with NVIDIA DGX」に搭載。顧客の機密情報を保護しながら、業務特化型LLMを安全に実行できる環境を整えます。

伴走型コンサルティングによる「人」の支援

AIの成功には技術だけでなく、「人」の知見と経験（Experience）の投入が不可欠です。

専門家チーム: 日立は、LLMエンジニア、データサイエンティストといった生成AI分野の専門家と、IT/OT（制御システム）など各業務分野のプロフェッショナルを多数擁しています。
業務ドメインの専門性: これらの専門家が、製造業や社会インフラ、制御システムを支える幅広い業務ドメインで、「どんなデータが必要で、どうチューニングすればいいか」を事細かに支援します。

この「技術」と「業務知見」の両輪による支援体制こそが、日立ならではの最大の強みであり、多くの企業が抱える「AI活用の壁」を乗り越えるための確かな道筋となります。

結論：AIを「個人の便利ツール」で終わらせないために

生成AIを「個人の便利ツール」から「企業の競争力を高める戦略ツール」へと進化させる鍵は、業務特化型LLMの構築にあります。

日立の検証結果は、RAGシステムが期待に応えない根本原因が「データの前処理と形式知化」という前段階にあることを明確に示しました。AIを成功させるためには、泥臭いデータ整備と、LLMの学習への継続的な「人間の経験」の投入が不可欠です。

AIの力を借りて、企業の暗黙知を形式知化し、人財不足という社会課題に立ち向かえるように支援する。この日立の取り組みは、多くの企業における生成AI活用の明確な羅針盤となるでしょう。

貴社の生成AI活用をPoCで終わらせず、業務特化型LLMの構築によって、真の業務効率化と未来の競争力の確保を実現させていきましょう。

Q&A: 業務特化型LLMとRAGに関するよくある質問

Q1. 業務特化型LLMを構築する際、RAGとファインチューニングはどちらを優先すべきですか？

日立の検証事例が示すように、両方の組み合わせが最も高い精度（合格ライン70%以上）を実現します。初期段階では、RAGによるハルシネーション抑制と根拠明示を優先し、その上で特定業務の専門用語理解や回答のトーンに課題が残る場合にファインチューニングを追加で実施するハイブリッド戦略が、コスト効率と精度を両立させる最善策です。

Q2. 業務特化型LLMの構築・運用を成功させるために、情シスは何をすべきですか？

情シス部門は、以下の2点を最優先すべきです。

安全なAIインフラの提供: LLMへの入力データがAI学習に利用されない環境（例：Hitachi iQ with NVIDIA DGXなどのクローズド環境）を構築し、機密情報のセキュリティを担保する。
データパイプラインの整備: 業務文書のデジタル化、統一化、そしてベクトル化を一連の流れとして効率化するデータパイプライン構築ツールを導入し、AIが読み出せる知識DBを継続的に整備する。

Q3. RAGの回答精度が低かった場合、LLMをチューニングする以外に改善策はありますか？

はい、あります。LLMをチューニングする前に、以下のRAGの前処理と検索部分を見直すべきです。

データ整備: 知識DBのデータの粒度や形式がLLMに適しているか、不要なノイズデータが含まれていないかを確認する。
検索技術の改良: ベクトル検索だけでなく、キーワード検索やハイブリッド検索を組み合わせることで、LLMに渡す情報（根拠）の品質を高める。

LLMのチューニングは高コストなため、まずはRAGのパイプライン全体の改善を試みることが、最も費用対効果の高い戦略です。

引用元

ITmedia「『業務利用するには回答精度が低い』真因と成果に向けた具体的ステップ」