市民サービスへの生成AI活用に向けた3つのLLMの比較と評価【BEPPU×生成AI vol.5】
別府市企画戦略部情報政策課デジタルファースト推進室です。
前回の記事では、令和6年3月に行った別府市の子育てに関するデータを対象とした生成AIのチャットボットサービスの実証運用についてご紹介しました。
実は、このチャットボットサービスを構築している間に3度LLMの見直しを行っています。費用面はもちろん安定的な稼働状況などLLMによって差異があったためです。今回はこの実証運用から見えてきたLLMのそれぞれの特徴をご紹介します。
生成AIを活用した子育てチャットボットのLLMの変遷
実証運用時のLLMはGoogle社のGemini 1.0 Proを利用しましたが、以下の変遷をたどりました。
Ver.1: OpenAI GPT-3.5 Turbo
Ver.2: OpenAI GPT-4 Turbo
Ver.3: Google Gemini 1.0 Pro
生成AI技術の進展に合わせ、LLMを変更してきました。
変更するにあたり見極めたポイントは以下の3つでした。
・機能面 回答速度と正確性
・費用面 継続的な運用が可能な料金設定
・可用性 システムの安定性
GPT-3.5 TurboからGPT-4 Turboへ
最初のLLMは費用面も考慮しGPT-3.5 Turboで構築を始めました。
2023年11月に開催されたOpenAI DevDayでの価格の改定、文字数の緩和等を受けてGPT-4 Turboへ変更をしました。
GPT-3.5 TurboからGPT-4 Turboへ変更したことで、回答速度が速くなったことを今でも覚えています。
GPT-4 TurboからGemini 1.0 Proへ
GPT-3.5 TurboからGPT-4 Turboへ変更したことで回答速度が上がり、ハルシネーションの抑制も向上したものの、当時はOpenAI社から障害情報が挙がってくることがしばしばありました。
そこで、費用面も安価であり、安定性もあるGemini 1.0 Proに変更し検証を続けることとなりました。
Gemini 1.0 Proに変更して検証してみると、GPT-4 Turboと遜色なく、利用できました。
LLMを比較してみました
実証運用第1弾はGoogleのGemini 1.0 Proで実施しました。
実証結果についてはnoteや別府市公式ホームページで公開しています。
https://www.city.beppu.oita.jp/doc/sisei/df/henkaku/ai2/matome.pdf
今回の実証運用の結果を経て、最適なLLMを選定するために、以下の3つのLLMを比較、評価しました。
・Google Gemini 1.0 Pro
・Anthropic Claude3.5 Sonnet
・Command-R+
検証内容は、変更するにあたり見極めたポイントと同様で、機能面、可用性、費用面の3点です。
検証のための環境は、SDT株式会社が提供している「Panorama AI」を活用しました。
機能面での比較
機能面の比較として、3つのLLMに対して同じ質問を投げ、その回答を評価しました。
当然、各LLMで回答内容は異なりました。以下に特徴的な質問・回答例を示します。
質問:「児童手当は、高校生はもらえますか?」
◾️ Claude 3.5 Sonnetの回答
児童手当は中学校修了までの児童(15歳到達後、最初の3月末までにある児童)を対象としています。したがって、高校生は児童手当の対象外となります。
◾️ Gemini 1.0 Proの回答
申し訳ありません。回答がわかりません。
◾️ Command-R+の回答
別府市では中学校修了までの児童(15歳到達後、最初の3月末までにある児童)を対象に児童手当が支給されます。
Claude 3.5 Sonnetは、質問のニュアンスを理解し、高校生が対象外であることを説明しつつ、実際の対象年齢も明確に示しています。一方、Gemini 1.0 Proは回答を避け、Command-R+は対象を明示するのみという結果でした。
実証運用第1弾で受けた全ての質問で回答内容を検証しました。
Claude 3.5 Sonnetは、上記のような質問のニュアンスを理解した上で回答を行う傾向がみられました。
検証結果は、こちらです↓
費用面での比較
生成AIに関して機能面での比較資料は散見するものの費用面を比較した資料は少ないと感じていました。
本格運用に入り利用数が多くなった時に生成AIの利用コストを考えておくことは重要だと考え費用面を比較してみました。
各LLMの利用コストは、2024年7月23日時点で以下のとおりです。
価格参照情報
Claude
Gemini
Command-R+
上記の情報をもとに子育てチャットボットで1件あたりの処理にかかる金額についても算出してみました。
RAGという仕組みを利用し、入力は回答候補を生成AIに投入する4,000トークンほど、出力では450トークンほど使うと仮定して算出した結果が以下のとおりとなります。
可用性での比較
システムの安定性については、今回検証した3つのLLMとも安定的に稼働していました。
評価
今回検証を行った製品はどれも素晴らしかったのですが、機能面、費用面、そして安定性を総合的に評価した結果、第2弾の実証実験では、正確性を犠牲にすることなく、より柔軟に対応できるClaude 3.5 Sonnetを採用することに決定しました。その理由は以下の通りです。
質問のニュアンスを理解し、より適切で詳細な回答を提供できる
未回答(「わかりません」という回答)が比較的少ない
安定した稼働が期待できる
費用対効果のバランスが良い
今後の展開
これから子育てチャットボットの第2弾実証運用を計画しています。この実証運用では、Claude 3.5 Sonnetを用いてより高度な対話能力と正確性を検証していきます。特に、以下の点に注目して評価を行う予定です。
複雑な質問に対する回答の正確性
別府市特有の情報の理解と適切な提供
ユーザーの意図理解と柔軟な対応
ぜひ実証運用の第2弾が開始になりましたら、みなさまもお試しいただければ幸いです。
別府市は、最新のAI技術を活用し、市民サービスの向上に努めてまいります。今後もご注目ください!
本記事はClaude3で文章の校正を行いました。