見出し画像

市民向け生成AIを活用したチャットボットサービスの実証運用【BEPPU×AI vol.4】

別府市 企画戦略部 情報政策課 デジタルファースト推進室です。

前回の記事で生成AIの課題として「ハルシネーション」、「全世界の情報から回答を紡ぎ出す」を解決し、生成AIを活用したチャットボットを入口とした市役所ポータルの実現したい、というお話ししました。
その実現に向けた取組として令和6年3月に「別府市の子育て分野に関するデータを対象とした生成AIのチャットボットサービス」の実証運用を行いました。今回はその実証運用についてご紹介します。


はじめに

汎用的な生成AIの実証運用を行っていた令和5年の夏。汎用的な生成AIを活用してみて課題として感じたこと「ハルシネーション」と「別府市のデータ以外も含まれるため汎用的な回答になってしまう」という点でした。

そんな課題を感じていたちょうどそのタイミングで「大分大学医学部」と「SDT株式会社」から「別府市固有のデータを使った生成AIを作りませんか」とご提案をいただき、それ以降、協議を重ねてきました。

協議の結果、生成AIを活用し市民サービスや職員の業務負担軽減にともに取り組んでいく方向で一致し「大分大学医学部」、「SDT株式会社」、「別府市」の産学官で連携し、生成AIに関する技術を活用することにより、デジタル・トランスフォーメーションを推進し、デジタル社会の実現に貢献することを目的とした連携協定を令和6年1月24日に締結しました。

連携協定に基づき、子育て分野の市民向けの生成AIチャットボットの構築に取りかかり、内部での検証を経て実証運用を行いました。

実証運用の概要

◾️実証運用期間

令和6年3月8日~4月1日(25日間)

◾️実証運用の目的

実証運用の目的としては「いかなくていい市役所」を実現する取組みの一つとして、市役所に対する様々な問い合わせに対して自動的に回答を行う総合窓口的な自動問合せ機能(チャットボットサービス)の実現が可能かどうか評価したいと考えていました。

◾️実証運用で確認したいこと

今回の実証運用で確認したいことは以下の2点になります。
1.自然言語での質問に対して、正しい情報を回答する
・誤った回答、あやふやな回答を行わない、そのような場合は回答しないことを確認する
・生成AIの“生成する能力”を調整し、提供されたデータの中で再現性のある回答を行うことを確認する
2.利用者がどのような質問を行うか把握する
・自然言語での質問として、どのような内容、どのような形式(短文、長文、単語、文章など)で質問を行うのか傾向を把握する

◾️実証運用のサービスの概要

実証運用は、子育て分野に関する別府市のデータベースを構築し、市民からの質問に対して、まず、別府市のデータベースを検索し検索結果をもとに生成AIが回答を紡ぐ、という形式です。
別府市のデータベースとしては、現在サービス提供中のシナリオ型チャットボットの質問・回答を中心に約180件のデータを保持しています。
生成AIはSDT株式会社のPanorama AIというサービスを活用しました。

LLMについては何種類か試したのですが、今回の実証運用ではGoogle社製のサービスを利用しました。

実証運用の概要図

◾️利用方法

実証運用の利用は、別府市LINE公式アカウントのメニューから利用できるようにしました。
WEBベースの仕組みなのでURLを公開して利用したほうが多くの人が利用できますが、実証運用では利用数を制限したいと考えたのでLINEからの利用に限定しました。

実証運用の利用方法

◾️質問と回答例

実証運用での質問&回答例を以下に提示します。事前の別府市内部での検証時のデータになります。

実証運用の質問・回答例

実証運用結果

実証運用の結果は以下のとおりでした。

◾️利用回数

期間中の利用回数は139回でした。
日ごとの利用回数は、3月11日が最多で28回でした。
3月11日と31日に利用数が伸びているのは、実証運用のアナウンスをLINE公式アカウントで送信した影響と考えています。

日毎の利用回数

時間帯ごとの利用回数は、16時台が最多で25回でした。

時間帯ごとの利用回数

質問に対して回答が出来た件数は、139件中75件
回答ができた回数のうち、正しい回答の件数は、75件中70件
回答ができなかった質問の内訳は、64件中42件が子育て分野の質問
質問の仕方については、質問形式が67件、単語形式が72件と僅差

実証運用の利用状況

実証運用の結果は別府市ホームページでも公開しています。

評価

◾️確認したいこと1  自然言語での質問に対して、正しい情報を回答する

質問総数139件のうち回答ができた75件について、質問内容に対して正しく回答した件数は70件、正答率は93.3%、回答内容が一部不十分な回答は5件、完全に誤った回答はありませんでした。

不十分の回答の5件の内容としては「回答で制度を2つ回答しているが問合せ先を1箇所のみ記載していた(1件)」、「幼稚園入園に関する質問で私立幼稚園のみ回答(3件)」、「3つの子育て支援センターの中で2つのみ回答(1件)」でした。

回答ができなかった質問の中で子育てに関するものは42件(未回答中65.6%)ありました。

【まとめ】
● 正しい回答は93.3%、生成AIが勝手に作り出したような完全に誤った回答はなかった
● 回答内容に一部情報の不足がある不十分な回答は6.7%であった
● また、回答ができなかった質問の中で子育てに関するものが42件あった
★ 正しく回答を行うため継続した取組みが必要【課題1】

■ 確認したいこと2  利用者がどのような質問を行うのか把握する

利用者の質問は「児童手当」のうような単語形式が51.8%、「児童手当について教えて」のような質問形式が48.2%とほぼ半々でした。

「~~について教えて」という質問が多くありましたが、注意事項に質問例として記載したものであり、この質問例の記載は有効であったと思えます。

質問の文字数は平均11.4文字でした。

【まとめ】
● 質問は単語、または、単語に“〜について教えて”をつける程度の短い文での質問が多く、質問文字数は平均11.4文字
● シーンを限定した具体的な質問に対して回答ができない場合が見受けられる
★ 具体的な質問に対して回答ができるような対応を考慮することが必要【課題1に含む】

■ 利用数について

利用数は139回であり、1日平均5.8回でした。
現在サービスを提供しているシナリオ形式のチャットボットの利用回数は1日平均5.5回です。ほぼ同等の利用でした。

別府市公式LINEアカウントで本実証運用についてメッセージ配信を実施した3月11日と31日の利用数が多く、周知を行うと利用数が伸びており、適切な周知の必要性を感じました。

今回の利用形態は別府市公式LINEアカウントからのみ利用できるように制限していましたが、これは、誤った回答をする場合の影響を限定するための措置であり、今後はLINEに限定せずホームページからもアクセスできるようにしたいと考えています。

【まとめ】
●(利用数は今回の評価対象と考えていないが)1日平均5.8回の利用があり、既存のシナリオ型チャットボットとほぼ同じ
★ 今後、利用数を向上していくための対応が必要【課題2】

■ LLMについて

商用で利用できるLLMは数多く存在し、新たなLLMが公開されています。また、生成AIは成長が著しい技術分野です。それは、構築~実証運用に向けて準備しているときにもひしひしと感じており、実証運用においても、当初別の製品を利用していましたが、最終的に機能面、費用面、安定面から評価しGoogle社製のサービスを利用しました。
LLMは機能面に注目されがちですが、運用を継続し多くの利用を想定したときに費用面の考慮も重要です。
また、市民向けのサービスに利用することを想定した場合、いつでも利用できるようにサービスの安定性も重要と考える  

【まとめ】
★ 成長が著しい技術分野であり今後さらに優れたLLMが提供されることが想定される、利用するLLMの変更も想定した仕組みを考慮しておくことが必要【課題3】

総合評価と今後の課題

◾️課題

今回の実証運用で把握できた課題は以下のとおりです。
課題1 正しい回答を行う
課題2 利用数を増やす
課題3 費用対効果に優れた最新のLLMを採用する

◾️総合評価

課題対応を進めることにより、市役所への問い合わせ対応に生成AIの活用は可能と評価する

おわりに

今回の実証運用において、生成AIが勝手に作り出したような回答はなく、正しい回答は93.3%、不十分な回答(回答内容に一部情報の不足があったもの)が6.7%であった。
利用者に不利益を与えるような回答は見受けられなかったが、子育て関連の質問で回答ができなかったものが全体の30%あった。
正しく回答するため、データの拡充利用状況を監視しながらデータの調整を行うなど、継続した取り組みが行える“仕組みづくり”が必要と感じた。
一方、生成AIの能力は素晴らしいものがあり、将来的な市役所の問合せ対応業務の未来像を感じることができました

今後は、上記の課題を改善し、再度、実証運用を行う予定です。
その際は、ぜひ別府市の生成AIを活用したチャットボットサービスを体験してみてください。

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!

別府市noteは生成AIやDXに関する記事を公開しています!