Samuel Burr
2024年5月29日

ChatGPTは分析ツールとして信頼できるか?

期待外れに終わった実験から1年が経ち、飛躍的に成長したChatGPTは分析ツールとしての信頼を取り戻せたのだろうか? 我々のデータを、安心して託すことはできるだろうか?

Samuel Burr, Consulting Manager at fifty-five London, covers the evolution of ChatGPT and its usefulness for those working with GA4, highlighting that its answers are only correct in 66% of cases, despite the training data now running up to December 2023.
Samuel Burr, Consulting Manager at fifty-five London, covers the evolution of ChatGPT and its usefulness for those working with GA4, highlighting that its answers are only correct in 66% of cases, despite the training data now running up to December 2023.

* 自動翻訳した記事に、編集を加えています。

世間を驚かせ続けるChatGPTは、わずか5日間で100万人のユーザーを獲得して瞬く間に普及した。継続的な成長を遂げ、2024年2月には163万人からのアクセスを記録した。多くの企業は、業務の合理化やマーケティング成果の創出、情報収集のためにどのように利用できるかを評価し、リスクと得られる利益を見極めようとしている。しかし、データと分析に関してはどのようなものだろうか? 果たして信頼できるのだろうか?

昨年フィフティーファイブ(fifty-five)では、GA4(Googleアナリティクス4)についてコンサルタントがよく受ける質問をChatGPTに投げかけ、どのような回答が返ってくるかを分析した。当時のChatGPTは、許容できる水準で回答できたのが質問の3分の1程度しかなく、5割の回答は完全に間違えていた。GPT-3が古い情報を使って回答しているというのが、最も多い理由だった。

以来、生成AIの分野では多くの進展があった。グーグル(Google)はバード(Bard)で参入し、爆発的な人気を誇るオープンAI(OpenAI)のチャットボットに対抗するためジェミニ(Gemini)を立ち上げた。最近ではアンソロピック(Anthropic)の生成AIモデル「クロード(Claude)」が業界内で話題になっている。競争についていくためモデルを更新することは、オープン AIにとって非常に重要だ。そのため、Open AIが最新モデル「GPT-4」(有料版「ChatGPT Plus」でのみ利用可能)を発表したとき、これが精度にどのように影響するかと私たちは疑問に思った。

正解率2倍以上に 一方で誤解を招くような回答

GPT-4モデルによる回答は、正解率がはるかに高くなった。前回の調査では30%だった正解率が、新モデルでは66%と倍以上に跳ね上がった。トレーニングデータが古いことで誤った回答を返していたという問題の多くが解決した。また新モデルでは、トラッキングの最初の日付より前のデータをGA4が穴埋めするといった事実と異なる記述が修正され、「機械学習によってコンバージョンを自動的に測定する」機能が追加された。

しかし、3つに1つの回答は依然として「半分正解」または「不正解」であり、ChatGPTがデータマーケティングチームにとって信頼できるメンバーとなるのは、まだ先は長いことを示している。以前は間違っていた回答の多くは改善されたものの、まだ完全に正しいわけではなかったり、事実としては正しいが重要な点が欠けていることで、ユーザーがトピックを不完全なまま理解してしまう可能性がある。たとえば、GA4のさまざまなアトリビューション機能の役割について質問した場合に、GPT-4はデータドリブンアトリビューションが広範な分析に使用できる点について詳細かつ正しい説明を行ったが、ユーザーがラストクリックアトリビューションという方法を選択することができる点については言及しなかった。ChatGPTの最新版でも、質問に対する回答は完璧であっても、誤解を招く不必要な情報が追加されているケースが見受けられた。

新しいモデルに、間違いが無いわけではない。このモデルでは有料版「Googleアナリティクス360」が2024年7月までデータ処理を行うことや、データの保持期間が最長14カ月間であるというニュアンスを含んでおらず、GPT-4が標準版と有料版の違いをしっかりと把握していないことを示している。また、GA4のデータ処理に関してもいくつか誤った情報を提供しており、UA(ユニバーサルアナリティクス)とGA4ではページのヒット数の計測方法が異なることや、複数の端末にまたがって追跡するクロスデバイストラッキングの改善がGA4とUAの間でイベント購入に差を生み出している可能性があると示唆した。

長い回答には「プロンプトエンジニアリング」が必要

モデルを通して質問を実行すると、GPT-4は旧モデルよりもかなり長い回答を返すことが明らかになった。GPT-3の回答は平均165語であったのに対し、GPT-4では平均443語。新モデルの回答は毎回極めて堅実で、多くの詳細な内容にまで踏み込み、関連性のない話題もしばしば持ち出す。新しいトレーニングデータと全体的に改善されたモデルによって、チャットGPTがGA4のさまざまなニュアンスを込めた回答をユーザーに返せるようになったのは明らかだ。しかし、その回答内容は旧モデルのものよりも信頼性が高かったのだろうか?

回答が網羅する詳細な内容は実に見事で、微妙な内容には注意書きが追加されることもあった。しかし質問に対する有用な答えが、UAとGA4の広範な違いを説明する文の中に埋もれてしまっているか、まったく見当たらないことが多かった。GPT-4は説得力のある政治家を作り出すことはできるかもしれないが、このような回答ではGoogleアナリティクスの新しい操作方法を探すデータアナリストの役には立たないだろうし、より時間がかかる可能性もある。

もし何をしたいのかを理解しているならば、モデルにプロンプトを入力することで回答を短くすることができる。複数の質問を組み合わせて再度調査を実施したところ、回答の正確さに影響を与えることなく単語数が平均123語まで減少。生成AIのテクニックをプロジェクトで使用することで実際に価値がどのように付加されるようになるのかを、この「プロンプトエンジニアリング」の例は示している。

人間的要素まだ足りない

生成AIのモデルは絶えず改善されているが、モデルだけで達成できることにはまだ限界がある。しかし、これらのモデルは絶対に正しいわけではないものの、その欠点をスピードやスケール、費用対効果が補う。そのため業界ではすでにバーチャルアシスタントや、制御された小規模な自動化プロセスなど、リスクの低い場面で生成AIを導入しているのを目にするようになった。

適切なパラメーターを与えて軌道修正を行うと、この強力な新技術に人間が介入することで強大な力を発揮することが、実験から明らかになった。生成AIが大きな変革をもたらす具体的な使用事例が出てくるにつれ、ペインポイントを監視して改善を続けるシステムの能力は、単に生成AIを使用している企業と、それを最大限に活用している企業との間で差が開くことになるだろう。


サミュエル・バー氏は、フィフティーファイブ・ロンドン(fifty-five London)のコンサルティングマネージャー。

 

 

関連する記事

併せて読みたい

1 日前

トランプ再選 テック業界への影響

トランプ新大統領はどのような政策を打ち出すのか。テック企業や広告業界、アジア太平洋地域への影響を考える。

1 日前

誰も教えてくれない、若手クリエイターの人生

競争の激しいエージェンシーの若手クリエイターとして働く著者はこの匿名記事で、ハードワークと挫折、厳しい教訓に満ちた1年を赤裸々に記す。

2024年11月15日

世界マーケティング短信:化石燃料企業との取引がリスクに

今週も世界のマーケティング界から、注目のニュースをお届けする。

2024年11月13日

生成AIはメディアの倫理観の根幹を揺るがしているか?

SearchGPT(サーチGPT)が登場し、メディア業界は倫理的な判断を迫られている。AIを活用したメディアバイイングのための堅牢な倫理的フレームワークはもはや必要不可欠で、即時の行動が必要だとイニシアティブ(Initiative)のチャールズ・ダンジボー氏は説く。