ブログ一覧
技術2026-01-1812 min

なぜ私たちはAIエージェントの評価方法を変えたのか

従来のAIベンチマークは「正しい答え」を測定します。しかし飲食店の現場では、正しい答えだけでは不十分でした。

Bookmi技術チーム

2026-01-18

去年、私たちは困惑していました。

BookmiのAIエージェントは、業界標準のベンチマークテストで優秀な成績を収めていました。質問に正確に答え、情報を正しく検索し、文法的に完璧な応答を生成していました。しかし、実際の飲食店で導入すると、オーナーからのフィードバックは期待とは異なるものでした。

「AIは質問には答えてくれるけど、予約の変更がスムーズにできないんだよね」

この言葉が、私たちの考え方を根本から変えることになりました。

正しい答えと正しい結果は違う

従来のAIベンチマーク——GSM8K、MMLU、その他多くのテスト——は、一つの質問に対する一つの答えを評価します。数学の問題を解けるか?一般常識を知っているか?これらは確かに重要な能力です。

しかし、飲食店の現場で起きることは、はるかに複雑です。

お客様が「明日の予約を19時から20時に変更したい」と言ったとき、AIに求められるのは単に「はい、変更できます」と答えることではありません。現在の予約を確認し、20時の空席状況をチェックし、変更を実行し、確認メッセージを送り、必要に応じてキッチンの準備スケジュールを調整する——これらすべてを、お客様との自然な会話の中で行う必要があります。

タスクを完遂できるかどうか。それが本当に重要な評価基準だと気づいたのです。

タスク完遂率という新しい指標

私たちは評価方法を一から見直しました。

新しいアプローチでは、AIを「一問一答」ではなく「タスク全体」で評価します。予約の新規作成、時間変更、人数変更、キャンセル処理、特別なリクエストへの対応——これらの実際のシナリオをシミュレーションし、AIが最初から最後まで正しく処理できるかを測定します。

結果は驚くべきものでした。従来のテストで90%以上のスコアを出していたモデルが、タスク完遂率では60%程度しか達成できないケースがありました。逆に、私たちが独自にチューニングしたモデルは、従来のスコアは若干低くても、タスク完遂率では大幅に優れていました。

飲食店に特化した評価シナリオ

私たちが設計した評価シナリオには、飲食店特有の複雑さが含まれています。

ピーク時の予約競合——金曜日の19時に予約が集中したとき、AIは適切に代替案を提案できるか。アレルギー対応——お客様が複数の食材アレルギーを持つ場合、メニュー全体から安全な選択肢を提示できるか。急な変更への対応——予約当日に人数が大幅に増えた場合、席の再配置から食材の追加発注まで一連の調整を行えるか。

これらのシナリオを数百パターン用意し、毎週自動的にテストを実行しています。

継続的な改善のサイクル

評価は一度やって終わりではありません。

私たちは毎日、実際の会話ログを分析しています。AIが失敗したケース、お客様が不満を感じたケース、オペレーターが介入したケース——これらすべてが、次の改善のための貴重なデータになります。

タスク完遂率は、導入初期の72%から、現在は94%まで向上しました。しかし、私たちはまだ満足していません。残りの6%にも、お客様の期待に応えられなかった瞬間が含まれているからです。

完璧を目指して、私たちは毎日AIを進化させ続けています。

Newsletter

最新の技術記事をお届け

AI技術、飲食店DXの最新情報を週1回配信