去年、私たちは困惑していました。
BookmiのAIエージェントは、業界標準のベンチマークテストで優秀な成績を収めていました。質問に正確に答え、情報を正しく検索し、文法的に完璧な応答を生成していました。しかし、実際の飲食店で導入すると、オーナーからのフィードバックは期待とは異なるものでした。
「AIは質問には答えてくれるけど、予約の変更がスムーズにできないんだよね」
この言葉が、私たちの考え方を根本から変えることになりました。
正しい答えと正しい結果は違う
従来のAIベンチマーク——GSM8K、MMLU、その他多くのテスト——は、一つの質問に対する一つの答えを評価します。数学の問題を解けるか?一般常識を知っているか?これらは確かに重要な能力です。
しかし、飲食店の現場で起きることは、はるかに複雑です。
お客様が「明日の予約を19時から20時に変更したい」と言ったとき、AIに求められるのは単に「はい、変更できます」と答えることではありません。現在の予約を確認し、20時の空席状況をチェックし、変更を実行し、確認メッセージを送り、必要に応じてキッチンの準備スケジュールを調整する——これらすべてを、お客様との自然な会話の中で行う必要があります。
タスクを完遂できるかどうか。それが本当に重要な評価基準だと気づいたのです。
タスク完遂率という新しい指標
私たちは評価方法を一から見直しました。
新しいアプローチでは、AIを「一問一答」ではなく「タスク全体」で評価します。予約の新規作成、時間変更、人数変更、キャンセル処理、特別なリクエストへの対応——これらの実際のシナリオをシミュレーションし、AIが最初から最後まで正しく処理できるかを測定します。
結果は驚くべきものでした。従来のテストで90%以上のスコアを出していたモデルが、タスク完遂率では60%程度しか達成できないケースがありました。逆に、私たちが独自にチューニングしたモデルは、従来のスコアは若干低くても、タスク完遂率では大幅に優れていました。
飲食店に特化した評価シナリオ
私たちが設計した評価シナリオには、飲食店特有の複雑さが含まれています。
ピーク時の予約競合——金曜日の19時に予約が集中したとき、AIは適切に代替案を提案できるか。アレルギー対応——お客様が複数の食材アレルギーを持つ場合、メニュー全体から安全な選択肢を提示できるか。急な変更への対応——予約当日に人数が大幅に増えた場合、席の再配置から食材の追加発注まで一連の調整を行えるか。
これらのシナリオを数百パターン用意し、毎週自動的にテストを実行しています。
継続的な改善のサイクル
評価は一度やって終わりではありません。
私たちは毎日、実際の会話ログを分析しています。AIが失敗したケース、お客様が不満を感じたケース、オペレーターが介入したケース——これらすべてが、次の改善のための貴重なデータになります。
タスク完遂率は、導入初期の72%から、現在は94%まで向上しました。しかし、私たちはまだ満足していません。残りの6%にも、お客様の期待に応えられなかった瞬間が含まれているからです。
完璧を目指して、私たちは毎日AIを進化させ続けています。