技術2026-01-18· 12 min· Bookmi技術チーム

Sierra AIから学ぶ：飲食店AIエージェントの設計原則

Bret TaylorのSierra AIが提唱する「τ-bench」評価、確定性コード化、状態管理をBookmi流にアレンジ。

Sierra AIに学ぶ

去年、私たちは困惑していました。

BookmiのAIエージェントは、業界標準のベンチマークテストで優秀な成績を収めていました。質問に正確に答え、情報を正しく検索し、文法的に完璧な応答を生成していました。しかし、実際の飲食店で導入すると、オーナーからのフィードバックは期待とは異なるものでした。

「AIは質問には答えてくれるけど、予約の変更がスムーズにできないんだよね」

この言葉が、私たちの考え方を根本から変えることになりました。

正しい答えと正しい結果は違う

従来のAIベンチマーク——GSM8K、MMLU、その他多くのテスト——は、一つの質問に対する一つの答えを評価します。数学の問題を解けるか？一般常識を知っているか？これらは確かに重要な能力です。

しかし、飲食店の現場で起きることは、はるかに複雑です。

お客様が「明日の予約を19時から20時に変更したい」と言ったとき、AIに求められるのは単に「はい、変更できます」と答えることではありません。現在の予約を確認し、20時の空席状況をチェックし、変更を実行し、確認メッセージを送り、必要に応じてキッチンの準備スケジュールを調整する——これらすべてを、お客様との自然な会話の中で行う必要があります。

タスクを完遂できるかどうか。それが本当に重要な評価基準だと気づいたのです。

タスク完遂率という新しい指標

私たちは評価方法を一から見直しました。

新しいアプローチでは、AIを「一問一答」ではなく「タスク全体」で評価します。予約の新規作成、時間変更、人数変更、キャンセル処理、特別なリクエストへの対応——これらの実際のシナリオをシミュレーションし、AIが最初から最後まで正しく処理できるかを測定します。

結果は驚くべきものでした。従来のテストで90%以上のスコアを出していたモデルが、タスク完遂率では60%程度しか達成できないケースがありました。逆に、私たちが独自にチューニングしたモデルは、従来のスコアは若干低くても、タスク完遂率でははるかに優れていました。

飲食店に特化した評価シナリオ

私たちが設計した評価シナリオには、飲食店特有の複雑さが含まれています。

ピーク時の予約競合——金曜日の19時に予約が集中したとき、AIは適切に代替案を提案できるか。アレルギー対応——お客様が複数の食材アレルギーを持つ場合、メニュー全体から安全な選択肢を提示できるか。急な変更への対応——予約当日に人数が大幅に増えた場合、席の再配置から食材の追加発注まで一連の調整を行えるか。

これらのシナリオを数百パターン用意し、毎週自動的にテストを実行しています。

継続的な改善のサイクル

評価は一度やって終わりではありません。

私たちは毎日、実際の会話ログを分析しています。AIが失敗したケース、お客様が不満を感じたケース、オペレーターが介入したケース——これらすべてが、次の改善のための貴重なデータになります。

タスク完遂率は、導入初期の72%から、現在は94%まで向上しました。しかし、私たちはまだ満足していません。残りの6%にも、お客様の期待に応えられなかった瞬間が含まれているからです。