API請求書を見て、目を疑いました。月200万円。
導入店舗数が増えるにつれて、API費用も比例して増加していました。このままでは事業として成り立たない。
エンジニアチームで請求内訳を分析したとき、ある事実に気づきました。
「同じことを何度も教えている」
私たちのAIは、お客様から質問を受けるたびに、店舗の全情報をAIに渡していました。店名、住所、電話番号、営業時間、メニュー、FAQ——全部で約3,000トークン。
1日に1,000件の問い合わせがあれば、300万トークン。そのほとんどが、毎回同じ情報です。
AIに「うちの店は何時まで開いてる?」と聞くたびに、私たちは最初から店のことを全部説明していたのです。まるで、毎朝自己紹介から始める職場のようなものです。
「一度教えたら、覚えておいて」
AnthropicとOpenAIが提供するContext Caching機能は、まさにこの問題を解決します。
変わらない情報(店舗基本情報、メニュー、FAQ)をキャッシュに保存。お客様からの質問があるたびに、「変わる情報」だけを追加で渡します。
AIは、キャッシュされた情報を「覚えている」状態で返答します。
80%のコスト削減
キャッシュ導入後の数字です。
キャッシュヒット率は85%。つまり、85%のリクエストで、店舗情報を一から送り直す必要がなくなりました。
月間API費用は200万円から40万円へ。80%の削減です。
「順番」が大事
一つだけ注意点があります。キャッシュは、プロンプトの先頭から一致した部分だけが有効になります。
私たちは、変わらない情報を先頭に、変わる情報(今日の空席状況など)を後ろに配置するようにプロンプトを再設計しました。
AIに同じことを何度も教えない。シンプルな原則が、80%のコスト削減をもたらしました。