「中国語のお客様からだけ、クレームが多いんです」
導入3ヶ月後、ある店舗からこんな報告を受けました。私たちは最高性能と評判のClaude Sonnetを使っていたので、正直驚きました。
調査してみると、原因は明らかでした。Claude Sonnetは日本語では完璧な敬語を操りますが、中国語になると「ちょっとよそよそしい」印象を与えていたのです。
「最強のAI」という幻想
私たちは当初、「一番いいAIを選べば、すべてうまくいく」と考えていました。
でも、AIモデルには個性があります。あるモデルは日本語の微妙なニュアンスが得意。別のモデルは中国語の自然な表現が得意。コストが安いモデルもあれば、推論力が突出したモデルもある。
「最強」は、状況によって変わるのです。
言語で切り替える
私たちは方針を変えました。一つのAIにすべてを任せるのではなく、状況に応じて最適なAIを選ぶ。
日本語の問い合わせには、敬語表現に強いClaudeを。中国語の問い合わせには、中国語ネイティブのGLM-4を。複雑な推論が必要な場面では、GPT-4oを。
お客様は、裏で3つのAIが動いていることを知りません。ただ「このAI、私の言葉をよく分かってくれる」と感じるだけです。
1つが倒れても、サービスは止まらない
ある朝、OpenAIのAPIが30分間ダウンしました。以前なら、すべてのAI機能が停止していたでしょう。
でも今は、GPT-4oが使えないと分かった瞬間、自動的にClaudeに切り替わります。Claudeもダメなら、GLM-4へ。お客様にとっては、何事もなかったかのようにサービスが続きます。
40%のコスト削減
意外な副産物もありました。「今日の営業時間は?」のような簡単な質問に、高性能で高価なモデルを使う必要はありません。
質問の複雑さを判定し、簡単な質問には軽量モデル、複雑な予約処理には高性能モデルを割り当てる。この仕組みで、API費用を40%削減しながら、応答品質を維持できています。
一つの「最強」を追い求めるより、適材適所で使い分ける。それが、私たちが学んだマルチモデル戦略です。