LLMの返信サジェストを構造化出力なしで整合させる方法

このツールでできること
料金プラン
使い方の概要
どんな人に向いているか
競合ツールとの位置づけ
まとめ
1. 最新AIツールを毎日日本語でレビュー

このツールでできること

本記事では、音声ロールプレイチャットにおいて、ユーザー向けの返信サジェスト（「次にこう返せますよ」を3つ提示する機能）を、構造化出力なしで実現する方法について解説しています。ストリーミング通信とプロンプトキャッシュを前提としたチャットシステムにおいて、この機能を追加する際の課題と、その解決策が示されています。

料金プラン

料金に関する記載はありません。公式サイトで最新情報を確認してください。

使い方の概要

この機能を実現するために、「応答にインラインマーカーを同梱して後で除去する」という手法が採用されています。これは、AIの応答の最後に特定の形式（例: {{SUGGEST: 候補1 | 候補2 | 候補3}}）でサジェストを付与し、後続の処理でそれを抽出・除去するものです。

この手法が有効な理由は以下の通りです。

キャッシュ整合性: 同一リクエスト内でサジェストが生成されるため、プロバイダごとのキャッシュ方式に関わらず、キャッシュの整合性が保たれます。
構造化出力不要: 通常のテキスト生成として扱えるため、構造化出力に伴うレイテンシの増加や、ストリーミングとの衝突を防ぐことができます。
体感レイテンシ増加なし: TTSストリーミングと並行して生成されるため、ユーザーの体感速度に影響を与えません。
既存基盤の再利用: 元々存在したインラインマーカー抽出基盤を流用できるため、追加コストが低く抑えられます。

実装のポイントは、抽出したマーカーをTTSや表示テキスト、データベース履歴から完全に除去することです。サジェストは一時的なUI要素であり、正規の発話ではないため、履歴に残すと文脈を汚す可能性があります。そのため、表示用テキストはマーカー除去済みのクリーンな状態にし、データベース保存用テキストは一部のマーカーのみ再付与するという分離が行われています。

プロンプト側では、特定の設定のフラグで指示を有効化し、応答の最後に指定形式でサジェストを付与するようモデルに指示します。指示内容は、ユーザーの一人称・話し言葉で短く、方向性の異なる3つの候補を提示することです。

どんな人に向いているか

ストリーミング通信とプロンプトキャッシュを前提としたLLMチャットシステムにおいて、返信サジェスト機能のような副次的な情報を、既存のシステムを変更せずに効率的に追加したい開発者に向いています。

競合ツールとの位置づけ

本記事は特定のツールの紹介ではなく、LLMの応答生成における一般的な課題とその解決策を提示するものです。構造化出力に頼らず、インラインマーカーというシンプルな手法でキャッシュ整合性を保ちつつ、ストリーミング体験を損なわずに機能追加を実現するアプローチを示しています。

まとめ

ストリーミングとキャッシュを前提としたLLMチャットに副次的な情報を追加する際、構造化出力に頼る前にインラインマーカーと抽出を検討する価値があることが示されました。「同一リクエストに同梱する」だけで、プロバイダ横断のキャッシュ整合という課題が解決され、既存のマーカー抽出基盤があれば追加コストも低く抑えることができます。マーカーごとに履歴への保存・除去を選択できる設計は、後付けの一時的UIを綺麗に組み込むことを可能にします。

出典: https://zenn.dev/zhener/articles/llm-reply-suggestions-without-structured-output

Daily AI Tools