Кэширование промпта

Кэширование промпта экономит на повторяющемся начале запроса (system-инструкция, история, описания инструментов). Для поддерживающих моделей повторный префикс читается из кэша заметно дешевле обычного ввода — порядка десятков процентов от полной цены. Поддержка кэша у каждого варианта отмечена на странице Модели.

OpenAI-совместимый путь

На /v1/chat/completions кэш работает автоматически: одинаковый стабильный префикс при повторных запросах читается из кэша. Специальных полей не нужно — главное не менять начало запроса. Поэтому тело передаётся на эндпоинт байт в байт, без переупорядочивания полей.

Claude: cache_control

Модели Claude кэшируют только при наличии явных точек cache_control в теле. Поставьте такую точку на конец неизменной части (system или последний блок):

curl https://plusvibeapi.ru/v1/messages \
  -H "x-api-key: $PLUSVIBE_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-opus-4.8",
    "max_tokens": 256,
    "system": [
      {
        "type": "text",
        "text": "Большая неизменная инструкция, которую выгодно кэшировать…",
        "cache_control": { "type": "ephemeral" }
      }
    ],
    "messages": [{"role": "user", "content": "Вопрос по инструкции"}]
  }'

На /v1/messages (Claude Code и Anthropic SDK) шлюз проставляет точку кэширования автоматически, если вы не передали свою — так повторяющийся префикс начинает читаться из кэша без изменений в вашем коде. Если вы уже управляете кэшем сами (передаёте cache_control) — ваша разметка остаётся как есть.

← Маршрутизация и лимиты Ошибки и лимиты →