Кэширование промпта
Кэширование промпта экономит на повторяющемся начале запроса (system-инструкция, история, описания инструментов). Для поддерживающих моделей повторный префикс читается из кэша заметно дешевле обычного ввода — порядка десятков процентов от полной цены. Поддержка кэша у каждого варианта отмечена на странице Модели.
OpenAI-совместимый путь
На /v1/chat/completions кэш работает автоматически: одинаковый стабильный префикс при повторных запросах читается из кэша. Специальных полей не нужно — главное не менять начало запроса. Поэтому тело передаётся на эндпоинт байт в байт, без переупорядочивания полей.
Claude: cache_control
Модели Claude кэшируют только при наличии явных точек cache_control в теле. Поставьте такую точку на конец неизменной части (system или последний блок):
curl https://plusvibeapi.ru/v1/messages \
-H "x-api-key: $PLUSVIBE_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-opus-4.8",
"max_tokens": 256,
"system": [
{
"type": "text",
"text": "Большая неизменная инструкция, которую выгодно кэшировать…",
"cache_control": { "type": "ephemeral" }
}
],
"messages": [{"role": "user", "content": "Вопрос по инструкции"}]
}'На
/v1/messages (Claude Code и Anthropic SDK) шлюз проставляет точку кэширования автоматически, если вы не передали свою — так повторяющийся префикс начинает читаться из кэша без изменений в вашем коде. Если вы уже управляете кэшем сами (передаёте cache_control) — ваша разметка остаётся как есть.