Можно ли «обойти» context window?

Через RAG (искать только релевантные куски), summarization (сжимать историю), prompt caching (кешировать system prompt).

Дороже ли использовать большой context?

Да. Цена линейно зависит от input tokens. 200K input — в 100 раз дороже 2K input.

AI / ML · ~3 мин чтения

Context window

Сколько текста LLM может «помнить» в одном диалоге. У Claude Sonnet 4.6 — 200K токенов (~150 000 слов). У GPT-4 — 128K. Превысил лимит — модель забывает начало.

Развёрнутое объяснение

Context window — максимальное количество токенов, которые LLM может обработать в одном запросе. Туда входит и system prompt, и история диалога, и retrieved chunks, и текущий вопрос, и место под ответ.

Современные размеры: Claude Sonnet 4.6 — 200K (~150K слов), Claude Opus — 1M, GPT-4-Turbo — 128K, GPT-5 — 256K, Gemini 2.5 — 2M.

Большой context window не панацея: чем больше контекста, тем сложнее модели «найти иголку в стоге сена». На практике 100-200K — sweet spot.

Пример

Документ 200 страниц = ~50 000 слов = ~67K токенов. Claude Sonnet 4.6 (200K) — поместится. GPT-4 (128K) — поместится. Но если у тебя 500 страниц — нужен RAG (chunking + retrieval).

Где это в услугах WRAW

В RAG-ботах ограничиваем context window до 8-16K (баланс качества и цены)

Context window

Развёрнутое объяснение

Где это в услугах WRAW

Частые вопросы

Связанные термины

LLM

RAG

Embedding

Хочешь узнать как мы используем Context window в проектах?