Чем RAG отличается от обычного чат-бота?

Обычный — отвечает по сценариям (если-то). RAG — ищет ответ в базе документов. RAG может отвечать на нетиповые вопросы, обычный — нет.

Сколько стоит RAG?

От 400 000 ₸ за разработку + 30-100 000 ₸/мес на токены и поддержку. Зависит от объёма базы и трафика.

Какие vector DB используете?

Supabase Vector (для проектов на Supabase), Pinecone (стандарт), Weaviate (для больших баз).

AI / ML · ~3 мин чтения

RAG

Retrieval-Augmented Generation — архитектура AI-бота, которая ищет ответ в твоей базе документов перед тем, как сгенерировать ответ. Снижает галлюцинации.

Развёрнутое объяснение

RAG (Retrieval-Augmented Generation) — это архитектура, в которой LLM перед ответом ищет релевантные куски в твоей базе знаний и использует их как контекст. Без RAG модель отвечает «по памяти» (которая может быть устаревшей или ошибочной). С RAG — отвечает по твоим актуальным документам.

Pipeline RAG: 1) пользовательский вопрос → 2) embedding запроса → 3) поиск в vector DB → 4) топ-N кусков как контекст → 5) LLM генерирует ответ с этим контекстом → 6) опционально цитирует источники.

RAG решает три проблемы LLM: устаревшие данные (модель обучена 2 года назад), галлюцинации (модель «выдумывает» если не знает), узкая специфика (модель не знает деталей твоего бизнеса).

Пример

У тебя B2B-бот для DM Market с 12 000 SKU. Без RAG — модель не знает твой каталог. С RAG — embedding всех товаров в Pinecone, на каждый запрос «нужен подшипник 6206» бот ищет в каталоге, показывает 3 варианта с ценами и наличием. Источник — твой 1С.

Где это в услугах WRAW

Услуга ai-automation/chatbot-rag — RAG-боты для B2B и поддержки
Кейс DM Market — RAG по каталогу 12 000 SKU

RAG

Развёрнутое объяснение

Где это в услугах WRAW

Частые вопросы

Связанные термины

LLM

Vector database

Embedding

Hallucination

Хочешь узнать как мы используем RAG в проектах?