AI / ML · ~3 мин чтения
RAG
Retrieval-Augmented Generation — архитектура AI-бота, которая ищет ответ в твоей базе документов перед тем, как сгенерировать ответ. Снижает галлюцинации.
Развёрнутое объяснение
RAG (Retrieval-Augmented Generation) — это архитектура, в которой LLM перед ответом ищет релевантные куски в твоей базе знаний и использует их как контекст. Без RAG модель отвечает «по памяти» (которая может быть устаревшей или ошибочной). С RAG — отвечает по твоим актуальным документам.
Pipeline RAG: 1) пользовательский вопрос → 2) embedding запроса → 3) поиск в vector DB → 4) топ-N кусков как контекст → 5) LLM генерирует ответ с этим контекстом → 6) опционально цитирует источники.
RAG решает три проблемы LLM: устаревшие данные (модель обучена 2 года назад), галлюцинации (модель «выдумывает» если не знает), узкая специфика (модель не знает деталей твоего бизнеса).
Пример
У тебя B2B-бот для DM Market с 12 000 SKU. Без RAG — модель не знает твой каталог. С RAG — embedding всех товаров в Pinecone, на каждый запрос «нужен подшипник 6206» бот ищет в каталоге, показывает 3 варианта с ценами и наличием. Источник — твой 1С.
Где это в услугах WRAW
- Услуга ai-automation/chatbot-rag — RAG-боты для B2B и поддержки
- Кейс DM Market — RAG по каталогу 12 000 SKU
Частые вопросы
Связанные термины
LLM
Large Language Model — большая языковая модель. ChatGPT, Claude, Gemini — это всё LLM. Обучены на миллиардах текстов и у…
Vector database
База данных, которая хранит векторы (embeddings) и быстро находит похожие. Сердце RAG-систем. Pinecone, Weaviate, Supaba…
Embedding
Преобразование текста (или картинки) в вектор чисел, который представляет смысл. Похожие смыслы = похожие векторы. Основ…
Hallucination
Когда LLM уверенно выдумывает факты, которых не существует. «Президент KZ — Иван Петров». Главный недостаток LLM. Лечитс…