Перейти к основному контенту

AI / ML · ~3 мин чтения

RAG

Retrieval-Augmented Generation — архитектура AI-бота, которая ищет ответ в твоей базе документов перед тем, как сгенерировать ответ. Снижает галлюцинации.

Развёрнутое объяснение

RAG (Retrieval-Augmented Generation) — это архитектура, в которой LLM перед ответом ищет релевантные куски в твоей базе знаний и использует их как контекст. Без RAG модель отвечает «по памяти» (которая может быть устаревшей или ошибочной). С RAG — отвечает по твоим актуальным документам.

Pipeline RAG: 1) пользовательский вопрос → 2) embedding запроса → 3) поиск в vector DB → 4) топ-N кусков как контекст → 5) LLM генерирует ответ с этим контекстом → 6) опционально цитирует источники.

RAG решает три проблемы LLM: устаревшие данные (модель обучена 2 года назад), галлюцинации (модель «выдумывает» если не знает), узкая специфика (модель не знает деталей твоего бизнеса).

Пример

У тебя B2B-бот для DM Market с 12 000 SKU. Без RAG — модель не знает твой каталог. С RAG — embedding всех товаров в Pinecone, на каждый запрос «нужен подшипник 6206» бот ищет в каталоге, показывает 3 варианта с ценами и наличием. Источник — твой 1С.

Где это в услугах WRAW

  • Услуга ai-automation/chatbot-rag — RAG-боты для B2B и поддержки
  • Кейс DM Market — RAG по каталогу 12 000 SKU

Частые вопросы

Хочешь узнать как мы используем RAG в проектах?