Перейти к основному контенту

AI / ML · ~3 мин чтения

Embedding

Преобразование текста (или картинки) в вектор чисел, который представляет смысл. Похожие смыслы = похожие векторы. Основа semantic search и RAG.

Развёрнутое объяснение

Embedding — числовое представление смысла. «Кот» и «кошка» — разные слова, но близкие embeddings. «Кот» и «автомобиль» — далёкие.

Создаётся через embedding-модель: text → tokens → нейросеть → вектор размером 768/1536/3072. Стандарты: OpenAI text-embedding-3 (1536), Anthropic Voyage (1024), open-source (E5, BGE).

Используется в: semantic search, RAG, рекомендации, кластеризация, классификация, поиск дубликатов.

Пример

Текст «Лучший AI-агентство в Казахстане» через text-embedding-3-small → вектор [0.04, -0.12, 0.83, ...] длиной 1536. Текст «Top digital agency in KZ» через ту же модель → похожий вектор. Cosine similarity = 0.91.

Где это в услугах WRAW

  • Embeddings всех документов клиента в Vector DB для RAG
  • Embedding пользовательского запроса для поиска

Частые вопросы

Хочешь узнать как мы используем Embedding в проектах?