Структура семинара

1. Введение в RAG

Основная концепция, архитектура, компоненты RAG системы

⏱️ 10 минут

2. Векторизация

Методы эмбеддингов, Sentence Transformers, модели

⏱️ 10 минут

3. Семантический поиск

FAISS, HNSW, Annoy - сравнение алгоритмов

⏱️ 15 минут

4. Метрики качества

Recall@k, Precision@k, оценка RAG систем

⏱️ 5 минут

5. Практика

Базовый RAG-конвейер, примеры кода

⏱️ 15 минут

6. Yandex Foundation Models

Интеграция с YandexGPT, эмбеддинги, API

⏱️ 5 минут

Теоретические основы

Что такое RAG?

RAG (Retrieval-Augmented Generation) — гибридная архитектура, объединяющая механизмы поиска с генеративными языковыми моделями.

Проблема:

LLM склонны к галлюцинациям и не имеют доступа к актуальной информации

Решение:

Внешние источники знаний + генеративная модель = точные и обоснованные ответы

Архитектура RAG

┌─────────────────┐

│ Retriever │

│ (поиск данных) │

└─────────────────┘

↓

┌─────────────────┐

│ Vector Store │

│ (база знаний) │

└─────────────────┘

↓

┌─────────────────┐

│ Generator │

│ (генерация LLM) │

└─────────────────┘

Фазы работы RAG:

1. Индексация (Offline)

документы → чанки → эмбеддинги → векторная БД

2. Поиск и генерация (Online)

запрос → поиск → контекст → LLM → ответ

Методы векторизации и эмбеддинги

Классические

• One-hot encoding
• Bag of words
• TF-IDF

Современные

• Word2Vec
• BERT
• Sentence Transformers

SOTA модели

• all-MiniLM-L6-v2
• bge-base-en-v1.5
• YandexGPT Embeddings

Sentence Transformers

✅ 10,000+ предобученных моделей на Hugging Face
✅ Поддержка embedding, reranker, sparse encoder моделей
✅ Простой API для семантического поиска
✅ Оптимизация для различных задач

# Пример использования

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("all-MiniLM-L6-v2")

sentences = ["Пример текста", "Другой текст"]

embeddings = model.encode(sentences)

Семантический поиск: FAISS vs HNSW vs Annoy

Алгоритм	Скорость	Память	Точность	Сжатие	GPU
HNSW	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	❌	❌
FAISS	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	✅	✅
Annoy	⭐⭐	⭐⭐	⭐⭐⭐	❌	❌

HNSW

Hierarchical Navigable Small World

Принцип: Многослойный граф с быстрой навигацией

✅ State-of-the-art результаты

❌ Больше памяти на рёбра графа

FAISS

Facebook AI Similarity Search

Принцип: Кластеризация + Product Quantization

✅ Сжатие векторов, GPU ускорение

❌ Сложность настройки

Annoy

Approximate Nearest neighbors Oh Yeah

Принцип: Бинарные деревья с рандомными проекциями

✅ Простота реализации

❌ Высокое потребление памяти

Оценка качества поиска: Recall@k

Метрики поиска (Retrieval)

Recall@k

Доля релевантных документов среди топ-k результатов

Precision@k

Точность среди топ-k результатов

MRR

Mean Reciprocal Rank - обратный ранг первого релевантного результата

Метрики генерации

Answer Relevancy

Релевантность ответа запросу

Faithfulness

Отсутствие галлюцинаций относительно контекста

Context Relevancy

Релевантность извлеченного контекста

Формула Recall@k

Recall@k = Количество релевантных документов в топ-k / Общее количество релевантных документов

Например: если из 5 релевантных документов найдено 3 в топ-10, то Recall@10 = 3/5 = 0.6

Практические примеры

🐍 Python RAG Песочница

Загрузка Pyodide...

💡 Совет: Измените код ниже и нажмите "Запустить" для экспериментов!

Базовый пример RAG

# Простой пример RAG системы
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

class SimpleRAG:
def __init__(self):
    self.documents = []
    self.embeddings = []

def add_documents(self, docs):
    """Добавление документов (с мок-эмбеддингами)"""
    for doc in docs:
        # Простая имитация эмбеддинга
        embedding = np.random.rand(5)  # 5-мерный вектор
        self.documents.append(doc)
        self.embeddings.append(embedding)
    print(f"✅ Добавлено {len(docs)} документов")

def search(self, query, top_k=2):
    """Поиск наиболее релевантных документов"""
    if not self.documents:
        return []
    
    # Мок-эмбеддинг запроса
    query_emb = np.random.rand(5)
    
    # Вычисляем сходство
    similarities = []
    for i, doc_emb in enumerate(self.embeddings):
        sim = cosine_similarity([query_emb], [doc_emb])[0][0]
        similarities.append((i, sim))
    
    # Сортируем по убыванию сходства
    similarities.sort(key=lambda x: x[1], reverse=True)
    
    # Возвращаем топ-k документов
    results = []
    for i in range(min(top_k, len(similarities))):
        doc_idx, score = similarities[i]
        results.append({
            'document': self.documents[doc_idx],
            'score': score
        })
    
    return results

def ask(self, query):
    """RAG запрос: поиск + генерация ответа"""
    print(f"🔍 Поиск по запросу: '{query}'")
    
    # Поиск релевантных документов
    results = self.search(query)
    
    if not results:
        return "Нет релевантных документов"
    
    # Формирование контекста
    context = "\\n".join([r['document'] for r in results])
    
    # Простая имитация генерации
    print(f"📄 Найдено документов: {len(results)}")
    for i, result in enumerate(results, 1):
        print(f"   {i}. ({result['score']:.3f}) {result['document'][:50]}...")
    
    return f"На основе найденного контекста: {context[:100]}..."

# Демонстрация
rag = SimpleRAG()

# Добавляем тестовые документы
documents = [
"RAG (Retrieval-Augmented Generation) объединяет поиск и генерацию для точных ответов",
"FAISS - библиотека Facebook для быстрого поиска по векторам",
"HNSW показывает лучшую производительность для приближенного поиска",
"Эмбеддинги преобразуют текст в числовые векторы для семантического поиска",
"Recall@k измеряет долю найденных релевантных документов в топ-k результатах"
]

rag.add_documents(documents)

# Тестируем запросы
queries = [
"Что такое RAG?",
"Какой алгоритм поиска самый быстрый?",
"Как измерить качество поиска?"
]

for query in queries:
print("\\n" + "="*60)
answer = rag.ask(query)
print(f"🤖 Ответ: {answer}")

Результат выполнения

Нажмите "Запустить код" для выполнения примера...

Интерактивная визуализация эмбеддингов

Как это работает:

Синие точки - документы в векторном пространстве

Красные точки - пользовательские запросы

Зеленые линии - связи с наиболее похожими документами

Числа - показатели семантического сходства

💡 Попробуйте:

• Добавьте запрос рядом с группой документов
• Посмотрите, как алгоритм находит похожие
• Обратите внимание на расстояния и сходства

Проверьте свои знания

Квиз по RAG технологиям

Проверьте, насколько хорошо вы усвоили материал семинара. 5 вопросов о ключевых концепциях RAG.

5 вопросов

О ключевых концепциях

Без ограничения

Времени на обдумывание

Мгновенный

Результат с объяснениями

Yandex Foundation Models для RAG

YandexGPT Pro

Контекст: 32,000 токенов

Качество:

Скорость:

Лучший выбор для сложных RAG задач с длинным контекстом

YandexGPT

Контекст: 8,000 токенов

Качество:

Скорость:

Сбалансированное решение для большинства RAG применений

YandexGPT Lite

Контекст: 4,000 токенов

Качество:

Скорость:

Быстрые ответы для простых RAG запросов

Конфигуратор RAG с Yandex Models

Настройки:

Модель для генерации:

API подход:

Top-K:

Chunk Size:

Сгенерированный код:

                            Настройте параметры и нажмите "Сгенерировать код"...
                        

Начало работы с Yandex Foundation Models:

1. Зарегистрируйтесь в Yandex Cloud
2. Создайте сервисный аккаунт и получите API ключ
3. Установите пакет: pip install yandexcloud
4. Используйте сгенерированный код для интеграции

RAG: Retrieval Augmented Generation

Структура семинара

1. Введение в RAG

2. Векторизация

3. Семантический поиск

4. Метрики качества

5. Практика

6. Yandex Foundation Models

Теоретические основы

Что такое RAG?

Архитектура RAG

Фазы работы RAG:

1. Индексация (Offline)

2. Поиск и генерация (Online)

Методы векторизации и эмбеддинги

Классические

Современные

SOTA модели

Sentence Transformers

Семантический поиск: FAISS vs HNSW vs Annoy

HNSW

FAISS

Annoy

Оценка качества поиска: Recall@k

Метрики поиска (Retrieval)

Recall@k

Precision@k

MRR

Метрики генерации

Answer Relevancy

Faithfulness

Context Relevancy

Формула Recall@k

Практические примеры

🐍 Python RAG Песочница

Базовый пример RAG

Результат выполнения

Интерактивная визуализация эмбеддингов

Как это работает:

💡 Попробуйте:

Проверьте свои знания

Квиз по RAG технологиям

Yandex Foundation Models для RAG

YandexGPT Pro

YandexGPT

YandexGPT Lite

Конфигуратор RAG с Yandex Models

Настройки:

Сгенерированный код:

Поздравляем!

Что вы изучили: