RAG для впровадження: гібридний пошук і автоматичне індексування

Saturday, 22 November 2025

Вступ

ведь часть серии RAG: Це частина 5 шаблонів інтеграції виробництва:

Частина 1: Походження та основи РАГ - Що за вбудовування, чому вони мають значення?
Частина 2: Архітектура і внутрішні властивості RAG - Розпакування, перевірка, векторні бази даних
Частина 3: ПСГ на практиці - Будівельна повна система РАГ.
Частина 4а: Реалізація ONNX і Qdrant - Дружня з ЦП база семантики
Частина 4b: Семантичний пошук в дії - Типагед, гібридні елементи пошуку і компоненти інтерфейсу користувача.
Частина 5: Гібридний пошук і автоматичне інексування (цієї статті) Взірці інтеграції виробництва
Частина 6: GraphRAG - Графіки знань для розуміння рівня корпусу

Вхід Частина 4аМи побудували фундамент: вбудовування ONX і Qdrant. Частина 4bМи взяли участь в реалізації інтерфейсу пошуку і гібридного пошуку. автоматичне індексування (поновлення вмісту тону) за допомогою пункту меню ФайлSystemWatcher.

Гібридний пошук: найкращий з обох світів

Семантичний пошук потужний, але традиційний повнотекстовий пошук все ще перевершує точні фрази та технічні терміни. Що ж тоді робити? Користуйтесь і тим, і іншим.

Чому Гібрид? Різні підходи мають різні переваги:

Повний текст PostgreSQL (покритий тут: Точні збіги, технічні терміни, булівські оператори
Семантичний векторний пошук: зміст, контекст, синоніми, концептуально пов'язаний зміст

Reciprocal Rank Fusion (RF)

Ми використовуємо Reciprocal Rank Fusion для об' єднання результатів з декількох джерел пошуку:

flowchart TB
    A[User Query: 'docker containers'] --> B[PostgreSQL Full-Text Search]
    A --> C[Semantic Vector Search]

    B --> D["Results:<br/>1. 'Docker Basics' (rank 1)<br/>2. 'Containerizing Apps' (rank 2)<br/>3. 'Docker Compose' (rank 3)"]
    C --> E["Results:<br/>1. 'Containerizing Apps' (rank 1)<br/>2. 'Kubernetes Guide' (rank 2)<br/>3. 'Docker Basics' (rank 3)"]

    D --> F[RRF Algorithm]
    E --> F

    F --> G["Combined Results:<br/>1. 'Containerizing Apps'<br/>   (1/61 + 1/62 = 0.0328)<br/>2. 'Docker Basics'<br/>   (1/61 + 1/63 = 0.0322)<br/>3. 'Docker Compose'<br/>   (1/63 = 0.0159)"]

    style A stroke:#10b981,stroke-width:2px
    style B stroke:#3b82f6,stroke-width:2px
    style C stroke:#6366f1,stroke-width:2px
    style D stroke:#3b82f6,stroke-width:2px
    style E stroke:#6366f1,stroke-width:2px
    style F stroke:#ec4899,stroke-width:4px
    style G stroke:#8b5cf6,stroke-width:2px

Формула RRF: score = Σ(1 / (k + rank))

k = 60 (стійкий для запобігання пануванню ранніх рядів)
rank = позиція у результатах пошуку
Результати в обидва джерела отримують результати з кожного додавання

Чому RRF працює:

Пристосування: Той самий результат у обох джерелах є вищим
Справедливість: Жоден метод пошуку не панує несправедливо
Простота: Не потрібно комплексного налаштування

Впровадження

public class HybridSearchService : IHybridSearchService
{
    private readonly ISemanticSearchService _semanticSearchService;
    private const int RrfConstant = 60;

    public async Task<List<SearchResult>> SearchAsync(
        string query,
        string language = "en",
        int limit = 10,
        CancellationToken cancellationToken = default)
    {
        // Execute both searches in parallel
        var semanticResults = await _semanticSearchService.SearchAsync(
            query, limit * 2, cancellationToken);

        // Filter by language and apply RRF
        var filteredResults = semanticResults
            .Where(r => r.Language == language)
            .ToList();

        return ApplyReciprocalRankFusion(filteredResults)
            .Take(limit)
            .ToList();
    }

    private List<SearchResult> ApplyReciprocalRankFusion(List<SearchResult> results)
    {
        var rrfScores = new Dictionary<string, RrfScore>();

        for (int i = 0; i < results.Count; i++)
        {
            var result = results[i];
            var key = $"{result.Slug}_{result.Language}";

            if (!rrfScores.ContainsKey(key))
                rrfScores[key] = new RrfScore { Result = result };

            // RRF formula: 1 / (k + rank)
            rrfScores[key].Score += 1.0 / (RrfConstant + i + 1);
        }

        return rrfScores.Values
            .OrderByDescending(x => x.Score)
            .Select(x => x.Result)
            .ToList();
    }
}

Примітка: Показує лише семантичний пошук. У постанові буде виконано пошук у форматі PostgreSQL паралельно, а також включено результати до обчислення RRF.

Інтеграція

Якщо ви вже впровадили повний пошук у PostgreSQL (як прикрилась тут), додавання семантичного пошуку просте:

// Program.cs
services.AddSemanticSearch(configuration);
services.AddSingleton<IHybridSearchService, HybridSearchService>();

[HttpGet("search/hybrid")]
public async Task<IActionResult> HybridSearch(string query, string language = "en")
{
    var results = await _hybridSearchService.SearchAsync(query, language);
    return PartialView("_SearchResults", results);
}

Автоматичне індексування з інструментом спостереження за файловою системою

Найвпливовіша риса: автоматичне індексування. Бережіть допис блогу, його негайно можна шукати - немає втручання вручну.

Як це працює

flowchart TB
    A[Save Markdown File] --> B[FileSystemWatcher Detects Change]
    B --> C{File in Main Directory?}
    C -->|Yes| D[Save to Database]
    C -->|No| E[Save to Database Only]
    D --> F[Create BlogPostDocument]
    F --> G[Generate Embedding via ONNX]
    G --> H[Store in Qdrant]
    H --> I[Post Searchable Immediately]

    style A stroke:#10b981,stroke-width:2px
    style B stroke:#f59e0b,stroke-width:2px
    style C stroke:#ec4899,stroke-width:3px
    style D stroke:#3b82f6,stroke-width:2px
    style E stroke:#6b7280,stroke-width:2px
    style F stroke:#8b5cf6,stroke-width:2px
    style G stroke:#6366f1,stroke-width:3px
    style H stroke:#ef4444,stroke-width:2px
    style I stroke:#10b981,stroke-width:2px

Рішення дизайну ключа: Тільки індексовані файли у головний каталог розмітки, не підкаталоги (translated/, drafts/, comments/). Це зберігає індекс пошуку чистим.

Інтеграція спостерігача файлів

У блогі вже є MarkdownDirectoryWatcherService. Ми розширюємо її, щоб викликати семантичне індексування:

// In MarkdownDirectoryWatcherService.cs
private async Task OnChangedAsync(WaitForChangedResult e)
{
    if (e.Name == null) return;

    await retryPolicy.ExecuteAsync(async () =>
    {
        var savedModel = await blogService.SavePost(slug, language, markdown);

        // Index ONLY if file is in main directory (no path separators in name)
        if (!e.Name.Contains(Path.DirectorySeparatorChar) &&
            !e.Name.Contains(Path.AltDirectorySeparatorChar))
        {
            await IndexPostForSemanticSearchAsync(scope, savedModel, language);
        }
    });
}

private async Task IndexPostForSemanticSearchAsync(
    IServiceScope scope,
    BlogPostDto post,
    string language)
{
    var semanticSearchService = scope.ServiceProvider.GetService<ISemanticSearchService>();
    if (semanticSearchService == null) return; // Not configured

    var document = new BlogPostDocument
    {
        Id = $"{post.Slug}_{language}",
        Slug = post.Slug,
        Title = post.Title,
        Content = post.PlainTextContent,
        Language = language,
        Categories = post.Categories?.ToList() ?? new List<string>(),
        PublishedDate = post.PublishedDate
    };

    await semanticSearchService.IndexPostAsync(document);
    _logger.LogInformation("Indexed {Slug} ({Language}) in semantic search", post.Slug, language);
}

Обробка вилучення

Якщо допис буде вилучено, вилучити його з семантичного покажчика:

private async Task OnDeletedAsync(WaitForChangedResult e)
{
    await blogService.Delete(slug, language);

    // Delete from semantic search ONLY if file was in main directory
    if (!e.Name.Contains(Path.DirectorySeparatorChar) &&
        !e.Name.Contains(Path.AltDirectorySeparatorChar))
    {
        var semanticSearchService = scope.ServiceProvider.GetService<ISemanticSearchService>();
        await semanticSearchService?.DeletePostAsync(slug, language);
    }
}

Служба тла для початкового індексування

Під час запуску служба тла індексує існуючі дописи, яких ще немає у Qdrant:

flowchart TB
    A[Application Starts] --> B[Wait 10 seconds]
    B --> C[Initialize Semantic Search]
    C --> D{Model Exists?}
    D -->|No| E[Download from Hugging Face]
    D -->|Yes| F[Load ONNX Model]
    E --> F
    F --> G[Scan Main Markdown Directory]
    G --> H{For Each .md File}
    H --> I[Compute Content Hash]
    I --> J{Hash Changed?}
    J -->|Yes| K[Generate Embedding]
    J -->|No| L[Skip - Already Indexed]
    K --> M[Store in Qdrant]
    M --> H
    L --> H
    H -->|Done| N[Indexing Complete]

    style A stroke:#10b981,stroke-width:2px
    style C stroke:#6366f1,stroke-width:2px
    style E stroke:#f59e0b,stroke-width:2px
    style F stroke:#6366f1,stroke-width:3px
    style G stroke:#8b5cf6,stroke-width:2px
    style J stroke:#ec4899,stroke-width:3px
    style K stroke:#6366f1,stroke-width:2px
    style M stroke:#ef4444,stroke-width:2px
    style N stroke:#10b981,stroke-width:2px

public class SemanticIndexingBackgroundService : BackgroundService
{
    protected override async Task ExecuteAsync(CancellationToken stoppingToken)
    {
        // Wait for app to be ready
        await Task.Delay(TimeSpan.FromSeconds(10), stoppingToken);

        // Initialize (downloads model if needed)
        await _semanticSearchService.InitializeAsync(stoppingToken);

        // Get all posts from main directory only
        var markdownFiles = Directory.GetFiles(
            _markdownConfig.MarkdownPath,
            "*.md",
            SearchOption.TopDirectoryOnly);  // NOT subdirectories

        foreach (var file in markdownFiles)
        {
            var needsIndexing = await _semanticSearchService.NeedsReindexingAsync(
                slug, language, contentHash, stoppingToken);

            if (needsIndexing)
                await _semanticSearchService.IndexPostAsync(document, stoppingToken);
        }
    }
}

Забезпечення:

Завантажування просторової моделі - Звантаження при першому використанні, а не блокування запуску
Нарощувальне індексування - Тільки нові/ змінені дописи перевизначені (за допомогою хешу вмісту)
Лише головний каталог - Чернетки і перекладені файли не забруднюють індекс

Що ми збудували

В обох частинах 4a, 4b і 5 ми маємо:

✅ Дружній до ЦП семантичний пошук - Не потрібен GPU
✅ Відкриття пов' язаних дописів - Семантично подібний зміст
✅ Пошук за рідною мовою - Знайти за значенням, а не лише ключовими словами
✅ Гибридний пошук - Лучша частина семантики + повний текст
✅ Автоматичне індексування - Поновлення вмісту нульового тону
✅ Самозбереження - Ваші дані залишаються на вашому сервері

Майбутні покращення:

Пошук за категорією - Завантажуються результати конкретних категорій
Багатомовні вбудовування - Моделі, специфічні для мови
Інтеграція OpenSearch - Додайте OpenSearch до гібридної суміші (Дивіться мою статтю у OpenSearch)

Висновки

Це завершує практичне впровадження семантичного пошуку у стилі RAG. Комбіновано з Частина 4а (основа) і Частина 4b (шукайте UI), ви маєте все необхідне для того, щоб додати до вашої програми. NET - запущеної повністю на процесорі, з нульовою додатковою вартістю.

Продовжуйте вчитися

Частина: походження і основи - Теорія за вбудовуванням
Частина RAG 2: архітектура і внутрішні властивості - Глибоке занурення у систему РАГ.
Частина RAG 3. Практичні програми - Повний RAG з інтеграцією LLM
Частина 4а: Реалізація ONNX і Qdrant - Фундамент: вбудовування і векторне зберігання
Частина 4b: Семантичний пошук в дії - Типагед, гібридний пошук і інтерфейс
Повнотекстовий пошук з PostgreSQL - Повнотекстова сторона гібридного пошуку

Ресурси

Бази даних Qdrant і векторів

Бази даних векторів з самим собою з Qdrant - Глибоке занурення до концепцій Qdrant, індексування HNSW, фільтрування і клієнта C#
Пошук у Qdrant Hybrid - Родственная гибридная поддержка Кранта.

Пошук у гібридному вигляді

Папір реципропорційного Ранка - Алгоритм RRF

Перегляд файлової системи

Клас FileSystemWatcher -. NET документація
Клас backgroundService - Обслуговування в ядрі ASP.NET

Повний код

Всі коди доступні за адресою: gitub.com/ scottgal/ methlylucidweb

Mostlylucid.SemanticSearch/ - Основна бібліотека семантичного пошуку
Mostlylucid/Blog/WatcherService/ - Спостерігач файлів з семантичним індексуванням