Побудова " Lawier GPT " для вашого блогу - Частина 3: Розуміння вбудовування баз даних та векторів (Українська (Ukrainian))

ПОПЕРЕДЖЕННЯ: ТАКІ ПОСТА, ЯКІ ВАЖЛИВІ.

Це, ймовірно, багато з того, що нижче не спрацює, я генерую їх як як як як як-до мене, а потім роблю всі кроки і отримати зразок додатку працює... ви були підступні і бачили їх! вони ймовірно будуть готові до середини грудня.

## Вступ

Ласкаво просимо до третьої частини У нас працює стос GPU ( Частина 2), і ми розуміємо архітектуру (Частина 1****Тепер настав час зануритися в магію, яка робить семантичний пошук можливим:Вбудовування.

і

векторні бази даних

ЗАУВАЖЕННЯ: це частина мого експерименту з комп'ютером (заступною чернеткою) + моїм власним редагуванням.

Той самий голос, той самий прагматизм, тільки швидші пальці.

Ось тут речі стають цікавими.

Ми збираємося зрозуміти, як зобразити текст як числа, що сприймає значення, а не лише ключові слова.

graph TD
    subgraph "2D Embedding Space (simplified)"
        A[cat: 0.8, 0.2]
        B[kitten: 0.7, 0.3]
        C[dog: 0.6, 0.1]
        D[puppy: 0.5, 0.2]
        E[car: -0.5, 0.8]
        F[vehicle: -0.6, 0.7]
        G[database: 0.1, -0.7]
        H[SQL: 0.2, -0.8]
    end

    class A,B cats
    class C,D dogs
    class E,F vehicles
    class G,H tech

    classDef cats stroke:#333
    classDef dogs stroke:#333
    classDef vehicles stroke:#333
    classDef tech stroke:#333

Різниця між пошуками дописів, що містять слово "набір" і пошуком постів, що семантично стосуються концепцій контейнеризації.

Що вбудовується?
Вбудовування - це числове представлення тексту (або зображень, звуку тощо) як вектора - по суті, список чисел.
Інтуїція
Уявіть графік слів у двовимірному просторі, заснованому на їх значенні:

**Групування подібних концепцій:**Pets (червоний/ зелений) знаходиться поруч один з одним

Вешики (блакитні) згруповані

Скупчення термінів (жовтого) технології

Роз' єднані концепції далеко одна від одної
Справжнє вбудовування

graph LR
    A[Text: 'Docker container'] --> B[Embedding Model]
    B --> C[Vector: 384 floats]

    D[Text: 'containerization'] --> B
    B --> E[Vector: 384 floats]

    C -.Similar.-> E

    F[Text: 'chocolate cake'] --> B
    B --> G[Vector: 384 floats]

    C -.Very Different.-> G

    class B model
    class C,E similar
    class G different

    classDef model stroke:#333,stroke-width:4px
    classDef similar stroke:#333
    classDef different stroke:#333

використовувати 384 - 1536 вимірів (не лише 2!), щоб отримати набагато більше нюансів.

Як це працює**Модель вбудовування - це нейронна мережа, тренована для відображення тексту з векторами, такими як:**Подібні значення → закриті вектори

public static float CosineSimilarity(float[] vectorA, float[] vectorB)
{
    if (vectorA.Length != vectorB.Length)
        throw new ArgumentException("Vectors must have same length");

    // Dot product: sum of element-wise multiplication
    float dotProduct = 0;
    for (int i = 0; i < vectorA.Length; i++)
    {
        dotProduct += vectorA[i] * vectorB[i];
    }

    // Magnitude of each vector: sqrt(sum of squares)
    float magnitudeA = 0;
    float magnitudeB = 0;
    for (int i = 0; i < vectorA.Length; i++)
    {
        magnitudeA += vectorA[i] * vectorA[i];
        magnitudeB += vectorB[i] * vectorB[i];
    }
    magnitudeA = MathF.Sqrt(magnitudeA);
    magnitudeB = MathF.Sqrt(magnitudeB);

    // Cosine similarity: dot product / (magnitude_a * magnitude_b)
    return dotProduct / (magnitudeA * magnitudeB);
}

Різні значення → віддалені вектори:

1.0Вимірювання подібності
0.0Ми використовуємо
-1.0подібності косинус

щоб виміряти приблизність двох векторів::

var dockerEmbed = new float[] { 0.5f, 0.3f, -0.2f, 0.8f };  // "Docker container"
var containerEmbed = new float[] { 0.45f, 0.35f, -0.18f, 0.75f };  // "containerization"
var cakeEmbed = new float[] { -0.7f, 0.1f, 0.9f, -0.3f };  // "chocolate cake"

Console.WriteLine(CosineSimilarity(dockerEmbed, containerEmbed));  // ~0.95 (very similar!)
Console.WriteLine(CosineSimilarity(dockerEmbed, cakeEmbed));  // ~0.15 (unrelated)

Подібність Cosine знаходиться у діапазоні від - 1 до 1

= ідентичне значення

= не пов' язано

= протилежне значення (перевірити на практиці)

Приклад
Чому вбудовування є досконале для нашого вживання
Пам'ятайте, ми будуємо письмового помічника.
Коли я починаю писати:

**"У цьому пості я покажу, як використовувати фрейм сутності з... "**Система має знайти останні дописи про:

Робота з блоками сутностей

graph TB
    subgraph "Traditional Keyword Search"
        A1[Query: 'Docker setup'] --> B1[Find: 'Docker' OR 'setup']
        B1 --> C1[❌ Misses: 'containerization guide']
        B1 --> D1[❌ Misses: 'running containers']
        B1 --> E1[✅ Finds: 'Docker setup tutorial']
    end

    subgraph "Embedding-Based Semantic Search"
        A2[Query: 'Docker setup'] --> B2[Generate embedding]
        B2 --> C2[Find similar embeddings]
        C2 --> D2[✅ Finds: 'containerization guide']
        C2 --> E2[✅ Finds: 'running containers']
        C2 --> F2[✅ Finds: 'Docker setup tutorial']
    end

    class B2,C2 semantic

    classDef semantic stroke:#333,stroke-width:2px

Шаблони доступу до баз даних

Налаштування ORM

Пов' язані теми ядра ASP. NETНе лише збіг ключових слів!
**Він повинен розуміти, що "EF Creations" пов'язано, навіть якщо він не говорить "Framey Entity Framework."**Вбудовування/ Традиційний пошук
Вибір вмонтованої моделіІснує багато моделей вбудовування.
**Нам потрібен такий:**Запускає локально

(прибуткова швидкість + швидкість)

Працює з ONNX Runtime |-------|------------|------|---------|-------| | (так що ми можемо скористатись нашим GPU) | 384 | 80MB | Good | Very Fast ⚡⚡⚡ | | Добра якість | 768 | 420MB | Better | Fast ⚡⚡ | | (точне семантичне розуміння) | 384 | 133MB | Better | Very Fast ⚡⚡⚡ | | Розмір праворуч | 768 | 436MB | Best | Fast ⚡⚡ | | (384- 768 вимірів - це добрий баланс) | 1536 | N/A (API) | Excellent | Slow (network) ⚡ |

Популярні параметри: Передбачається те, що вона має бути більшою за будь-яку іншу.

all- MiniLM- L6- v2
all- mpnet- base- v2
bge- little- en- v1. 5
bge- base- en- v1. 5

OpenAI text- embing- aad- 002

Моя рекомендація

bge- base- en- v1. 5:

pip install optimum[exporters]

Поточна модель відкритого джерела:

optimum-cli export onnx --model BAAI/bge-base-en-v1.5 --task feature-extraction bge-base-en-onnx/

768 вимірів (добрий баланс)

bge-base-en-onnx/
    model.onnx           # The neural network
    tokenizer.json       # Text → tokens converter
    tokenizer_config.json
    special_tokens_map.json
    config.json

Працює чудово з ONNX Runtime: Вільно і запущено локально

Перетворення у формат ONNX

Більшість моделей у форматі PyTorch.

Нам нужен ONX для C#

mkdir EmbeddingTest
cd EmbeddingTest
dotnet new console
dotnet add package Microsoft.ML.OnnxRuntime.Gpu --version 1.16.3
dotnet add package Microsoft.ML.Tokenizers --version 0.1.0-preview.23511.1

Встановити оптімум (бібліотеку Python для перетворення)

OnnxRuntime.GpuПеретворити модель BGE
Microsoft.ML.TokenizersСтворено:

Звантажити, якщо ви не бажаєте перетворювати

Багато моделей попередньо перетворено і доступне для захоплення обличчя з назвою " onnx ."

using Microsoft.ML.Tokenizers;
using System;
using System.Linq;

public class SimpleTokenizer
{
    private readonly Tokenizer _tokenizer;

    public SimpleTokenizer(string tokenizerPath)
    {
        // Load the tokenizer.json file
        _tokenizer = Tokenizer.CreateTokenizer(tokenizerPath);
    }

    public (long[] InputIds, long[] AttentionMask) Tokenize(string text, int maxLength = 512)
    {
        // Tokenize the text
        var encoding = _tokenizer.Encode(text);

        // Get token IDs
        var ids = encoding.Ids.Select(i => (long)i).ToArray();

        // Pad or truncate to maxLength
        var inputIds = new long[maxLength];
        var attentionMask = new long[maxLength];

        int length = Math.Min(ids.Length, maxLength);

        // Copy actual tokens
        Array.Copy(ids, inputIds, length);

        // Set attention mask (1 = real token, 0 = padding)
        for (int i = 0; i < length; i++)
        {
            attentionMask[i] = 1;
        }

        return (inputIds, attentionMask);
    }
}

Використання вбудовування у C#

**Давайте побудуємо практичний генератор вбудовування за допомогою ONX Runtime.**Налаштування проекту[101, 8667, 2088, 102]
- Зачем эти пакеты?
- - Запустити модель на GPU[- Перетворити текст на ідентифікатори (формат введення model)[Рельєфація перша
**Перед вбудовуванням нам слід позначити (перетворити текст на числа):**Що тут відбувається?
- Кодування
- - "Привіт світ" →
Кожне число є ідентифікатором ключа зі словника моделіОсобливі позначки: 101 =
- 1CLS], 102 =
- 0SEP]

graph LR
    A["Text: 'Docker setup'"] --> B[Tokenizer]
    B --> C[Token IDs:<br/>101, 12849, 12229, 102]
    C --> D[Pad to 512]
    D --> E[Input IDs:<br/>101, 12849, 12229, 102, 0, 0,...]
    D --> F[Attention Mask:<br/>1, 1, 1, 1, 0, 0,...]

    E --> G[Feed to Model]
    F --> G

    class B,G process

    classDef process stroke:#333,stroke-width:2px

Заповнення

Моделі очікують вхідні дані з фіксованою довжиною

using Microsoft.ML.OnnxRuntime;
using Microsoft.ML.OnnxRuntime.Tensors;
using System;
using System.Collections.Generic;
using System.Linq;

public class EmbeddingGenerator : IDisposable
{
    private readonly InferenceSession _session;
    private readonly SimpleTokenizer _tokenizer;
    private readonly int _embeddingDimension;

    public EmbeddingGenerator(string modelPath, string tokenizerPath, bool useGpu = true)
    {
        // Setup session options
        var options = new SessionOptions();
        if (useGpu)
        {
            options.AppendExecutionProvider_CUDA(0);
        }

        // Load model
        _session = new InferenceSession(modelPath, options);

        // Load tokenizer
        _tokenizer = new SimpleTokenizer(tokenizerPath);

        // Get embedding dimension from model output shape
        var outputMetadata = _session.OutputMetadata["last_hidden_state"];
        _embeddingDimension = outputMetadata.Dimensions[2]; // Usually 768 for base models
    }

    public float[] GenerateEmbedding(string text)
    {
        // Step 1: Tokenize
        var (inputIds, attentionMask) = _tokenizer.Tokenize(text);

        // Step 2: Create input tensors
        var inputIdsTensor = new DenseTensor<long>(inputIds, new[] { 1, inputIds.Length });
        var attentionMaskTensor = new DenseTensor<long>(attentionMask, new[] { 1, attentionMask.Length });

        var inputs = new List<NamedOnnxValue>
        {
            NamedOnnxValue.CreateFromTensor("input_ids", inputIdsTensor),
            NamedOnnxValue.CreateFromTensor("attention_mask", attentionMaskTensor)
        };

        // Step 3: Run inference
        using var results = _session.Run(inputs);

        // Step 4: Extract embeddings from output
        var outputTensor = results.First().AsTensor<float>();

        // Output shape is [batch_size, sequence_length, embedding_dim]
        // We want [batch_size, embedding_dim] by mean pooling

        return MeanPooling(outputTensor, attentionMask);
    }

    private float[] MeanPooling(Tensor<float> outputTensor, long[] attentionMask)
    {
        int seqLength = outputTensor.Dimensions[1];
        int embeddingDim = outputTensor.Dimensions[2];

        var embedding = new float[embeddingDim];
        int tokenCount = 0;

        // Average across all non-padded tokens
        for (int seq = 0; seq < seqLength; seq++)
        {
            if (attentionMask[seq] == 0) continue; // Skip padding

            tokenCount++;
            for (int dim = 0; dim < embeddingDim; dim++)
            {
                embedding[dim] += outputTensor[0, seq, dim];
            }
        }

        // Divide by count to get mean
        for (int dim = 0; dim < embeddingDim; dim++)
        {
            embedding[dim] /= tokenCount;
        }

        // Normalize to unit length (common practice)
        return Normalize(embedding);
    }

    private float[] Normalize(float[] vector)
    {
        float magnitude = 0;
        foreach (var val in vector)
        {
            magnitude += val * val;
        }
        magnitude = MathF.Sqrt(magnitude);

        var normalized = new float[vector.Length];
        for (int i = 0; i < vector.Length; i++)
        {
            normalized[i] = vector[i] / magnitude;
        }

        return normalized;
    }

    public void Dispose()
    {
        _session?.Dispose();
    }
}

Якщо текст є коротким: пауза з нулями:

Якщо текст є довгим: truncateМаска уваги
- Повідомляє моделі, які жести є реальними= обробити цей ключ
**= ignore ( it' s padding)**Клас вбудовування генератора
**Тепер повний канал вбудовування:**Розпад коду
Моделювання завантаження- Створює сеанс ONNX з підтримкою GPU
Рельєфація- Перетворює текст на ідентифікатори елементів

Створення тензора

graph TB
    A[Model Output:<br/>Token Embeddings] --> B["Token 0 (CLS):<br/>(0.1, 0.5, -0.3, ...)"]
    A --> C["Token 1 (Docker):<br/>(0.4, 0.2, -0.1, ...)"]
    A --> D["Token 2 (setup):<br/>(0.3, 0.6, -0.2, ...)"]
    A --> E["Token 3 (SEP):<br/>(0.2, 0.3, -0.4, ...)"]

    B --> F[Average]
    C --> F
    D --> F
    E --> F

    F --> G["Sentence Embedding:<br/>(0.25, 0.4, -0.25, ...)"]

    class A input
    class F process
    class G output

    classDef input stroke:#333
    classDef process stroke:#333,stroke-width:2px
    classDef output stroke:#333,stroke-width:2px

Формує дані для вхідної моделі
Підсилення
- Запускає нейронну мережу
Збірка з середнім значенням

- Середні знаки вбудовування → Вбудовування одного речення

using System;

class Program
{
    static void Main(string[] args)
    {
        using var embedder = new EmbeddingGenerator(
            modelPath: "bge-base-en-onnx/model.onnx",
            tokenizerPath: "bge-base-en-onnx/tokenizer.json",
            useGpu: true
        );

        // Generate embeddings
        var embedding1 = embedder.GenerateEmbedding("Docker containerization tutorial");
        var embedding2 = embedder.GenerateEmbedding("Setting up containers with Docker");
        var embedding3 = embedder.GenerateEmbedding("Baking a chocolate cake");

        Console.WriteLine($"Embedding dimension: {embedding1.Length}");
        Console.WriteLine($"First 5 values: {string.Join(", ", embedding1.Take(5).Select(f => f.ToString("F4")))}");

        // Calculate similarities
        float sim12 = CosineSimilarity(embedding1, embedding2);
        float sim13 = CosineSimilarity(embedding1, embedding3);

        Console.WriteLine($"\nSimilarity (Docker vs Containers): {sim12:F4}");  // ~0.85
        Console.WriteLine($"Similarity (Docker vs Cake): {sim13:F4}");  // ~0.10
    }

    static float CosineSimilarity(float[] a, float[] b)
    {
        // Since vectors are normalized, dot product = cosine similarity
        float dot = 0;
        for (int i = 0; i < a.Length; i++)
        {
            dot += a[i] * b[i];
        }
        return dot;
    }
}

Нормалізація:

Embedding dimension: 768
First 5 values: 0.0123, -0.0456, 0.0789, -0.0234, 0.0567

Similarity (Docker vs Containers): 0.8542
Similarity (Docker vs Cake): 0.1023

Робить векторну довжину 1 (спростує обчислення подібності)

Пояснення середнього значення

Ми в середньому, тому що:

Кожен з елементів має свій власний вбудовування

Нам потрібне одно вбудовування для всього речення

Вимірювання засвоює загальне значення:

float bestSimilarity = -1;
int bestIndex = -1;

for (int i = 0; i < 10000; i++)
{
    float sim = CosineSimilarity(queryEmbedding, storedEmbeddings[i]);
    if (sim > bestSimilarity)
    {
        bestSimilarity = sim;
        bestIndex = i;
    }
}

Приклад використанняВивід

Чудово!

Семантично подібний зміст дуже схожий, незв'язаний зміст низький.
Векторні бази даних баз даних

Тепер у нас є вбудовування.

Ми повинні зберігати їх мільйони і ефективно шукати.

Проблема

graph TB
    A[Query Embedding] --> B[Vector Database]
    B --> C{HNSW Index}

    C --> D[Layer 2:<br/>Coarse Search]
    D --> E[Layer 1:<br/>Refined Search]
    E --> F[Layer 0:<br/>Exact Search]

    F --> G[Top K Results]

    H[10,000 vectors] -.Indexed.-> C

    class B db
    class C index
    class G results

    classDef db stroke:#333,stroke-width:4px
    classDef index stroke:#333,stroke-width:2px
    classDef results stroke:#333,stroke-width:2px

Скажімо, у нас є 1000 блогів, кожна частина яких складається з 10 частин = 10 000 вбудувань.:

Наївний пошук
Проблема
: Це О́н) - ми перевіряємо, чи немає жодних вбудувань.

Повільніше!

Для 10 000 вбудовування × 768 вимірів кожен:

~30 мільйонів операцій з рухомою комою

~50- 100 м навіть у швидкому процесорі
Нам потрібно щось швидше.
Розв' язання бази даних векторів
Векторні бази даних використовують кмітливі структури даних (напр., HNSW - Ієрархічні графіки малих світів), щоб знайти найближчі сусідні елементи у часі O'log n).

Порівняння швидкості |----------|------------|------------|-------------|---------| | Наївний пошук: 50- 100 мс для 10К- векторів | ✅ Excellent | Docker | Very Fast | Apache 2.0 | | Вектор DB (HNSW): 1- 5 мс для 10K векторів | ✅ (via Npgsql) | Postgres extension | Fast | PostgreSQL License | | 10-50х швидше! | ✅ Good | Docker | Very Fast | BSD-3 | | І це масштабує: мільйони векторів все ще отримують лише ~10-20 см. | ⚠️ Limited | Docker/K8s | Very Fast | Apache 2.0 | | Вибір бази даних векторів | ❌ Python-first | Docker | Fast | Apache 2.0 |

Для нашого проекту C# нам потрібно:

Добра бібліотека клієнта C# CommentQdrant.Client)
Проста для розгортання (набір)
Хороша швидкодія
Вільне/ відкрите джерело
Передбачається, що ця програма стане доступною для всіх, хто її підтримує.

Qdrant

pgvector
Тяжкі
МілвусCity in Germany

ХромаМій вибір: QdrantЧудовий клієнт C# (

Просте активування докерів

Вбудовано спеціально для векторного пошуку (не увімкнено)

docker run -p 6333:6333 -p 6334:6334 \
    -v $(pwd)/qdrant_storage:/qdrant/storage \
    qdrant/qdrant

Велика документація:

6333Активний розвиток
6334Альтернативний: pgvector

**Ми вже використовуємо PostgreSQL для блогу!**Може зберігати все в одній базі даних./qdrant_storageТрохи менше виконання, але простіша архітектура

Для цієї серії, я буду використовувати

dotnet add package Qdrant.Client --version 1.7.0

Qdrant

тому що це вбудовано з метою і легше зрозуміти концепції.

using Qdrant.Client;
using Qdrant.Client.Grpc;

public class QdrantSetup
{
    private readonly QdrantClient _client;

    public QdrantSetup(string host = "localhost", int port = 6334)
    {
        _client = new QdrantClient(host, port);
    }

    public async Task CreateCollectionAsync(string collectionName, ulong vectorSize)
    {
        // Check if collection exists
        var collections = await _client.ListCollectionsAsync();
        if (collections.Any(c => c.Name == collectionName))
        {
            Console.WriteLine($"Collection '{collectionName}' already exists");
            return;
        }

        // Create collection
        await _client.CreateCollectionAsync(
            collectionName: collectionName,
            vectorsConfig: new VectorParams
            {
                Size = vectorSize,  // 768 for bge-base
                Distance = Distance.Cosine  // Cosine similarity
            }
        );

        Console.WriteLine($"Created collection '{collectionName}' with {vectorSize} dimensions");
    }
}

Але я покажу Pgvector як альтернативу.:

SizeВстановлення Qdrant
DistanceДеляція Docker
- Distance.CosineПорти
- Distance.Euclid- REST API
- Distance.Dot- GRPC API (швидше, ми використаємо це)

Зберігання

using Qdrant.Client.Grpc;
using System.Collections.Generic;

public class QdrantInserter
{
    private readonly QdrantClient _client;

    public QdrantInserter(QdrantClient client)
    {
        _client = client;
    }

    public async Task InsertBlogChunkAsync(
        string collectionName,
        ulong id,
        float[] embedding,
        string blogPostSlug,
        string chunkText,
        int chunkIndex)
    {
        var point = new PointStruct
        {
            Id = id,
            Vectors = embedding,
            Payload =
            {
                ["blog_post_slug"] = blogPostSlug,
                ["chunk_text"] = chunkText,
                ["chunk_index"] = chunkIndex,
                ["timestamp"] = DateTimeOffset.UtcNow.ToUnixTimeSeconds()
            }
        };

        await _client.UpsertAsync(collectionName, new[] { point });
    }

    public async Task InsertBatchAsync(
        string collectionName,
        List<(ulong id, float[] embedding, Dictionary<string, object> payload)> points)
    {
        var qdrantPoints = points.Select(p => new PointStruct
        {
            Id = p.id,
            Vectors = p.embedding,
            Payload = { p.payload }
        }).ToList();

        // Batch insert for efficiency
        await _client.UpsertAsync(collectionName, qdrantPoints);

        Console.WriteLine($"Inserted {points.Count} points");
    }
}

: Дані Persists на:

на вузлі
Налаштування клієнта C# C
Створення збірки

Збірка є подібною до столу - вона містить вектори певного виміру.:

Параметри ключів
- Має відповідати вашій моделі вбудовування (768 для bge- base)

- Як виміряти подібність:

public class QdrantSearcher
{
    private readonly QdrantClient _client;

    public QdrantSearcher(QdrantClient client)
    {
        _client = client;
    }

    public async Task<List<SearchResult>> SearchAsync(
        string collectionName,
        float[] queryEmbedding,
        int topK = 10)
    {
        var searchResult = await _client.SearchAsync(
            collectionName: collectionName,
            vector: queryEmbedding,
            limit: (ulong)topK,
            scoreThreshold: 0.7f  // Only return if similarity > 0.7
        );

        return searchResult.Select(r => new SearchResult
        {
            Id = r.Id.Num,
            Score = r.Score,
            BlogPostSlug = r.Payload["blog_post_slug"].StringValue,
            ChunkText = r.Payload["chunk_text"].StringValue,
            ChunkIndex = (int)r.Payload["chunk_index"].IntegerValue
        }).ToList();
    }

    public async Task<List<SearchResult>> SearchWithFilterAsync(
        string collectionName,
        float[] queryEmbedding,
        string blogPostSlug,  // Only search within this post
        int topK = 5)
    {
        var filter = new Filter
        {
            Must =
            {
                new Condition
                {
                    Field = new FieldCondition
                    {
                        Key = "blog_post_slug",
                        Match = new Match { Keyword = blogPostSlug }
                    }
                }
            }
        };

        var searchResult = await _client.SearchAsync(
            collectionName: collectionName,
            vector: queryEmbedding,
            filter: filter,
            limit: (ulong)topK
        );

        return searchResult.Select(r => new SearchResult
        {
            Id = r.Id.Num,
            Score = r.Score,
            BlogPostSlug = r.Payload["blog_post_slug"].StringValue,
            ChunkText = r.Payload["chunk_text"].StringValue,
            ChunkIndex = (int)r.Payload["chunk_index"].IntegerValue
        }).ToList();
    }
}

public class SearchResult
{
    public ulong Id { get; set; }
    public float Score { get; set; }
    public string BlogPostSlug { get; set; }
    public string ChunkText { get; set; }
    public int ChunkIndex { get; set; }
}

- Подібність косину (більш часто):

limit- Евклідова відстань.
scoreThreshold- Точковий продукт
filterВставлення векторів

Пояснення зарплати

using System;
using System.Threading.Tasks;

class Program
{
    static async Task Main(string[] args)
    {
        // Setup
        var embedder = new EmbeddingGenerator(
            "bge-base-en-onnx/model.onnx",
            "bge-base-en-onnx/tokenizer.json",
            useGpu: true
        );

        var client = new QdrantClient("localhost", 6334);
        var searcher = new QdrantSearcher(client);

        // User query
        string query = "How do I set up Docker with ASP.NET Core?";

        // Generate query embedding
        Console.WriteLine($"Searching for: {query}");
        var queryEmbedding = embedder.GenerateEmbedding(query);

        // Search
        var results = await searcher.SearchAsync(
            collectionName: "blog_embeddings",
            queryEmbedding: queryEmbedding,
            topK: 5
        );

        // Display results
        Console.WriteLine($"\nFound {results.Count} results:\n");

        foreach (var result in results)
        {
            Console.WriteLine($"Score: {result.Score:F4}");
            Console.WriteLine($"Post: {result.BlogPostSlug}");
            Console.WriteLine($"Chunk: {result.ChunkText.Substring(0, Math.Min(100, result.ChunkText.Length))}...");
            Console.WriteLine();
        }
    }
}

Як метадані, приєднані до кожного вектора:

Searching for: How do I set up Docker with ASP.NET Core?

Found 5 results:

Score: 0.8923
Post: dockercomposedevdeps
Chunk: In this post, I'll show you how to set up a development environment using Docker Compose. This is p...

Score: 0.8654
Post: dockercompose
Chunk: Docker Compose is a tool for defining and running multi-container Docker applications. With Compose...

Score: 0.8102
Post: addingentityframeworkforblogpostspt1
Chunk: You can set it up either as a windows service or using Docker as I presented in a previous post on...

Score: 0.7891
Post: imagesharpwithdocker
Chunk: When running ASP.NET Core applications in Docker containers, you may encounter issues with ImageSha...

Score: 0.7654
Post: selfhostingseq
Chunk: I use Docker Compose to run all my services. Here's the relevant part of my docker-compose.yml file...

Може зберігати будь- які дані: заголовок повідомлення, текст шматка, дата, категорії

Пошук і фільтрація!

Пакетне вставлення

Набагато швидше, ніж один за одним

public class BatchEmbeddingGenerator
{
    private readonly EmbeddingGenerator _embedder;

    public BatchEmbeddingGenerator(EmbeddingGenerator embedder)
    {
        _embedder = embedder;
    }

    public List<float[]> GenerateBatch(List<string> texts, int batchSize = 32)
    {
        var embeddings = new List<float[]>();

        for (int i = 0; i < texts.Count; i += batchSize)
        {
            var batch = texts.Skip(i).Take(batchSize).ToList();

            foreach (var text in batch)
            {
                embeddings.Add(_embedder.GenerateEmbedding(text));
            }

            Console.WriteLine($"Processed {Math.Min(i + batchSize, texts.Count)} / {texts.Count}");
        }

        return embeddings;
    }
}

Ефективні пакети з ручками QDrant 100-1000

Пошук векторів
Можливості пошуку
- Повернути згори K найбільш схожим

- Повернути, лише якщо подібність перевищує порогове значення

Фільтрувати за метаданими (наприклад, шукати лише окремі дописи)

using System.Security.Cryptography;
using System.Text;

public class EmbeddingCache
{
    private readonly Dictionary<string, float[]> _cache = new();

    public float[] GetOrGenerate(string text, Func<string, float[]> generator)
    {
        string hash = ComputeHash(text);

        if (_cache.TryGetValue(hash, out var cached))
        {
            return cached;
        }

        var embedding = generator(text);
        _cache[hash] = embedding;

        return embedding;
    }

    private string ComputeHash(string text)
    {
        using var sha256 = SHA256.Create();
        var bytes = sha256.ComputeHash(Encoding.UTF8.GetBytes(text));
        return Convert.ToBase64String(bytes);
    }
}

Повний приклад: рядок каналів пошуку

Вивід

Чудово!

CREATE EXTENSION vector;

Он нашёл подходящие посты о Докере и АСПНЕТ, хотя и не нашёл точной фразы.

CREATE TABLE blog_embeddings (
    id SERIAL PRIMARY KEY,
    blog_post_slug VARCHAR(255),
    chunk_text TEXT,
    chunk_index INT,
    embedding VECTOR(768)  -- 768 dimensions
);

-- Create HNSW index for fast search
CREATE INDEX ON blog_embeddings USING hnsw (embedding vector_cosine_ops);

Оптимізація швидкодії

using Npgsql;
using Pgvector;

public async Task InsertEmbeddingAsync(
    string slug,
    string chunkText,
    int chunkIndex,
    float[] embedding)
{
    await using var conn = new NpgsqlConnection(connectionString);
    await conn.OpenAsync();

    await using var cmd = new NpgsqlCommand(
        "INSERT INTO blog_embeddings (blog_post_slug, chunk_text, chunk_index, embedding) VALUES ($1, $2, $3, $4)",
        conn
    )
    {
        Parameters =
        {
            new() { Value = slug },
            new() { Value = chunkText },
            new() { Value = chunkIndex },
            new() { Value = new Vector(embedding) }
        }
    };

    await cmd.ExecuteNonQueryAsync();
}

Пакетне створення вбудовування

public async Task<List<SearchResult>> SearchAsync(float[] queryEmbedding, int topK = 10)
{
    await using var conn = new NpgsqlConnection(connectionString);
    await conn.OpenAsync();

    await using var cmd = new NpgsqlCommand(
        @"SELECT blog_post_slug, chunk_text, chunk_index,
                 1 - (embedding <=> $1) as similarity
          FROM blog_embeddings
          ORDER BY embedding <=> $1
          LIMIT $2",
        conn
    )
    {
        Parameters =
        {
            new() { Value = new Vector(queryEmbedding) },
            new() { Value = topK }
        }
    };

    var results = new List<SearchResult>();

    await using var reader = await cmd.ExecuteReaderAsync();
    while (await reader.ReadAsync())
    {
        results.Add(new SearchResult
        {
            BlogPostSlug = reader.GetString(0),
            ChunkText = reader.GetString(1),
            ChunkIndex = reader.GetInt32(2),
            Score = reader.GetFloat(3)
        });
    }

    return results;
}

**<=>Не генеруйте вбудовування один за одним.**Пакуй їх! **1 - distance**Навіщо тусуватися?

Завантаження GPU: зберігає зайнятість GPU

Ефективність пам' яті: повторне використання буферів

✅ What embeddings are and why they enable semantic search
✅ How to choose and convert an embedding model to ONNX
✅ Generating embeddings in C# with ONNX Runtime
✅ Vector database concepts (HNSW, similarity search)
✅ Using Qdrant for vector storage and search
✅ Alternative: pgvector in PostgreSQL
✅ Performance optimization (batching, caching)

Стеження за поступом: відгуки користувачів

Вбудовані каркаси

Не відновлювати вбудовування для незміненого змісту!**Альтернативна функція pgvector**Якщо ви бажаєте зберігати все у PostgreSQL:

Встановити суфікс pgvector
Створити таблицю
Вставити з C#
Шукати за допомогою pgvectorоператор
: Відстань cosine (нижча є більш подібною)
: Перетворити на оцінку подібності (вищим є кращий)

Зведення

Ми покрили:

Qdrant

Частина 2: налаштування і налаштування CUDA у C#Частина 3: Розуміння вбудовування баз даних та векторів!