Отримання і аналізування веб- вмісту за допомогою LLM у C# (Українська (Ukrainian))

Приблизно стільки ж разів, скільки й раніше.: Ця стаття вчить засади веб- вмісту у вигляді LLM з використанням найпростішого підходу. Для випадків використання у виробництві (webExpensation, аналіз документів, інструменти агентів), див. DocSummarizer - він реалізує архітектуру, показану тут, але не виробничу: вбудовування БЕРТ, гібридний пошук, Playwright для SPEAS, захист SSRF, підтверджувальні цитати та належне стеження за покриттям.

Коли ви просите ChatGPT "прочитати цю статтю і підсумувати її," що насправді станеться? Якщо ви уявите, що комп' ютер відкриває переглядач і читаєте так, як ви, це не так, як це працює.

LLM не переглядає веб- сторінку. Вони міркують над фрагментами, які ви вибираєте код.

У цій статті ви знайдете інформацію про те, як побудувати код C# без оболонок, просто практичний код, який ви можете зневадити.

TL; DR: Ваш код отримує → Прибирає → шматки → вибирає фрагменти. У LLM буде показано лише фрагменти, які ви ввели. Вибір є пошкодженим за дизайном - це як обмеження, так і архітектура.

Єдине, що робить цю дію

Ось розуміння, яке змінює спосіб побудови таких систем:

Вибір - це рішення продукту.

LLM - нижня частина вашого вибору. Вона не може відновити інформацію, яку ви її не показали. Якщо агент " не може знайти відповідь," проблема майже ніколи не є моделлю - це те, що ваша логіка вибору вибрала не ті шматки. (Це той самий принцип позаду. Чому я уникаю обмежень на зразок LangCain - вони абстрагують логіку вибору, яку вам потрібно знеохочувати.)

Ось чому " перегляд агентів " зазнає невдачі безшумно. Агент з упевненістю відповідає на те, що він побачив. Ви ніколи не знаєте, що він пропустив правильний вміст.

flowchart LR
    URL[Full Page] --> Select[Your Selection]
    Select --> LLM[LLM Sees This]
    LLM --> Answer[Answer]
    
    URL -.->|"50KB"| Select
    Select -.->|"2KB"| LLM
    
    Miss[Missed Content] -.->|"Never seen"| X[❌]
    
    style Select stroke:#e74c3c,stroke-width:3px
    style Miss stroke:#95a5a6,stroke-width:2px,stroke-dasharray: 5 5

Якщо так, то створіть відповідний план.

Розробка цілей перед кодом

Перед тим, як щось написати, це обмеження:

Дівчино. |------------|----------------| | Без показу JS лише HTML (Playwright для SPAs) ♪ | Обмежені позначки тяГ- бюджет на запит (2- 4K- марки типово)} | Відповіді з вихідним кодом # LLM не повинен галюцинувати веб- знання} | Визначальний вибір ♪Тежні вхідні → ті ж самі шматки (зневадження) ♪ | Спостереження Що ви обрали, чому і що ви обрали?

Якщо ви не можете пояснити, чому вибрано шматок, ви не можете знешкодити помилки.

Канальна лінія

flowchart TB
    URL[URL] --> Fetch[1. Fetch]
    Fetch --> Clean[2. Clean]
    Clean --> Chunk[3. Chunk]
    Chunk --> Select[4. Select]
    Select --> LLM[LLM]
    LLM --> Answer[Answer]
    
    Fetch -.->|"57KB HTML"| Clean
    Clean -.->|"6KB text"| Chunk
    Chunk -.->|"5 chunks"| Select
    Select -.->|"2 chunks"| LLM
    
    style Select stroke:#e74c3c,stroke-width:3px
    style Clean stroke:#f39c12,stroke-width:3px

Кожен крок зменшує об' єм даних. До того часу, як LLM побачить його, ви переходите від 57 КБ HTML до, можливо, 2 КБ відповідного тексту. Кожне зменшення є втратою. Кожне скорочення може відкинути відповідь. Це той самий шаблон, який я використовую для аналізування великих файлів CSV - причини LLM, ваш код обчислює і вибирає.

Виконання прикладу

У цій статті ми використаємо один URL:

https://learn.microsoft.com/en-us/dotnet/core/whats-new/dotnet-10/overview

І три питання про зростаючу специфічність:

"Що нового в.NET 10?"
"Які вдосконалення показників згадуються?"
"Чи є що-небудь про AOT?"

Це тримає приклади в пам'яті і показує, як вибір важливіший, коли питання стають конкретнішими.

Налаштування

# Install Ollama from https://ollama.ai
ollama pull llama3.2:3b

# NuGet packages
dotnet add package AngleSharp      # HTML parsing
dotnet add package OllamaSharp     # Ollama client (5.1.x)

OllamaSap нота: У версії 5.x GenerateAsync return IAsyncEnumerable<GenerateResponseStream?> Ви накопичилися разом. await foreachЗразок проекту піни 5,1,5.

Крок 1: Отримання

Стандартний HTTP, але з подробицями, які мають значення:

public class WebFetcher : IDisposable
{
    private readonly HttpClient _http;
    
    public WebFetcher()
    {
        var handler = new HttpClientHandler
        {
            AllowAutoRedirect = true,
            MaxAutomaticRedirections = 5,  // Cap redirects
            AutomaticDecompression = DecompressionMethods.All
        };
        
        _http = new HttpClient(handler) { Timeout = TimeSpan.FromSeconds(30) };
        _http.DefaultRequestHeaders.Add("User-Agent", 
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36");
    }
    
    public async Task<string> FetchAsync(string url)
    {
        var response = await _http.GetAsync(url);
        
        // Bail if not HTML
        var contentType = response.Content.Headers.ContentType?.MediaType ?? "";
        if (!contentType.Contains("html") && !contentType.Contains("text"))
            throw new InvalidOperationException($"Not HTML: {contentType}");
        
        response.EnsureSuccessStatusCode();
        return await response.Content.ReadAsStringAsync();
    }
    
    public void Dispose() => _http.Dispose();
}

Що з цим робити?: Redirects (забрати), стискання, час очікування, перевірка на тип вмісту, User- Agent.

Чого він не робить.: відтворення JavaScript, розпізнавання, обмеження швидкості, використання роботів. txt. Для створення, додавання затримки на кожен вузол і поваги до правил пересування.

Крок 2: Очистити

Зазвичай, сирий HTML є шумом. Спорожніть його або ви змарнуєте маркери на розкладці.

Типова сторінка:

57KB HTML → 6KB useful text (90% reduction)

Стратегія

flowchart LR
    HTML[Raw HTML] --> Remove[Remove Noise]
    Remove --> Find[Find Main Content]
    Find --> Extract[Extract Text + Headings]
    Extract --> Normalize[Normalize]
    
    Remove -.->|"script, style, nav, ads"| Find
    Find -.->|"main, article, .content"| Extract
    
    style Remove stroke:#e74c3c,stroke-width:3px
    style Find stroke:#f39c12,stroke-width:3px

Очищення - справа з втратою здоров'я

Ваш прибиральник може повністю вилучити відповідь. Звичайні помилки:

Агресивні засоби вибору видаляють законний вміст
У головному змісті незвичайні класові назви (.article-body, .post-text)
Відповідь знаходиться на бічній панелі або панелі викликів

Мітигації:

Зберігати заголовки явно (h1-h6)
Вилучити з role і Знаменитий котелерпил., не широкі візерунки
Журнал: видобутий шлях елемента + довжина тексту
Повернення: якщо головний вміст є коротким за підозрою, спробуйте тіло

public class HtmlCleaner
{
    private readonly HtmlParser _parser = new();
    
    // Known noise - remove these entirely
    private static readonly string[] NoiseElements = 
        { "script", "style", "nav", "footer", "aside", "iframe", "noscript" };
    
    // Boilerplate patterns - remove by role, not aggressive wildcards
    private static readonly string[] NoiseSelectors = 
    {
        "[role='navigation']", "[role='banner']", "[role='complementary']",
        "[class*='cookie']", "[class*='newsletter']", "[aria-hidden='true']"
    };
    
    // Where to find content - order matters (most specific first)
    private static readonly string[] ContentSelectors = 
        { "main", "article", "[role='main']", ".content", ".post-content" };
    
    public CleanResult Clean(string html)
    {
        var doc = _parser.ParseDocument(html);
        
        // Remove noise
        foreach (var tag in NoiseElements)
            foreach (var el in doc.QuerySelectorAll(tag).ToList())
                el.Remove();
        
        foreach (var selector in NoiseSelectors)
            foreach (var el in doc.QuerySelectorAll(selector).ToList())
                el.Remove();
        
        // Find main content
        IElement? main = null;
        string? matchedSelector = null;
        
        foreach (var selector in ContentSelectors)
        {
            main = doc.QuerySelector(selector);
            if (main != null) { matchedSelector = selector; break; }
        }
        
        // Fallback to body if main content is suspiciously short
        var text = main?.TextContent ?? "";
        if (text.Length < 500 && doc.Body != null)
        {
            main = doc.Body;
            matchedSelector = "body (fallback)";
            text = main.TextContent;
        }
        
        return new CleanResult
        {
            Text = NormalizeWhitespace(text),
            MatchedSelector = matchedSelector ?? "none",
            OriginalLength = html.Length
        };
    }
    
    private string NormalizeWhitespace(string text)
    {
        text = Regex.Replace(text, @"[ \t]+", " ");
        text = Regex.Replace(text, @"\n\s*\n+", "\n\n");
        return text.Trim();
    }
}

public record CleanResult(string Text, string MatchedSelector, int OriginalLength);

Видобування придатності до читання (зберігання абзаців, щільності тексту) - це ціла лунка для кроликів. Поки що видобування за допомогою інструменту вибору працює для документації і блогів. У проекті з вибірковою кількістю даних передбачено інструмент видобування оцінок, якщо вам це потрібно.

Крок 3: Шматок

У вас 6 КБ чистого тексту.

Голок у скирті сіна: LLM досягає гірших результатів, якщо відповідні відомості поховано у великому контексті
Вартість: Більше марок = більше грошей і запізнення
Фокус: Вибрані шматки витворюють краще міркування, ніж усе одночасно.

Стратегія розпилювання має значення більше, ніж ви очікуєте. Стаття про архітектуру RAG - ті самі принципи стосуються того, чи ви переглядаєте веб-сторінки, чи документи.

Очищення речень

Це початкова точка, а не виробничий код:

public List<string> ChunkBySentence(string text, int maxTokens = 2000)
{
    var chunks = new List<string>();
    
    // WARNING: This breaks on abbreviations, decimals, URLs, code samples
    var sentences = text.Split(new[] { ". ", ".\n", "! ", "? " }, 
        StringSplitOptions.RemoveEmptyEntries);
    
    var current = new StringBuilder();
    var tokens = 0;
    
    foreach (var sentence in sentences)
    {
        var sentenceTokens = EstimateTokens(sentence);
        
        if (tokens + sentenceTokens > maxTokens && current.Length > 0)
        {
            chunks.Add(current.ToString().Trim());
            current.Clear();
            tokens = 0;
        }
        
        current.Append(sentence).Append(". ");
        tokens += sentenceTokens;
    }
    
    if (current.Length > 0)
        chunks.Add(current.ToString().Trim());
    
    return chunks;
}

// Rough estimate - OK for demos, not for billing
private int EstimateTokens(string text) 
    => (int)(text.Split(' ').Length * 1.3);

Чому це наївно?:

". " працює на " Dr. Smith ," " v1. 0 ," URL
Оцінка ключа за кількістю слів ±20% вимкнено
Без перетину між шматками (загублює контекст на границях)

Кращий: шапка- шапкаStencils

Для документації, шматок за розділом:

public List<ContentChunk> ChunkByHeadings(string html)
{
    var doc = new HtmlParser().ParseDocument(html);
    var chunks = new List<ContentChunk>();
    
    var headings = doc.QuerySelectorAll("h1, h2, h3");
    
    foreach (var heading in headings)
    {
        var content = new StringBuilder();
        content.AppendLine(heading.TextContent);
        
        var sibling = heading.NextElementSibling;
        while (sibling != null && !sibling.TagName.StartsWith("H"))
        {
            content.AppendLine(sibling.TextContent);
            sibling = sibling.NextElementSibling;
        }
        
        chunks.Add(new ContentChunk
        {
            Heading = heading.TextContent.Trim(),
            Content = content.ToString().Trim(),
            HeadingLevel = int.Parse(heading.TagName[1..])
        });
    }
    
    return chunks;
}

За допомогою цього пункту можна зберегти структуру документа і зробити вибір більш змістовним.

Крок 4: Вибір

Саме тут найчастіше трапляються невдачі, і з них має початися зневадження.

У вас є 5 шматків. Користувач запитав: " Які покращення швидкодії належать до 10 NET?" Про швидкодію йдеться лише у 1- 2 шматках. Надішліть їх.

flowchart TB
    Q["Question: What perf improvements?"] --> Score[Score Each Chunk]
    
    subgraph Chunks
        C1["Chunk 1: Overview..."] 
        C2["Chunk 2: Runtime perf..."]
        C3["Chunk 3: Libraries..."]
        C4["Chunk 4: SDK changes..."]
    end
    
    Score --> C1
    Score --> C2
    Score --> C3
    Score --> C4
    
    C2 -->|"score: 3"| Top[Selected]
    C3 -->|"score: 1"| Top
    
    style C2 stroke:#27ae60,stroke-width:3px
    style C1 stroke:#95a5a6,stroke-width:2px,stroke-dasharray: 5 5
    style C4 stroke:#95a5a6,stroke-width:2px,stroke-dasharray: 5 5

Відповідність ключових слів (простий, придатний для зневаджування)

public record ScoredChunk(string Content, string? Heading, int Score, List<string> MatchedKeywords);

public List<ScoredChunk> SelectByKeywords(
    List<ContentChunk> chunks, 
    string question, 
    int topK = 3)
{
    // Normalize and filter stopwords
    var keywords = question.ToLower()
        .Split(' ', StringSplitOptions.RemoveEmptyEntries)
        .Where(w => w.Length > 3)
        .Where(w => !Stopwords.Contains(w))
        .Select(w => w.Trim(',', '.', '?', '!'))
        .Distinct()
        .ToList();
    
    var scored = chunks.Select(chunk =>
    {
        var text = (chunk.Heading + " " + chunk.Content).ToLower();
        var matched = keywords.Where(kw => text.Contains(kw)).ToList();
        
        // Boost if keyword appears in heading
        var headingBoost = chunk.Heading != null && 
            keywords.Any(kw => chunk.Heading.ToLower().Contains(kw)) ? 2 : 0;
        
        return new ScoredChunk(
            chunk.Content, 
            chunk.Heading, 
            matched.Count + headingBoost,
            matched
        );
    })
    .OrderByDescending(x => x.Score)
    .Take(topK)
    .ToList();
    
    // LOG THIS - it's your debugging lifeline
    foreach (var s in scored)
        Console.WriteLine($"  [{s.Score}] {s.Heading ?? "(no heading)"}: {string.Join(", ", s.MatchedKeywords)}");
    
    return scored;
}

private static readonly HashSet<string> Stopwords = new()
    { "what", "how", "does", "the", "are", "is", "in", "for", "of", "to", "and" };

Покращення ключів щодо наївних підрахунків:

Вилучення слів (інакше " що " і " те " завжди збігаються)
Покроковий стимул (структурний сигнал)
Реєстрації, що відповідають ключовим словам - это ваша жизненная линия для усыновления.

Вбудовування- Based (Semantic)

Ключові слова не відповідають синонімам. " perf " не відповідає " покращенню результату ."

Вбудовані знаходять семантичну подібність. Якщо ви хочете перейти глибше до вбудовування і векторного пошуку, я охоплюю це широко у Серія персон RAG і Семантичний пошук з ONNX.

public async Task<List<ScoredChunk>> SelectByEmbedding(
    List<ContentChunk> chunks, 
    string question, 
    int topK = 3)
{
    var questionEmbed = await EmbedAsync(question);
    
    // Cache these per URL in production
    var scored = new List<(ContentChunk Chunk, double Score)>();
    
    foreach (var chunk in chunks)
    {
        var chunkEmbed = await EmbedAsync(chunk.Content);
        var similarity = CosineSimilarity(questionEmbed, chunkEmbed);
        scored.Add((chunk, similarity));
    }
    
    return scored
        .OrderByDescending(x => x.Score)
        .Take(topK)
        .Select(x => new ScoredChunk(x.Chunk.Content, x.Chunk.Heading, (int)(x.Score * 100), new()))
        .ToList();
}

private async Task<double[]> EmbedAsync(string text)
{
    var request = new EmbedRequest { Model = "nomic-embed-text", Input = [text] };
    var response = await _ollama.EmbedAsync(request);
    return response.Embeddings.First().ToArray();
}

Торгівля:

Ключові слова: швидкий, придатний для зневаджування, буквальний збіг
Вбудовування: семантичний, але повільніший і потребує кешування.

Для виробництва, вбудовування кешу на (URL, кусочок хеш) у SQLite або векторна база даних на зразок Qdrant.

Надсилання до LLM

Структурувати запит для примусових відповідей на джерела з цитатами:

public string BuildPrompt(string url, List<ScoredChunk> chunks, string question)
{
    var sb = new StringBuilder();
    
    sb.AppendLine("You are answering a question using ONLY the content below.");
    sb.AppendLine("Rules:");
    sb.AppendLine("- Answer ONLY from the provided sources");
    sb.AppendLine("- Cite which SOURCE number supports each claim");
    sb.AppendLine("- Include 1-2 brief quotes as evidence");
    sb.AppendLine("- If the answer isn't in the sources, say 'Not enough information'");
    sb.AppendLine("- End with Confidence: High/Medium/Low");
    sb.AppendLine();
    
    for (int i = 0; i < chunks.Count; i++)
    {
        sb.AppendLine($"=== SOURCE {i + 1} ===");
        if (chunks[i].Heading != null)
            sb.AppendLine($"Section: {chunks[i].Heading}");
        sb.AppendLine($"From: {url}");
        sb.AppendLine(chunks[i].Content);
        sb.AppendLine();
    }
    
    sb.AppendLine($"Question: {question}");
    sb.AppendLine();
    sb.AppendLine("Answer (with citations and confidence):");
    
    return sb.ToString();
}

Переходить від "сумлінного резюме" до "аналізу з доведенням."

Дзвінок Олема

public async Task<string> AskAsync(string prompt)
{
    var request = new GenerateRequest { Model = "llama3.2:3b", Prompt = prompt };
    
    var response = new StringBuilder();
    await foreach (var chunk in _ollama.GenerateAsync(request))
    {
        if (chunk?.Response != null)
            response.Append(chunk.Response);
    }
    
    return response.ToString().Trim();
}

Це використання інструментів

Те, що ми збудували - це шаблон агента без рамки. чому мені більше подобається цей підхід до LangCain - Явне оркестрування б'є магічні абстракції, коли усуваються питання.

flowchart LR
    subgraph Tools["Tools (Deterministic)"]
        T1[fetch_url]
        T2[clean_html]
        T3[chunk_text]
        T4[select_relevant]
    end
    
    subgraph LLM["LLM (Reasoning)"]
        R[Interpret + Answer]
    end
    
    T1 --> T2 --> T3 --> T4 --> R
    
    R -->|"Low confidence"| Retry[Retry with different selection]
    Retry --> T4
    
    style T4 stroke:#e74c3c,stroke-width:3px
    style R stroke:#3498db,stroke-width:3px

Цикл: якщо рівень довіри низький, повторіть спробу з більшою кількістю шматків або різними ключовими словами.

var answer = await AskAsync(prompt);

if (answer.Contains("Not enough information") || answer.Contains("Confidence: Low"))
{
    // Retry with more chunks
    var moreChunks = SelectByKeywords(allChunks, question, topK: 5);
    answer = await AskAsync(BuildPrompt(url, moreChunks, question));
}

Що стається

flowchart TB
    subgraph Failures["Failure Modes"]
        F1[Cleaner removes content]
        F2[Chunking breaks mid-thought]
        F3[Selection picks wrong chunks]
        F4[LLM hallucinates connections]
    end
    
    F1 --> R1["'Not enough info' - answer existed"]
    F2 --> R2["Partial answer - context lost"]
    F3 --> R3["Wrong answer - right content skipped"]
    F4 --> R4["Confident but wrong"]
    
    style F3 stroke:#e74c3c,stroke-width:3px

Правило зневаджування:

Якщо відповідь невірна, це майже завжди тому, що неправильний вибірНе тому, що модель зазнала невдачі.

Зневаджування Checklist

Записувати вибрані ідентифікатори шматків і рахунки
Показати, які ключові слова збігаються (або вбудувати відстані)
Повторювати точну підказку який було надіслано
Порівняти: чи був правильний вміст у отриманому HTML- форматі? Чи чистий текст?

Невдача, як правило, не LLM, це вгору по течії.

Як це об'єднати

public class WebAnalyzer : IDisposable
{
    private readonly WebFetcher _fetcher = new();
    private readonly HtmlCleaner _cleaner = new();
    private readonly OllamaApiClient _ollama = new(new Uri("http://localhost:11434"));
    
    public async Task<AnalysisResult> AnalyzeAsync(string url, string question)
    {
        // 1. Fetch
        var html = await _fetcher.FetchAsync(url);
        
        // 2. Clean (with observability)
        var cleaned = _cleaner.Clean(html);
        Console.WriteLine($"Cleaned: {cleaned.OriginalLength} → {cleaned.Text.Length} bytes ({cleaned.MatchedSelector})");
        
        // 3. Chunk
        var chunks = ChunkByHeadings(html);
        Console.WriteLine($"Chunks: {chunks.Count}");
        
        // 4. Select (with logging)
        Console.WriteLine("Selection scores:");
        var selected = SelectByKeywords(chunks, question, topK: 3);
        
        // 5. Prompt + LLM
        var prompt = BuildPrompt(url, selected, question);
        var answer = await AskAsync(prompt);
        
        return new AnalysisResult
        {
            Answer = answer,
            ChunksUsed = selected.Count,
            SelectionScores = selected.Select(s => s.Score).ToList()
        };
    }
    
    public void Dispose() => _fetcher.Dispose();
}

Використання з нашим запущений приклад:

using var analyzer = new WebAnalyzer();

var result = await analyzer.AnalyzeAsync(
    "https://learn.microsoft.com/en-us/dotnet/core/whats-new/dotnet-10/overview",
    "What performance improvements are in .NET 10?"
);

Console.WriteLine(result.Answer);

Вивід складається з посилань і впевненості:

Based on SOURCE 1 and SOURCE 2:

.NET 10 includes several performance improvements:
- JIT improvements including better inlining and method devirtualization (SOURCE 1)
- "Enhanced loop inversion for better optimization" (SOURCE 1)
- NativeAOT enhancements for improved code generation (SOURCE 2)

Confidence: High

Коли це працює (і не робить)

♪ Що ж, не виходить ♪ |------------|--------------| +2-2-2-2-2- 1-2-2-3-2-2-} } Д_ д_ д, стат. Динамічний/міжчасовий вміст} ♪ Multi-page daement ♪ Передбачуваний вміст має бути дотримуваний у форматі HTML' s existanted Text context menu item

Щоб сайти були важкими для JS, вам потрібно Playwright для.NET.

Ключовий принцип

flowchart LR
    subgraph Your["Your Code's Job"]
        direction TB
        F[Fetch reliably]
        C[Clean carefully]
        S[Select correctly]
        O[Observe everything]
    end
    
    subgraph LLM["LLM's Job"]
        direction TB
        R[Reason over what you gave it]
        A[Admit when it doesn't know]
    end
    
    Your --> LLM
    
    style S stroke:#e74c3c,stroke-width:3px
    style R stroke:#3498db,stroke-width:3px

LLM може мати лише причину для того, що ви дали. Вибір - це ваша відповідальність.

Не проси навігацію LLM. Попросіть його про причину.

Повноприкладний проект

Повна працездатна реалізація: usiculcid. Llm WeebFetcher

Включення:

WebFetcher - HTTP з належним керуванням
HtmlCleaner - Видалення шуму + запасні стратегії
ContentChunker - Речення і ранг на основі заголовків
WebContentAnalyzer - Повний трубопровод з лісозаготівлею
OllamaExtensions - Помічник потокових відповідей

cd Mostlylucid.LlmWebFetcher
dotnet run

Ресурси

Бібліотеки

Кут & різкості - Розбір HTML
OllamaSap - Клієнт Ollama

LLMs

Ольямаjapan. kgm - Місцевий запуск LLM
лама3. 2: 3b - Швидка, здібна модель
Множинний текст Вмонтовані (~275 Мб)

Супутні статті

Серія DocSummarizer - СТРАХ КРАЩИЙ підхід щодо резюме вмісту Тенет. У цій статті показано найпростіший спосіб отримання і аналізу. У DocSummarizer показано спосіб видобування даних у форматі BERT, гібридного пошуку, перевірених посилань і належного стеження за обкладинками.
Аналіз великих файлів CSV з локальними LLM - Той самий шаблон: причини LLM, код обчислюється
Чому я не використовую LangCain - Дизайн агентів без рамки
RAG Purr - Розуміння покоління, яке отримує інформацію про отримання
Семантичний пошук з ONNX і Qdrant - Локальний семантичний пошук
Будівництво адвокатської програми GPT - Повна реалізація RAG

Стек Microsoft AI

Семантичний ядро - Якщо вам потрібна оболонка
Microsoft. Extensions.AI - Абстракції