Приблизно стільки ж разів, скільки й раніше.: Ця стаття вчить засади веб- вмісту у вигляді LLM з використанням найпростішого підходу. Для випадків використання у виробництві (webExpensation, аналіз документів, інструменти агентів), див. DocSummarizer
- він реалізує архітектуру, показану тут, але не виробничу: вбудовування БЕРТ, гібридний пошук, Playwright для SPEAS, захист SSRF, підтверджувальні цитати та належне стеження за покриттям.
Коли ви просите ChatGPT "прочитати цю статтю і підсумувати її," що насправді станеться? Якщо ви уявите, що комп' ютер відкриває переглядач і читаєте так, як ви, це не так, як це працює.
LLM не переглядає веб- сторінку. Вони міркують над фрагментами, які ви вибираєте код.
У цій статті ви знайдете інформацію про те, як побудувати код C# без оболонок, просто практичний код, який ви можете зневадити.
TL; DR: Ваш код отримує → Прибирає → шматки → вибирає фрагменти. У LLM буде показано лише фрагменти, які ви ввели. Вибір є пошкодженим за дизайном - це як обмеження, так і архітектура.
Ось розуміння, яке змінює спосіб побудови таких систем:
Вибір - це рішення продукту.
LLM - нижня частина вашого вибору. Вона не може відновити інформацію, яку ви її не показали. Якщо агент " не може знайти відповідь," проблема майже ніколи не є моделлю - це те, що ваша логіка вибору вибрала не ті шматки. (Це той самий принцип позаду. Чому я уникаю обмежень на зразок LangCain - вони абстрагують логіку вибору, яку вам потрібно знеохочувати.)
Ось чому " перегляд агентів " зазнає невдачі безшумно. Агент з упевненістю відповідає на те, що він побачив. Ви ніколи не знаєте, що він пропустив правильний вміст.
flowchart LR
URL[Full Page] --> Select[Your Selection]
Select --> LLM[LLM Sees This]
LLM --> Answer[Answer]
URL -.->|"50KB"| Select
Select -.->|"2KB"| LLM
Miss[Missed Content] -.->|"Never seen"| X[❌]
style Select stroke:#e74c3c,stroke-width:3px
style Miss stroke:#95a5a6,stroke-width:2px,stroke-dasharray: 5 5
Якщо так, то створіть відповідний план.
Перед тим, як щось написати, це обмеження:
Дівчино. |------------|----------------| | Без показу JS лише HTML (Playwright для SPAs) ♪ | Обмежені позначки тяГ- бюджет на запит (2- 4K- марки типово)} | Відповіді з вихідним кодом # LLM не повинен галюцинувати веб- знання} | Визначальний вибір ♪Тежні вхідні → ті ж самі шматки (зневадження) ♪ | Спостереження Що ви обрали, чому і що ви обрали?
Якщо ви не можете пояснити, чому вибрано шматок, ви не можете знешкодити помилки.
flowchart TB
URL[URL] --> Fetch[1. Fetch]
Fetch --> Clean[2. Clean]
Clean --> Chunk[3. Chunk]
Chunk --> Select[4. Select]
Select --> LLM[LLM]
LLM --> Answer[Answer]
Fetch -.->|"57KB HTML"| Clean
Clean -.->|"6KB text"| Chunk
Chunk -.->|"5 chunks"| Select
Select -.->|"2 chunks"| LLM
style Select stroke:#e74c3c,stroke-width:3px
style Clean stroke:#f39c12,stroke-width:3px
Кожен крок зменшує об' єм даних. До того часу, як LLM побачить його, ви переходите від 57 КБ HTML до, можливо, 2 КБ відповідного тексту. Кожне зменшення є втратою. Кожне скорочення може відкинути відповідь. Це той самий шаблон, який я використовую для аналізування великих файлів CSV - причини LLM, ваш код обчислює і вибирає.
У цій статті ми використаємо один URL:
https://learn.microsoft.com/en-us/dotnet/core/whats-new/dotnet-10/overview
І три питання про зростаючу специфічність:
Це тримає приклади в пам'яті і показує, як вибір важливіший, коли питання стають конкретнішими.
# Install Ollama from https://ollama.ai
ollama pull llama3.2:3b
# NuGet packages
dotnet add package AngleSharp # HTML parsing
dotnet add package OllamaSharp # Ollama client (5.1.x)
OllamaSap нота: У версії 5.x
GenerateAsyncreturnIAsyncEnumerable<GenerateResponseStream?>Ви накопичилися разом.await foreachЗразок проекту піни 5,1,5.
Стандартний HTTP, але з подробицями, які мають значення:
public class WebFetcher : IDisposable
{
private readonly HttpClient _http;
public WebFetcher()
{
var handler = new HttpClientHandler
{
AllowAutoRedirect = true,
MaxAutomaticRedirections = 5, // Cap redirects
AutomaticDecompression = DecompressionMethods.All
};
_http = new HttpClient(handler) { Timeout = TimeSpan.FromSeconds(30) };
_http.DefaultRequestHeaders.Add("User-Agent",
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36");
}
public async Task<string> FetchAsync(string url)
{
var response = await _http.GetAsync(url);
// Bail if not HTML
var contentType = response.Content.Headers.ContentType?.MediaType ?? "";
if (!contentType.Contains("html") && !contentType.Contains("text"))
throw new InvalidOperationException($"Not HTML: {contentType}");
response.EnsureSuccessStatusCode();
return await response.Content.ReadAsStringAsync();
}
public void Dispose() => _http.Dispose();
}
Що з цим робити?: Redirects (забрати), стискання, час очікування, перевірка на тип вмісту, User- Agent.
Чого він не робить.: відтворення JavaScript, розпізнавання, обмеження швидкості, використання роботів. txt. Для створення, додавання затримки на кожен вузол і поваги до правил пересування.
Зазвичай, сирий HTML є шумом. Спорожніть його або ви змарнуєте маркери на розкладці.
Типова сторінка:
57KB HTML → 6KB useful text (90% reduction)
flowchart LR
HTML[Raw HTML] --> Remove[Remove Noise]
Remove --> Find[Find Main Content]
Find --> Extract[Extract Text + Headings]
Extract --> Normalize[Normalize]
Remove -.->|"script, style, nav, ads"| Find
Find -.->|"main, article, .content"| Extract
style Remove stroke:#e74c3c,stroke-width:3px
style Find stroke:#f39c12,stroke-width:3px
Ваш прибиральник може повністю вилучити відповідь. Звичайні помилки:
.article-body, .post-text)Мітигації:
h1-h6)public class HtmlCleaner
{
private readonly HtmlParser _parser = new();
// Known noise - remove these entirely
private static readonly string[] NoiseElements =
{ "script", "style", "nav", "footer", "aside", "iframe", "noscript" };
// Boilerplate patterns - remove by role, not aggressive wildcards
private static readonly string[] NoiseSelectors =
{
"[role='navigation']", "[role='banner']", "[role='complementary']",
"[class*='cookie']", "[class*='newsletter']", "[aria-hidden='true']"
};
// Where to find content - order matters (most specific first)
private static readonly string[] ContentSelectors =
{ "main", "article", "[role='main']", ".content", ".post-content" };
public CleanResult Clean(string html)
{
var doc = _parser.ParseDocument(html);
// Remove noise
foreach (var tag in NoiseElements)
foreach (var el in doc.QuerySelectorAll(tag).ToList())
el.Remove();
foreach (var selector in NoiseSelectors)
foreach (var el in doc.QuerySelectorAll(selector).ToList())
el.Remove();
// Find main content
IElement? main = null;
string? matchedSelector = null;
foreach (var selector in ContentSelectors)
{
main = doc.QuerySelector(selector);
if (main != null) { matchedSelector = selector; break; }
}
// Fallback to body if main content is suspiciously short
var text = main?.TextContent ?? "";
if (text.Length < 500 && doc.Body != null)
{
main = doc.Body;
matchedSelector = "body (fallback)";
text = main.TextContent;
}
return new CleanResult
{
Text = NormalizeWhitespace(text),
MatchedSelector = matchedSelector ?? "none",
OriginalLength = html.Length
};
}
private string NormalizeWhitespace(string text)
{
text = Regex.Replace(text, @"[ \t]+", " ");
text = Regex.Replace(text, @"\n\s*\n+", "\n\n");
return text.Trim();
}
}
public record CleanResult(string Text, string MatchedSelector, int OriginalLength);
Видобування придатності до читання (зберігання абзаців, щільності тексту) - це ціла лунка для кроликів. Поки що видобування за допомогою інструменту вибору працює для документації і блогів. У проекті з вибірковою кількістю даних передбачено інструмент видобування оцінок, якщо вам це потрібно.
У вас 6 КБ чистого тексту.
Стратегія розпилювання має значення більше, ніж ви очікуєте. Стаття про архітектуру RAG - ті самі принципи стосуються того, чи ви переглядаєте веб-сторінки, чи документи.
Це початкова точка, а не виробничий код:
public List<string> ChunkBySentence(string text, int maxTokens = 2000)
{
var chunks = new List<string>();
// WARNING: This breaks on abbreviations, decimals, URLs, code samples
var sentences = text.Split(new[] { ". ", ".\n", "! ", "? " },
StringSplitOptions.RemoveEmptyEntries);
var current = new StringBuilder();
var tokens = 0;
foreach (var sentence in sentences)
{
var sentenceTokens = EstimateTokens(sentence);
if (tokens + sentenceTokens > maxTokens && current.Length > 0)
{
chunks.Add(current.ToString().Trim());
current.Clear();
tokens = 0;
}
current.Append(sentence).Append(". ");
tokens += sentenceTokens;
}
if (current.Length > 0)
chunks.Add(current.ToString().Trim());
return chunks;
}
// Rough estimate - OK for demos, not for billing
private int EstimateTokens(string text)
=> (int)(text.Split(' ').Length * 1.3);
Чому це наївно?:
". " працює на " Dr. Smith ," " v1. 0 ," URLДля документації, шматок за розділом:
public List<ContentChunk> ChunkByHeadings(string html)
{
var doc = new HtmlParser().ParseDocument(html);
var chunks = new List<ContentChunk>();
var headings = doc.QuerySelectorAll("h1, h2, h3");
foreach (var heading in headings)
{
var content = new StringBuilder();
content.AppendLine(heading.TextContent);
var sibling = heading.NextElementSibling;
while (sibling != null && !sibling.TagName.StartsWith("H"))
{
content.AppendLine(sibling.TextContent);
sibling = sibling.NextElementSibling;
}
chunks.Add(new ContentChunk
{
Heading = heading.TextContent.Trim(),
Content = content.ToString().Trim(),
HeadingLevel = int.Parse(heading.TagName[1..])
});
}
return chunks;
}
За допомогою цього пункту можна зберегти структуру документа і зробити вибір більш змістовним.
Саме тут найчастіше трапляються невдачі, і з них має початися зневадження.
У вас є 5 шматків. Користувач запитав: " Які покращення швидкодії належать до 10 NET?" Про швидкодію йдеться лише у 1- 2 шматках. Надішліть їх.
flowchart TB
Q["Question: What perf improvements?"] --> Score[Score Each Chunk]
subgraph Chunks
C1["Chunk 1: Overview..."]
C2["Chunk 2: Runtime perf..."]
C3["Chunk 3: Libraries..."]
C4["Chunk 4: SDK changes..."]
end
Score --> C1
Score --> C2
Score --> C3
Score --> C4
C2 -->|"score: 3"| Top[Selected]
C3 -->|"score: 1"| Top
style C2 stroke:#27ae60,stroke-width:3px
style C1 stroke:#95a5a6,stroke-width:2px,stroke-dasharray: 5 5
style C4 stroke:#95a5a6,stroke-width:2px,stroke-dasharray: 5 5
public record ScoredChunk(string Content, string? Heading, int Score, List<string> MatchedKeywords);
public List<ScoredChunk> SelectByKeywords(
List<ContentChunk> chunks,
string question,
int topK = 3)
{
// Normalize and filter stopwords
var keywords = question.ToLower()
.Split(' ', StringSplitOptions.RemoveEmptyEntries)
.Where(w => w.Length > 3)
.Where(w => !Stopwords.Contains(w))
.Select(w => w.Trim(',', '.', '?', '!'))
.Distinct()
.ToList();
var scored = chunks.Select(chunk =>
{
var text = (chunk.Heading + " " + chunk.Content).ToLower();
var matched = keywords.Where(kw => text.Contains(kw)).ToList();
// Boost if keyword appears in heading
var headingBoost = chunk.Heading != null &&
keywords.Any(kw => chunk.Heading.ToLower().Contains(kw)) ? 2 : 0;
return new ScoredChunk(
chunk.Content,
chunk.Heading,
matched.Count + headingBoost,
matched
);
})
.OrderByDescending(x => x.Score)
.Take(topK)
.ToList();
// LOG THIS - it's your debugging lifeline
foreach (var s in scored)
Console.WriteLine($" [{s.Score}] {s.Heading ?? "(no heading)"}: {string.Join(", ", s.MatchedKeywords)}");
return scored;
}
private static readonly HashSet<string> Stopwords = new()
{ "what", "how", "does", "the", "are", "is", "in", "for", "of", "to", "and" };
Покращення ключів щодо наївних підрахунків:
Ключові слова не відповідають синонімам. " perf " не відповідає " покращенню результату ."
Вбудовані знаходять семантичну подібність. Якщо ви хочете перейти глибше до вбудовування і векторного пошуку, я охоплюю це широко у Серія персон RAG і Семантичний пошук з ONNX.
public async Task<List<ScoredChunk>> SelectByEmbedding(
List<ContentChunk> chunks,
string question,
int topK = 3)
{
var questionEmbed = await EmbedAsync(question);
// Cache these per URL in production
var scored = new List<(ContentChunk Chunk, double Score)>();
foreach (var chunk in chunks)
{
var chunkEmbed = await EmbedAsync(chunk.Content);
var similarity = CosineSimilarity(questionEmbed, chunkEmbed);
scored.Add((chunk, similarity));
}
return scored
.OrderByDescending(x => x.Score)
.Take(topK)
.Select(x => new ScoredChunk(x.Chunk.Content, x.Chunk.Heading, (int)(x.Score * 100), new()))
.ToList();
}
private async Task<double[]> EmbedAsync(string text)
{
var request = new EmbedRequest { Model = "nomic-embed-text", Input = [text] };
var response = await _ollama.EmbedAsync(request);
return response.Embeddings.First().ToArray();
}
Торгівля:
Для виробництва, вбудовування кешу на (URL, кусочок хеш) у SQLite або векторна база даних на зразок Qdrant.
Структурувати запит для примусових відповідей на джерела з цитатами:
public string BuildPrompt(string url, List<ScoredChunk> chunks, string question)
{
var sb = new StringBuilder();
sb.AppendLine("You are answering a question using ONLY the content below.");
sb.AppendLine("Rules:");
sb.AppendLine("- Answer ONLY from the provided sources");
sb.AppendLine("- Cite which SOURCE number supports each claim");
sb.AppendLine("- Include 1-2 brief quotes as evidence");
sb.AppendLine("- If the answer isn't in the sources, say 'Not enough information'");
sb.AppendLine("- End with Confidence: High/Medium/Low");
sb.AppendLine();
for (int i = 0; i < chunks.Count; i++)
{
sb.AppendLine($"=== SOURCE {i + 1} ===");
if (chunks[i].Heading != null)
sb.AppendLine($"Section: {chunks[i].Heading}");
sb.AppendLine($"From: {url}");
sb.AppendLine(chunks[i].Content);
sb.AppendLine();
}
sb.AppendLine($"Question: {question}");
sb.AppendLine();
sb.AppendLine("Answer (with citations and confidence):");
return sb.ToString();
}
Переходить від "сумлінного резюме" до "аналізу з доведенням."
public async Task<string> AskAsync(string prompt)
{
var request = new GenerateRequest { Model = "llama3.2:3b", Prompt = prompt };
var response = new StringBuilder();
await foreach (var chunk in _ollama.GenerateAsync(request))
{
if (chunk?.Response != null)
response.Append(chunk.Response);
}
return response.ToString().Trim();
}
Те, що ми збудували - це шаблон агента без рамки. чому мені більше подобається цей підхід до LangCain - Явне оркестрування б'є магічні абстракції, коли усуваються питання.
flowchart LR
subgraph Tools["Tools (Deterministic)"]
T1[fetch_url]
T2[clean_html]
T3[chunk_text]
T4[select_relevant]
end
subgraph LLM["LLM (Reasoning)"]
R[Interpret + Answer]
end
T1 --> T2 --> T3 --> T4 --> R
R -->|"Low confidence"| Retry[Retry with different selection]
Retry --> T4
style T4 stroke:#e74c3c,stroke-width:3px
style R stroke:#3498db,stroke-width:3px
Цикл: якщо рівень довіри низький, повторіть спробу з більшою кількістю шматків або різними ключовими словами.
var answer = await AskAsync(prompt);
if (answer.Contains("Not enough information") || answer.Contains("Confidence: Low"))
{
// Retry with more chunks
var moreChunks = SelectByKeywords(allChunks, question, topK: 5);
answer = await AskAsync(BuildPrompt(url, moreChunks, question));
}
flowchart TB
subgraph Failures["Failure Modes"]
F1[Cleaner removes content]
F2[Chunking breaks mid-thought]
F3[Selection picks wrong chunks]
F4[LLM hallucinates connections]
end
F1 --> R1["'Not enough info' - answer existed"]
F2 --> R2["Partial answer - context lost"]
F3 --> R3["Wrong answer - right content skipped"]
F4 --> R4["Confident but wrong"]
style F3 stroke:#e74c3c,stroke-width:3px
Правило зневаджування:
Якщо відповідь невірна, це майже завжди тому, що неправильний вибірНе тому, що модель зазнала невдачі.
Невдача, як правило, не LLM, це вгору по течії.
public class WebAnalyzer : IDisposable
{
private readonly WebFetcher _fetcher = new();
private readonly HtmlCleaner _cleaner = new();
private readonly OllamaApiClient _ollama = new(new Uri("http://localhost:11434"));
public async Task<AnalysisResult> AnalyzeAsync(string url, string question)
{
// 1. Fetch
var html = await _fetcher.FetchAsync(url);
// 2. Clean (with observability)
var cleaned = _cleaner.Clean(html);
Console.WriteLine($"Cleaned: {cleaned.OriginalLength} → {cleaned.Text.Length} bytes ({cleaned.MatchedSelector})");
// 3. Chunk
var chunks = ChunkByHeadings(html);
Console.WriteLine($"Chunks: {chunks.Count}");
// 4. Select (with logging)
Console.WriteLine("Selection scores:");
var selected = SelectByKeywords(chunks, question, topK: 3);
// 5. Prompt + LLM
var prompt = BuildPrompt(url, selected, question);
var answer = await AskAsync(prompt);
return new AnalysisResult
{
Answer = answer,
ChunksUsed = selected.Count,
SelectionScores = selected.Select(s => s.Score).ToList()
};
}
public void Dispose() => _fetcher.Dispose();
}
Використання з нашим запущений приклад:
using var analyzer = new WebAnalyzer();
var result = await analyzer.AnalyzeAsync(
"https://learn.microsoft.com/en-us/dotnet/core/whats-new/dotnet-10/overview",
"What performance improvements are in .NET 10?"
);
Console.WriteLine(result.Answer);
Вивід складається з посилань і впевненості:
Based on SOURCE 1 and SOURCE 2:
.NET 10 includes several performance improvements:
- JIT improvements including better inlining and method devirtualization (SOURCE 1)
- "Enhanced loop inversion for better optimization" (SOURCE 1)
- NativeAOT enhancements for improved code generation (SOURCE 2)
Confidence: High
♪ Що ж, не виходить ♪ |------------|--------------| +2-2-2-2-2- 1-2-2-3-2-2-} } Д_ д_ д, стат. Динамічний/міжчасовий вміст} ♪ Multi-page daement ♪ Передбачуваний вміст має бути дотримуваний у форматі HTML' s existanted Text context menu item
Щоб сайти були важкими для JS, вам потрібно Playwright для.NET.
flowchart LR
subgraph Your["Your Code's Job"]
direction TB
F[Fetch reliably]
C[Clean carefully]
S[Select correctly]
O[Observe everything]
end
subgraph LLM["LLM's Job"]
direction TB
R[Reason over what you gave it]
A[Admit when it doesn't know]
end
Your --> LLM
style S stroke:#e74c3c,stroke-width:3px
style R stroke:#3498db,stroke-width:3px
LLM може мати лише причину для того, що ви дали. Вибір - це ваша відповідальність.
Не проси навігацію LLM. Попросіть його про причину.
Повна працездатна реалізація: usiculcid. Llm WeebFetcher
Включення:
WebFetcher - HTTP з належним керуваннямHtmlCleaner - Видалення шуму + запасні стратегіїContentChunker - Речення і ранг на основі заголовківWebContentAnalyzer - Повний трубопровод з лісозаготівлеюOllamaExtensions - Помічник потокових відповідейcd Mostlylucid.LlmWebFetcher
dotnet run
Бібліотеки
LLMs
Супутні статті
Стек Microsoft AI
© 2026 Scott Galloway — Unlicense — All content and source code on this site is free to use, copy, modify, and sell.