` всередині a `

` елемент (оскільки все було формою в той час) 2. **Середній період**: різна структура шаблонів, дати у різних місцях 3. **Пізніші роки**: Ще одна реструктура з дещо різними інструментами вибору З пам' яті він використовував якусь нетипову річ тоді [Підтекст](http://beletsky.net/2010/09/subtext-open-source-blogging-engine.html) (Щодо блогу у Філа Хака). Послідовно на сервері громад (а) [Телігент](https://community.telligent.com/) ASP.NET використовувався для сайтів, автором яких був ASP, NET PM Rob Говард). Всі вони мали різні способи оновлення та різні способи відображення змісту. Це означало, що будь-який інструмент для видобування достатньо гнучкий, щоб працювати з декількома структурами HTML. "один розмір відповідає всім" скребкам не збирався обрізати його. ## Введіть інструмент архівуванняOrgImporter Я побудований. [Архіватор OrgImporter](https://github.com/scottgal/mostlylucid.nugetpackages/tree/main/Mostlylucid.ArchiveOrg) щоб розв' язати цю дуже специфічну проблему. Це консольна програма .NET 9. 0, яка: 1. **Повага до обмежень використання Archive.org** - Вони некомерційно працюють на пожертвах, тож робити їх сервери було б жахливо. 2. **Звантажує застарілі сторінки між придатними для налаштування датами** 3. **Видобуває вміст блогу з декількох структур HTMLName** 4. **Створює чисту розмітку** у моєму форматі блогу 5. **Використовувати Ollama для створення корисних міток** - тому що чому б не кинути в нього трохи магії LLM? ### Як це працює Інструмент слідує за архітектурою трубопроводу з трьома основними фазами: ``` Archive.org CDX API → Download HTML → Convert to Markdown → Generate Tags → Output Files ``` #### Фаза 1: опитування архіву Інструмент використовує Archive.org [CDX API](https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server) Щоб знайти всі архівовані знімки мого блогу. Цей API поверне список отриманих адрес URL з часовими штампами, типами MIME і кодами стану HTTP. ```csharp // The CDX query builds a URL like this: // https://web.archive.org/cdx/search/cdx?url=mostlylucid.co.uk/posts/&output=json&collapse=urlkey ``` The `collapse=urlkey` Параметр є кмітливим - він повертає лише найсвіжіший знімок для кожної унікальної адреси URL, що значно зменшує кількість дублікатів, з якими вам слід працювати. Крім того, я використовую шаблони regex для фільтрування адрес URL. Мої старі дописи слідували за шаблоном `/posts/[number].aspx`Так. ```json { "IncludePatterns": ["/posts/\\d+\\.aspx$"] } ``` Таким чином, я перехоплюю лише справжні дописи блогів, а не сторінки архівів, сторінки категорій або подачі RSS. #### Фаза 2: бути добрим громадянином з обмеженням Archive.org - це державна служба, у них немає бюджету інфраструктури на Google або Amazon. ```csharp // Default: 5 seconds between requests, single-threaded downloads "RateLimitMs": 5000, "MaxConcurrentDownloads": 1 ``` Так, це означає, що звантаження сотень дописів триває деякий час, але це правильно. Інструмент також керує 429 (рівне обмеження) відповідьми з експоненціальним зворотним зв' язком. Крім того, потрібне деяке спорожнення звантажених файлів. Archive.org додає скрипти панелі інструментів і перезаписує адреси URL у отриманому HTML. Вилучувачі все це надсилають: ```csharp private static string CleanWaybackArtifacts(string html) { // Remove the interactive Wayback toolbar html = WaybackToolbarRegex().Replace(html, string.Empty); // Remove playback.archive.org script references html = WaybackScriptRegex().Replace(html, string.Empty); // Strip archival metadata comments html = WaybackCommentRegex().Replace(html, string.Empty); // Rewrite archived URLs back to original paths html = WaybackUrlRewriteRegex().Replace(html, "$1$2"); return html; } ``` Керування шаблонами формального виразу: - `...` - пенал HTML - `