This is a viewer only at the moment see the article on how this works.
To update the preview hit Ctrl-Alt-R (or ⌘-Alt-R on Mac) or Enter to refresh. The Save icon lets you save the markdown file to disk
This is a preview from the server running through my markdig pipeline
Sunday, 28 December 2025
Малу і локальну LLM часто обрамлюють як дешеву альтернативу перегородкам моделей. Це обрамлення хибне. Вони не є пошкодженою версією однієї і тієї ж речі. Вони є іншим архітектурним вибором, обраним для керування, Прогноз, і Режими невдалих помилок.
Я винен як будь-хто за те, що штовхав "вони вільні" оповідання... так ніби це був єдиний вирішальний фактор але як вибір бази даних/приватної платформи для системи, яку ви повинні зрозуміти які продукти ви створюєте.
Використання маленької моделі через Ольямаjapan. kgm, LM Studio, ONNX Runtime, або щось подібне не є (просто) про економію грошей. де може існувати не-детермінізм.
Вони дезінфікують більше людської логіки, просувають більше територій і випромінюють переконливіші аргументи. Більш небезпечний у системах, які вимагають гарантій.
Метелики-граники мають сенс, коли вони вимагають широти, а вихідні - це дорадчий результат дизайну - творчі креслення, відкриті дослідження або синтез у незнайомих сферах, але це не більшість виробничих систем.
Їхні невдачі Семантичний, а не структурний. Це помилка категорії: обробка пробабілістичного компонента, як межі системи. Вони створюють коректні виводи, які є неправильними у зрозумілий спосіб. Ось такі помилки:
Малі моделі не справджуються по-іншому.
Коли маленька модель збентежена, вона схильна:
Це є дешеві невдачіЇх можна виявити за допомогою простої перевірки.
Це не слабкість, а риса.
Це розуміння - не абстрактна теорія - це основа Десять заповідей LLMОсновний принцип:
LLM інтерпретує реальність. Їх не можна визначати.
Дотримуючись цього принципу, ви помічаєте щось несподіване: вам не потрібні дорогі моделі7Б-модель параметрів, запущена локально, може класифікувати, підсумовувати і генерувати гіпотези просто чудово, тому що детермінуючі системи навколо нього мають справу з усіма речами, які насправді мають бути правильними.
Маленькі моделі не "слабкі" - вони часто достатньо Тому що проблему вже скоротили, коли вона досягає їх.
Метелики на кордонах продають вам надійність, ви маєте самі себе будувати.
Так само, як DuckDB не є "cheap SQL," а Postgres не є "worze Azure SQL," малі LLM займають інша точка у просторі дизайну. Ви вибираєте їх, коли:
♪ Solume Mode ♪ |---------|----------------------| | Локаль Перед вами обладнання, ваша мережа, ваша черга | Можливість перевірки ♫ Кожну сторінку записано, репродукція, вердикт | Радіус Blast У ньому містяться години, які не передаються через ланцюжки API | Керування коректністю ведьй йде за межами моделі ♪ | Обмежений не-детермінізм ♪ Unesestithy is closeed pushed ♪
Це не гіпотетично. Мої проекти демонструють цей шаблон повторно:
Моя GraphRAG реалізація пропонується три режими:
MOM |------|-----------|----------| | Геристичний 1/0 за 1/3 Чистий детермінізм через IDF + circle} | Гібридstar name 1 за документ} Мала модель визначає кандидатів | LLM 1/2 за тяжку максимальна якість, коли потрібна
The гібридний режим є солодкою плямою: геуристичне видобування знайде кандидатів (детермінативне), потім маленька місцева модель підтверджує і збагачує їх. Один LLM викликає на один документ, а не на шматок.
Оскільки Ollama працює локально, вартість дорівнює 0. Але це не тому, що я використовую заощадження - заощадження витрат - це побічний ефект правильної абстракції, а не її цілі. невдачі дешеві і очевидні.
Семантичний пошук з ONNX і Qdrant показує інший шаблон: деякі завдання взагалі не потребують LLM. Вбудовування ERT за допомогою ONNX Runtime надасть вам змогу:
for гібридний пошук, я поєдную ці вбудовування з оцінками BM25. LLM з'являється лише під час синтезу - і навіть тоді, маленька локальна модель працює добре, тому що це пояснення структура, що детерміновані системи вже підтверджено.
DocSummarizer Втілює цю філософію:
LLM є LLM останній крок, працювати над попередньо перевіреним, попередньо структурованим контентом. Воно може зазнати невдачі - і якщо це станеться, невдача буде очевидною, оскільки структура вже є правильною.
LinyLM Показує локальне використання LLM у стільниці Windows. У програмі передбачено підтримку:
Інтерфейс балачки є пробалістичним. Пам' ять, обробка файлів і керування державою є детермінатичними. Невдача у одному не псує іншу.
Маленькі моделі, коли їх вбудовано у детермінуючі системи, дають вам достатньо непевності, щоб дослідити - не обтяжуючи правду або відповідальність.
Правильне питання не в тому, яка модель найкраща?
Це так:
І якщо модель є лише для того, щоб класифікувати, підсумувати, здавати або пропонувати гіпотези, то маленька місцева модель часто належить до правильний вибір, а не економний.
Ось архітектура, яка працює:
┌─────────────────────────────────────────────────────┐
│ DETERMINISTIC LAYER │
│ State machines, queues, validation, storage │
│ (DuckDB, Postgres, Redis, file systems) │
└─────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────┐
│ INTERFACE LAYER │
│ Schema validation, retries, fallbacks │
│ (Polly, FluentValidation, custom guards) │
└─────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────┐
│ PROBABILISTIC LAYER │
│ Classification, summarisation, hypothesis gen │
│ (Ollama, ONNX, small local models) │
└─────────────────────────────────────────────────────┘
LLM знаходиться в знизуВін пропонує: детермінуючі шари позбуваються.
Всі три точки зору - питання, зразок і цей останній принцип - змінюються до одного правила:
Впевненість у тому, що ви виберете помилки, які зможете пережити.
З LLMs, це означає керувати не-детермінізмом через детермінуючі практики:
Малі моделі полегшують це, тому що їхні невдачі гучнийНечинный JSON, размещенный вывод, нарушения схеми. Это подарки, они сразу тебе говорят, что что что-то пошло не так.
Невдача граничної моделі тихийСемемантичний дрейф стає видимим, лише коли клієнт скаржиться або не вдається аудиторій.
Кожного разу я кричу нісенітниці.
© 2026 Scott Galloway — Unlicense — All content and source code on this site is free to use, copy, modify, and sell.