Залежність від поведінки: Як я навчився припинити хвилюватися і любити ймовірністичні системи (Українська (Ukrainian))

Більшість програм все ще припускає, що світ дасть йому чисті вхідні дані та стабільні правила Виготовлення зазвичай не робить ні одного.

Цей пост - це низка речей, які я будую. ДиС, Стримана неясність, CFMoM, Reduced RAG, StyloFlow, Десять заповідей штучного інтелекту, і Стілобот.

Я не зміг' дістатись сюди, розпочавши з грандіозної теорії .. Я дістався сюди, дивлячись на інструменти, які мене цікавили і намагаючись зрозуміти, що вони насправді робили(МSK2). Підсумування.. генерація коду(M SK4). Виведення(MSC5). Видобуток( МSK6). Ранінг.. Як тільки ви перестанете слухати маркетинговий шар(МС8). Більшість корисних не роблять жодної магічної речі(М С 9). Вони збирають частину доказів(M С 10), примушують їх(M S 11) і лише тоді перетворюють їх на відповідь чи дію(М S 12).

Після того, як я збудував достатньо таких систем, я перестав думати про них як про окремі трюки і почав бачити ту ж саму архітектуру під ними.

зібрати слабкі сигнали
зберігати невизначеність
накопичувати докази впродовж часу
дозволити детерміністичному політиці володіти кінцевим кроком

Це суть того, що я маю на увазі під система поведінки.

Це також пояснює, чому ці архітектори добре працюють з кодом LLMs. Не тому, що LLM є "інтелектомM SK2, а тому що система достатньо структурована для перевірки і досить проста для налаштування

Раніше в цій серії:

Проблема МСК0 Динамічні середовища МSK1 Почастий доказ

Більшість виробничих систем досі досягають одного з двох поганих дефолтів:

Додайте більше правил.
Додайте більшу модель.

Обидві можуть працювати деякий час.

Багато реальних систем насправді мають ось це.

flowchart LR
    A[Messy Input] --> B[Partial Signals]
    B --> C[Conflicting Evidence]
    C --> D[Uncertain Interpretation]
    D --> E[Need to Act Anyway]

    style A stroke:#ef4444,stroke-width:2px
    style E stroke:#22c55e,stroke-width:2px

Приклади:

розпізнавання робота
видобуток
системи ради
сегментація аудиторії
відлік fraud
адаптивні маршрути робочого потоку

У цих доменах, МСК0, ви рідко отримуєте один вирішальний факт. МСК1, ви отримуєте фрагменти, МSK2, які є корисними, МСК3, які шумні, М СК4, які активно обманюють, M СК5

Ось чому я й далі повертаюсь до сигналів, обмеженьM SK1 і спостережливості.

Якщо ви хочете покращити систему, то маєте бачити, що вона спостерігала, що вірила, що робила, і чому вона діяла. Якщо це залишиться захороненим в заплутаних шляхах коду, то налаштування стає припущенням. Якщо воно є яскравим, то його можна насправді направду покращити.

DiSE: Архітектура під впливом вибору

Важливий крок ДиС не було "запустити код змін LLMM SK1 Це було так.

сприймати архітектуру як щось, що може виникнути під впливом відбору.

DiSE переробляє програмне забезпечення з "будуватиM SK1 корабель , патч" до МSK4 сприйняття МSK5 оцінки М SK6 мутації МСК7 вибір М СК8

flowchart LR
    subgraph Traditional["Traditional Software"]
        T1[Build] --> T2[Ship] --> T3[Patch]
    end

    subgraph DiSE["DiSE"]
        D1[Perceive] --> D2[Evaluate]
        D2 --> D3[Mutate]
        D3 --> D4[Select]
        D4 --> D1
    end

    style Traditional stroke:#ef4444,stroke-width:2px
    style DiSE stroke:#22c55e,stroke-width:2px

Це важливо, тому що в багатьох системах ви не знаєте заздалегідь:

які детектори будуть мати значення
які комбінації доказів підтримують
які ліміти виживають від реального руху
які дорогі компоненти варті запуску

Отже, система потребує місця для дослідження.

Але лише дослідження недостатньо. Ви можете перетворити свій шлях на безглуздо так само легко, як і на щось корисние.

Стримана невизначеність: Тримай стіни

Стримана неясність це контрольний шар, який зупиняє перетворення всього на гриб

Правило просте:

ймовірністичні компоненти можуть запропонувати; детермінативни системи вирішуютьM SK1

flowchart TB
    I[Input] --> S[Deterministic Substrate]
    S --> P[Fuzzy Proposer]
    P --> C{Constrainer}
    C -->|Pass| O[Output]
    C -->|Partial| R[Rewrite / Hedge]
    C -->|Fail| F[Fallback]
    S -.evidence.-> C

    style S stroke:#22c55e,stroke-width:3px
    style P stroke:#f59e0b,stroke-width:3px
    style C stroke:#ef4444,stroke-width:3px

DiSE каже: "" МСК0, досліджуйте, МСК1, обмежена невизначеність каже: МSK2, всередині цих кордонів, ." "".

Без цих кордонів системи вірогідності роблять те, що завжди роблять

переборка
дрейф
приховати непевність за плавним результатом
ставати навантаженням в місцях, які їм ніколи не потрібні

Ось чому Десять заповідей штучного інтелекту справа. МSK1 ЛЛМ не мають права на державуM SK2 | | МSK3 ЛМ не є єдиною причиною побічних ефектів МSK4 впливів ", і | " Ніколи не просити ЛМ вирішити виводимий бооловий МСК7 це не нотатки стилю М СК8 Це правила управління системами, які потребують виживання з виробництва M СК9

Те ж саме трапляється всюди:

в RAG, модель синтезує, але не володіє зберіганням чи фільтруванням
в зображеннях. МСК0. Моделі візуалізації запропонують субтитри, але обчислені факти їх обмежують
в Bot Detection, детектори випускають докази, але політика володіє діями
в робочих потоках, компоненти emitують сигнали, але оркестрування має ескалацію та побічні ефекти

flowchart LR
    A[DiSE<br/>Search and Selection] --> B[Constrained Fuzziness<br/>Bounded Proposal]
    B --> C[Behavioural Inference<br/>Evidence Over Time]

    style A stroke:#3b82f6,stroke-width:2px
    style B stroke:#f59e0b,stroke-width:2px
    style C stroke:#22c55e,stroke-width:2px

Якщо поєднати ці дві ідеї, ми отримаємо практичну модель.

Сигнали: Реальний примітив

Ось де Reduced RAG, StyloFlow, і сигнал МSK1, які працюють в рамках контракту CFMoM всі лінії

Як тільки ви перестанете прикидатися, що одна модель чи одна правила двигуна повинна робити все , корисна конструкція pryмітив стає сигнал.

Хороший сигнал - МСК0 .

дешево обчислювати
складні
достатньо специфічних, щоб мати значення
перевірятиму
корисна під час невизначеності

Найголовніше - це те, що сигнал - це стиснена поведінка. Це не весь світ. Це частина, яку ви можете зберегти.

flowchart LR
    R[Raw Reality] --> X[Extraction]
    X --> S1[Signal]
    X --> S2[Evidence Pointer]
    X --> S3[Confidence]
    S1 --> A[Accumulation]
    S2 --> A
    S3 --> A
    A --> I[Inference]

    style R stroke:#64748b,stroke-width:2px
    style A stroke:#3b82f6,stroke-width:2px
    style I stroke:#22c55e,stroke-width:2px

Різні домени emitують різні сигнали:

деtekція робота: ентропія часу , неможливі комбінації заголовків МSK2 TLSM SK3 неправильні HTTP співпадіння
видобуток dokumentu: близькість до поляM SK1 надійність OCR, регулярність tabelі , щільність об 'єктівMSC4 послідовністьレイアウトу сторінки
системи рекомендації
системи робочого потоку : ретриси, піки затримувань МSK2 викид キャッシュа M SK3 розбіжність маршрутів , погіршення довіру

Сигнали дають змогу перейти від "модель думає " до МSK2система має докази МSK3

Це рух назад Reduced RAG: витягує сигнали замість наповнення більшими контекстними вікнами Це також перехід в StyloFlow: координати навколо випромінених фактів , не прозорі сигнали компоненту M SK2

Після того, як сигнали є експлицивними, ви можете задати кращі інженерні питанняM SK1

які насправді спричиняють прийняття рішень?
які шумні?
де ми стоїмо надто рано?
які ліміти занадто консервативні?
які закономірності співвідносяться з хибними позитивними показниками?
Який новий детектор належить?

Це різниця між надсиланням функції і налаштуванням машини.

Система поведінковоїferencії

Традиційні системи часто виглядають так:

Rules -> Decisions

Системи поведінки більше схожі на це:

Signals -> Evidence accumulation -> Behaviour inference -> Deterministic action

flowchart TD
    subgraph Old["Old Shape"]
        O1[Rules] --> O2[Decision]
    end

    subgraph New["Behavioural Inference Shape"]
        N1[Signals]
        N2[Evidence Accumulation]
        N3[Inference]
        N4[Policy Action]
        N1 --> N2 --> N3 --> N4
    end

    style Old stroke:#ef4444,stroke-width:2px
    style New stroke:#22c55e,stroke-width:2px

Що ці системи стверджують?

намір
аномалія
категорії
структура
координація
дрейф

Зазвичай, не маючи жодного ідеального факту

Зазвичай поведінку легше вигадати, ніж ідентичність. МСК0 Це важливо для приватності. МSK1 збереження систем та протилежних систем. . Ви, можливо, не знаєте точно, хто щось таке, але часто можете сказати, який тип поведінки воно належить до.

Це достатньо для того, щоб визначити напрямок\ ,\ throttle,\ challenge\ M SK2\ cluster\ ,\ prioritизувати\ МSK4\ або ескалізувати\ MSC5\

Це також робить ці системи хорошим підходом для коду LLMs. Вони краще справляються, коли система дає їм

чітко визначені межі
спостереження за змінами стану
вимірювані результати
місцеві підлаштовані поверхні
повторювані цикли оцінки

Система поведінкового висновку виявляє ці речі природно.

Сталобот як система поведінковоїferencії

Корпус Stylobot 2 є, мабуть, найяскравішим конкретним прикладом до цього часу.

Стілобот - це не просто купка детекторів. Це сукупність поведінкових висновківM SK1

flowchart LR
    R[Request] --> D[Detector Signals]
    D --> E[Evidence Aggregation]
    E --> T[Signature + Temporal Context]
    T --> I[Behaviour Inference]
    I --> P[Probability + Confidence + Risk]
    P --> A[Policy Action]
    A --> F[Response Feedback]
    F --> D

    style D stroke:#3b82f6,stroke-width:2px
    style T stroke:#8b5cf6,stroke-width:2px
    style P stroke:#f59e0b,stroke-width:2px
    style A stroke:#22c55e,stroke-width:2px

Декілька речей в цій ланцюзі походять безпосередньо з попередньої роботи.

1. Лаyer детектора має форму DiSE

Ніхто не вважає, що одного детектора достатньо.

Це не повна автономна еволюція, але це той самий інстинкт, архітектура очищена під тиском.

2. Політична поверхня обмежена неясністю

Сталобот розділяє ймовірність і впевненість, але дія детерміністична.

Allow
Throttle
Challenge
Block

Докази можуть бути спантеличені. Контрольні поверхні неможливіM SK1

3. Модель підпису створює поведінкову пам 'ять

Замість того, щоб зменшити відвідувач до одного IP або одного користувача, Stylobot створює мультипліковий ’ - ’ векторний підпис і причини протягом часу.

Це вже не проста класифікація. Це пам 'ять про поведінкуM SK1

4. Інференція та насильство - окремі

Велика ймовірність з низькою впевненістю не повинна викликати таку ж реакцію, як і велика ймовірність із високою впевненістю.

Система зберігає незрозуміленість доки не буде достатньо доказів, щоб виправдати сильніший крок.

5. Обсервабельність робить його зручним

Stylobot розроблений таким чином, що ви можете перевірити майже кожну важливу частину шляху до прийняття рішень:

які детектори
які сигнали були випущені
які факти накопичувалися
які характеристики підпису співпадають?
чому довіра рухається
де відбувся ранній вихід
яка межа політики спричинила дію

Це робить його чутливим двигуном, а не чорною коробкою.

flowchart TD
    S1[Observable Signals] --> S2[Compare Outcomes]
    S2 --> S3[Tune Thresholds / Weights / Waves]
    S3 --> S4[Re-run on Traffic]
    S4 --> S5[Observe Drift / Improvement]
    S5 --> S1

    style S1 stroke:#3b82f6,stroke-width:2px
    style S3 stroke:#f59e0b,stroke-width:2px
    style S5 stroke:#22c55e,stroke-width:2px

Ця петля - це саме те місце, де LLM допомагають.

додавати або покращити детектори
запропонувати перевірки сигналів
пороги музики
реструктуризація замовлення хвиль
будувати діагностику навколо хибних позитивних та недоліків

Це працює лише тому, що архітектура достатньо помітна для підтримки налаштування з самого початку.

Чому LLM-код має значення

Полезна зміна не в тому, що "LLM тепер можуть написати програмне забезпечення ." Ця лінія стала нудною майже миттєво МSK2

Важливо те, що коди LLM роблять дослідження дешевшим

RAG було опубліковано в травні 2020. Перетягування , вбудова пошуку M SK2 видобуток сигналів МSK3 і пакети доказів - це не нові ідеї . Що змінилося, це вартість повторюваності на них MSC5 Колись було дорого намалювати двадцять кандидатів на детектори МСК6 зграї для оцінки дротів М СК7 перевіряти покрытие сигналів M СК8 та підлаштовувати пороги MСК9 Більшість команд будували б один дизайн MSК10 відправляли його на корабель, М С К11 і жили б з будь-якими кутами, які вони розрізали М S К12

Коди LLM змінили економіку цієї петлі.

Вони допоможуть вам створити прототип

детектори
трансформує
контракти
оцінювачі
рейтингові системи
синтетичні тести
діагностичні погляди
підпорядковування

flowchart LR
    A[Human Hypothesis] --> B[Code LLM Acceleration]
    B --> C[More Candidate Signals]
    C --> D[More Evaluation]
    D --> E[Better Selection Pressure]
    E --> F[Stronger Inference System]

    style B stroke:#8b5cf6,stroke-width:2px
    style F stroke:#22c55e,stroke-width:2px

LLM не обов 'язково має бути вирішителем, щоб бути стратегічно корисним.

Але ранішешні правила досі стосувалися.

LLM не володіє штатом
LLM не має побічних ефектів
ЛЛМ не зможе перевизначати правду
детермінативний субстрат залишається субстратом

Так, так. Коди LLM мають значення. Вони мають значення тому, що вони пришвидшують пошук і налаштування. МSK2 - не тому, щоб вони зняли потребу в архітектурі.

Лінія через - через інші системи

Те ж саме зразок постійно з 'являється.

Reduced RAG

В Reduced RAG, ви виділяєте детермінативні сигнали під час вживання , зберігаєте докази окремо МSK2 і дозволяєте LLM синтезувати з обмеженого пакету доказів

Не " дати моделі все і сподіватись ." спочатку видобути МSK2 обмежити поверхню M SK3 і синтезувати з доказів .

lucidRAG

Там, де Stylobot визначає поведінку з żądaнь протягом часу, lucidRAG випливає з мультимодальних доказів: структура dokumentuM SK1 надійність OCRМSK2 графи об 'єктівМ SK3 рейтингові сигнали, якість джерела інформації МSK5 відокремлення .

Різний підґрунт. Схожа формаM SK1

flowchart LR
    subgraph Stylobot["Stylobot"]
        SB1[Request Signals]
        SB2[Temporal Evidence]
        SB3[Behaviour Inference]
        SB4[Policy Action]
        SB1 --> SB2 --> SB3 --> SB4
    end

    subgraph LucidRAG["lucidRAG"]
        LR1[Content Signals]
        LR2[Evidence + Retrieval]
        LR3[Meaning Inference]
        LR4[Bounded Synthesis]
        LR1 --> LR2 --> LR3 --> LR4
    end

    style Stylobot stroke:#3b82f6,stroke-width:2px
    style LucidRAG stroke:#22c55e,stroke-width:2px

Ни одна з них насправді не є "app." Обидві - це припущення, які працюють над різними вхідних сигналами

CFMoM

В Обмежений фузій МСМ, численні можливий компоненти можуть запропонувати ,, але вони комунікують за допомогою надрукованих сигналів і детерміністична логіка вирішує, що виживає

Це багатомодельна координація, не переставляючи контролювати

Перетягування контексту

В Перетягування обмеженого неясного контексту, система зберігає обмежену пам 'ять і зберігає частини контексту, які мають значення досить довго для подальшої інтерпретації

Інференція потребує часу. Перетягування контексту робить час доступним, не дозволяючи пам 'яті рости без прив' язаності

StyloFlow

В StyloFlow, компоненти не телефонують одна до одної напряму . Вони emitують сигнали МSK2, а оркестр реагує на ці сигнали і на їх впевненість

Це поведінкові висновки, що застосовуються до інфраструктури робочого потоку.

"Системи поведінкового висновку " - кращий парасольник, ніж МSK2агентні системи МSK3 чи M"LLM-приложения МСК5 Він описує архітектуру замість маркетингу

Правила дизайну

Якби мені довелося стиснути цілу лінію на кілька правил:

Не заплутайте потоковий вихід з системними знаннями.
Витягувати сигнали на ранній стадії.
Утримувати непевність довше, ніж зручно
Залишити дії детерміністичними навіть тоді, коли припущення є можливими.
Поміщайте набірники доказів, не лише підсумкиM SK1
Дозвольте компонентам запропонувати
Поводити час як частину правди.
Використовуйте LLM, щоб дослідити простір дизайну, не замінити архітектуру.
Збудувати щось, що можна налаштувати як двигун, не просто налаштовувати як додаток.

нормативна версія цих правил: Десять заповідей штучного інтелекту. Ця стаття - це архітектура.

flowchart LR
    A[Ten Commandments] --> B[Architectural Constraints]
    B --> C[Behavioural Inference Systems]
    C --> D[Tuneable Engines]

    style A stroke:#8b5cf6,stroke-width:2px
    style B stroke:#ef4444,stroke-width:2px
    style C stroke:#22c55e,stroke-width:2px
    style D stroke:#3b82f6,stroke-width:2px

mindmap
  root((Behavioural Inference))
    DiSE
      Search
      Mutation
      Selection
    Constrained Fuzziness
      Substrate
      Proposer
      Constrainer
    Signals
      Evidence
      Confidence
      Provenance
    Time
      Memory
      Drift
      Temporal Context
    Action
      Policy
      Thresholds
      Deterministic Boundaries

Чому це важливо

ШІ-системи, які виживають від виробництва, зазвичай не є гігантськими автономними пульсами. Вони також не нескінченні купи правил.

Це системи, які

зібрати вузькі сигнали
накопичувати докази впродовж часу
зберігати двозначність чесно
визначати детермінативні контрольні поверхні
залишатися достатньо доступними для того, щоб розвиватися

Це кращий матеріал для інженерії, ніж "" МСК0 "". Модель стала розумнішою.

Моделі покращать стан речей. ЧудовоM SK1 Архітектура досі вирішує, чи система здатна розв 'язати непогані проблеми , надійна для аудиту МSK3 дешева для запуску MSC4 безпечна для розвитку , і надійна під натиском противників

Системи поведінки сприймають ці обмеження серйозно.

Закінчується думка

Погляньмо на минуле і побачимо, що ця родина очевидна.

flowchart LR
    D[DiSE<br/>Explore and Select] --> CF[Constrained Fuzziness<br/>Bound the Uncertain]
    CF --> BI[Behavioural Inference Systems<br/>Infer from Weak Signals]
    BI --> ST[Stylobot / Reduced RAG / StyloFlow<br/>Working Architectures]

    style D stroke:#3b82f6,stroke-width:2px
    style CF stroke:#f59e0b,stroke-width:2px
    style BI stroke:#22c55e,stroke-width:2px
    style ST stroke:#8b5cf6,stroke-width:2px

DiSE дав мені можливість подумати про архітектурний пошук. Стримана невизначеність дала мені можливість зберігати ймовірнісні компоненти всередині чітких кордонів. Звичайні системи висновків - це те, що ви отримуєте, коли ці ідеї змушені вижити з виробництва.

Stylobot - це лише теперішній приклад.

Як тільки ви починаєте бачити системи як накопичувачі доказів з детерміністичними руховими поверхностями, багато сучасних програм перестає виглядати так само, як МСК1 ШІ характеристики " і починає виглядати, як одна і та сама модель в різних галузях