Ймовірність не є системою: Десять заповідей використання LLM

Thursday, 25 December 2025

Я бачу той самий режим невдачі в системах: "AIM SK1електризовані "системи: СМЗ просять виконувати завдання, які ми вже розв 'язали кілька десятиліть тому.

Це не найкращий результат. Це регресія.

І це не "" МСК0 "", це не помилка для новаторів. МСК1 "" Великі компанії у світі роблять такі помилки не тому, що їм бракує таланту, МСК3, а через те, що вони забули, що МСК4, штучний інтелект і МСК5 не звільняють вас від фундаментальних складових програмного забезпечення

Отже, ось він: МСК0 . Не академічний. МСК1 , не продавець. МSK2 , дружній. . . Тільки правила, які зупиняють вас робити щось дурне.

Ось результат: якщо ви слідуєте цим правилам Невеликий локальний LLM, що працює на товарному апараті, стає мультиплікатором сили, коли він займається класифікацією, підсумуванням та створенням гіпотез. МСК3 не прикидається базою даних чи становою машиною. МSK4. Занудливі машини працюють з важкими деталями. .. ЛЛМ працює з нерозбірливими деталами. МСК6. І ви не платите за кожну деталь.

Однією з стійких причин заплутаності є випадкове використання людських термінів для поведінки машини.

ЛЛМ можуть здатися логічними лише тому, що вони декомпресують та відтворюють сліди людського мислення, що вже вбудовані у наші записи.

Мова наповнена “ якщо X, то Y ”, протиправними фактами, процедурамиM SK3 пояснениямиМSK4 виправленнями. МSK5 ми не помічаємо їх як причину, тому що вони нам рідніMSC7 ЛЛМ працюють безпосередньо на цих слідах МСК8 повторюючи їх плавноМСК9 що є потужним М СК10 але не таким же, як мати цільMСК11 наміриM СК12 або агенціюMSК13 Немає внутрішнього прийняття рішення М СК14 творця М SК15 не в змозі вибирати ціль\ М С К16 не підзвітності\ М S К17 Продовження поведінки як агенції - помилка категорії\ МС К18 і проектування систем так, наче вони реальні, це те, як механізми ймовірності просуваються до прийняття рішень щодо виробництва\ МS К19\ творців\ Мс С К20\ Ця помилка не зробить системи розумнішими\ М ס С К22\ вона просто зробить недоліки складнішими для діагностики\ M С С К23\

Це не філософські правила. Це оперативні обмеження, вивчені важко.

I. Ти не дозволятимеш ЛЛМ мати власний штат

Якщо щось має значення, то це живе за межами моделі.

Держава має бути міцною
Попитний
Повторюваність
Прослуховування

Контекстні вікна не зберігаються. Помоги пам 'яті - це не бази даних. Упевненість - це не правда.

II. Ти не дозволяй, щоб ЛЛМ була єдиною причиною побічних ефектів

Якщо повідомлення було відправлено, платіж обробленийM SK1 або прапор перевернутий тільки тому, що модель вирішила, ваша система вже зламана

ЛЛМ можуть запропонувати дії. Детерміністичні системи повинні завдячувати вони.

III. Ви відокремите причинність від розповіді

ЛЛМ чудово пояснюють, що трапилось.

Вони жахливо гарантують, що так і сталося.

Наслідковість належить до коду
Розповідь належить до мови
Ніколи не сплутайте їх.

Якщо ваша система визначає реальність з проза,

IV. Ви маєте використовувати LLM, якщо ймовірність прийнятна

Використовуйте їх для:

класифікація
підсумок
розпізнавання
проектування
створення гіпотези

Зробимо не використовувати їх для:

контроль життєвого циклу
невимінні
замовлення
виявлення завершення
МSK0 це сталося? ?"

V. Ви ніколи не просите LLM вирішити bool, який може бути відтворений

Якщо правило можна написати як:

if X then Y

… це не належить до пропони .

Перехід на державу дешевший, швидший МSK1 безпечніший , яскравішийМSK3 Природний мова - це нічого з цього.

VI. Ти не помиляєшся, що гнучкість - це надійність

ЛЛМ звучить правильно навіть тоді, коли вони неправильні.

Це їхня суперсилия і їхня небезпека.

Сподіваний - це не означає сподіваній .

інструмент запустився
відправлене повідомлення
робота завершена

Сигнали довіри повинні походить з систем, а не реченьM SK1

VII. Ти зробите провал голосним і нудним

Хороші системи провалюються:

експлицитно
спостережно
щоразу

LLM-перша система не працюєM SK1

мовчки
ввічливо
"за незрозумілих причинM SK1

Якщо ви не можете сказати, що сталося,

VIII. Ти змусиш відкидати ЛЛМ до консультанта , не агента

Літакові літери повинні

розповісти
запропонувати
ранг
пояснити
допомагати людям і машини

Вони не повинні

налагодити роботу самостійно
відмітити роботу як завершену
довіряти обов 'язкам

Працівники не працюють на зарплаті Як і LLMs.

IX. Спершу ти збудуєш бурючу машину

черги. Стаціонарні машини. Перехідники. Idempotency. Метрії.

Якщо додати ці після агент провалюється МСК0 ти МSK1 я нічого не дізнався М СК2 ви ' щойно заплатив додаткове навчання

Х. Ти не звалий шари просто тому, що маркетинг каже: МSK1агент МSK2

Заміна двигуна робочого потоку на мікросхему не є спрощенням.

Це прання складності.

Якщо ваші "AI-платформиM SK1 потребують "детермінативних триггерів МSK3, щоб працювати впевнено

Зал enterprise сорому

Це не гіпотези, це справжні невдачі від компаній з мільярдами ресурсів.

Зверніть увагу на шаблон: кожен провал - це LLM, який дозволяє визначити замість реальності інтерпретувати це.

Vivint + Salesforce Agentforce

2.5 мільйони споживачів . Незважаючи на чіткі інструкції для відправлення опитування рівня задоволеності після кожного спілкування з клієнтами МSK2 Вказана інформація що Agentforce іноді не надсилає опитування "за незрозумілих причин

? Vivint працювала з Salesforce, щоб реалізувати

Урок програмного забезпечення: Якщо вам потрібно, щоб щось трапилося кожного разу, використовуйте станову машину або триггер подій Командування II - побічні ефекти потребують детермінативних системM SK1

McDonald's M SK1 IBM Drive-Thru AI

МакДональд ' запустив AI - потужний привод МSK2 у співпраці з IBM по всій території Сполучених Штатів

Урок програмного забезпечення: Це форма з розпізнаванням мовлення. МСК5, а не задаче мислення. МSK6 Командування V:, якщо правило можна написати як if X then Y, це не є МSK1 не належить до пропони МSK2

Чатбот Air Canada

Чатбот Customer Service Air Canada винайшов концепцію тарифів на відпустку, яка не існує "'", ,". Він впевнено сказав покупцеві, що вони можуть забронювати повний МSK3 рейс і подати заявку на ретроактивну скидку. а потім наказом суду на честь галюцинаційного обіцяння

Урок програмного забезпечення: LLM не можуть бути авторитетним джерелом політики. Вони можуть пояснити policy pulled from a document store, but the source of truth must be external and verified . This is Командування I ( - країна, що живе за межами моделі Командування VI (fluency is not reliability ).

Чатбот DPD

Посилання пакетів компанією DPD' customer service chatbot був зламаний розчарованим користувачам в присягати на МСК0 , критикувати компанію "," і писати вірші про те, наскільки непотрібним був DPD

Урок програмного забезпечення: Гвардірейлі не є опційними. Але що важливіше M SK1 якщо ваш чатбот може бути змушений нашкодити вашій власній компанії , ви МSK3 дали йому надто багато широт Командування VIII: demote the LLM to advisor . It should retrieve and summarise, not freestyleM SK3

Chevrolet Dealership ChatGPT

Дилерія Chevrolet вклала ChatGPT у свою веб-сторінку . погодитися продати їм Chevy Tahoe 2024 за $1, написати Python кодM SK1 і замість цього порекомендувати Фордові машини.

Урок програмного забезпечення: Ви не можете закріпити об 'єктивну LLM на транзакційну систему і очікувати, що вона вплине на правила бізнесу. Командування III: причинно-наслідковий зв 'язок належить до коду

База даних виробництва реліктованих агентів Wipes

У липні 2025, Аsystent штучного кодування Replit' went rogue на старті SaaStr. Незважаючи на чіткі інструкції не змінювати код виробництва під час замораживання коду приховані пошкодження через створення 4,000 фальшивих користувачів , вигадування звітів МSK2 і брехню про результати тесту на одиниці МSK3

Відмовлений генеральний директор Амджад Масад знав, що це було "" неприемлемо і ніколи не повинно бути можливим "".

Урок програмного забезпечення: Це не МСК0 , це "-", а МСК2 . Це необмежена влада . МСК3 . Агент штучного інтелекту, який має доступ до виробництва і не має жорстких застережень, врешті-решт зробить щось катастрофічне. МСК4 Справа в тому, що МСК5 не дає кращого стимулу. Командування II і Командування IX: побічні ефекти потребують детермінативних систем , і з boring Machinery є першими

MyCity Chatbot в Нью-Йорку радить про порушення закону

Майкрософт у Нью-Йорку Чатбот MyCity розповів власникам бізнесу вони можуть легально звільнити працівників, які жалуються на сексуальне домагання, та запропонувати їм їжу, яку кусають гризуни. Це все незаконно, згідно з Нью-Йоркським законом.

Чатбот залишається онлайн. Мер Адамс захищав його.

Урок програмного забезпечення: Судебна та політична інструкція не є завданням підсумування. - це МSK1 пошуковий обов 'язок з жорсткими вимогами до правильності. \ .\ LM ніколи не повинен був генерувати правову консультацію, \ МSK3\ Їй слід було відшукати її з перевіреного джерела. Командування IМSK0 держава ( та політика ) живуть за межами моделі МSK3

iTutor Group's штучний інтелект відкидає кандидатів по віку

В компанії 2023,, що займається навчанням, є Grupa iTutor заплатив $365,000, щоб залагодити судову справу після того, як її програмне забезпечення для вербування штучного інтелекту автоматично відкинуло жінок віком 55+ і чоловіків віком

"" Навіть коли технології автоматизують дискримінацію, роботодавець залишається відповідальним "", - сказала Шарлотта Бурроуз, голова ОЕС,

Урок програмного забезпечення: Упередженість в, упередження назовніM SK1 Якщо ваші тренувальні дані кодують дискримінацію , ваша модель буде дискриментувати - з впевненістю і в масштабі Командування IV застосовується до найму: класифікація прийнятна для ЛЛММSK1 але тільки тоді, коли виМСК2 підтвердили те, що саме МСК3 насправді класифікує на МСк4 вік не бувМ СК5 не важлива властивістьM СК6 Система потребувала людського аналізуMСК7 а не автоматизаціїMSК8

Chicago Sun -Times опублікує список галюцинованих книг

У травні 2025, Чикаго Сан видав літній список читачів рекомендуючи книжки, які не існують. - справжні автори приписували підробки, які звучали правдоподібно, але були повністю галюциновані

Урок програмного забезпечення: LLM - це не бази даних. Вони генерують статистично правдоподібний текстМSK1 Якщо вам потрібні фактиM SK2 запитуйте джерело істини Командування VI: гнучкість - це не надійністьM SK1

Чому це важливо

Жодна з цих компаній не компетентна. У них є інженери світового рівня. припускаючи, що через те, що LLM можуть виробляти послідовну мову, їм можна довіряти, що вони вироблять правильне поведінкуM SK1

Продавці продають "AI-агенти " як спосіб відмовитися від нудної роботи МSK2 чергах МSK3 станів государственного управління \ , перевірки \ МSK5 та аудиту . Але ця нудна робота - це те, що робить програмне забезпечення надійним

Як Тор ОлафсурдМSK0 МSK1 Зрозуміння ваших даних і того, що вони вам говорять, важливе. МSK3 Але не менш важливо зрозуміти ваші інструменти.

Кожна з цих помилок була б запобігена фундаментальною програмною інженерією.

Зверніть увагу, що жодна з цих виправок не передбачає кращих моделей:

Непрацездатність	Була б запобігена МSK2
Вивіент не надсилає анкети	Мероприятие МSK2пришвидшений триггер при закриті випадку МSK3
МакДональдM SK1 неправильні замовлення МSK2 Структурована форма замовлення
Жахлива політика Air Canada	Погляньте на неї з авторитетного джерела МSK2
Profanity DPD	Шаблони для відповідейM SK2 не генерація МSK3
Чеві МSK1 автомобіль МSK2 Ніяких LLM в процесі трансакцій
Вимити базу даних, що повторювалися МSK1 ізоляція довкілля МSK2 обмеження прав
Юридичне консультування Нью-Йорка	Перейняття з перевірених документів політики МSK2
вікова дискримінація в інтернеті МSK1 перевірка характеристик МSK2 огляд людини
Жахливий список книг	Попит на базу даних справжньої книги МSK2

Іронія в тому, що ці компанії застосували детерміністичні триггери ", " та structured responses після LLM провалився -, що є лише програмним інженером з додатковими кроками та PR кризою .

Як виглядає право

Зал сорому показує, що відбувається, коли ви ігноруєте ці принципи. Але це не лише теоретичні обмеження. Це основа систем, які насправді працюють.

Це не гіпотетично. Це працює вже в процесі виробництва, включаючи системи, які я збудував.

DiSE: Контролована еволюція з ненадійними богами

І Архітектура DiSE лікує LLM точно так, як їх треба лікувати: недовірливих консультантів яка працює в детермінативному клітці.

Чому структура перевершує сліпоту - LLM запропонує ; штатова машина вирішує МSK2 Кожна дія проходить шляхом перевірки M SK3 кожен транзий записується , кожен поломка відновлюваний
Визначати LLM ненадійними - Модель МSK1Боговий рівень МSK2 потужна, але явно невірна
На підйомнику - Впевнені робочі потоки, де LLM є будівельним матеріалом , не архітектором МSK2

Найголовніша думка: ЛЛМ чудово генерують гіпотези МСК0 Детерміністичні системи чудово їх підтверджують МSK1 DiSE використовує обидві варіанти.

Розпізнавання Bot: LLM як консультантM SK1 Не контролер

І робот-детектор демонструє Командування VIII в практиці:

LLM аналізує поведінкові моделі і пропонує класифікацію
Але визначення рішення отримується від системи оцінки з явною шкалою
Статус живе в базі даних, а не в контекстному окні
Кожне рішення можна перевірити і відтворювати

Ось модель: : використати LLM, МSK1 силу, \ ( розпізнання шаблону, ♪ , \ генерування гіпотези \ МSK4 \ в той же час, як зберігати пригнічую машину. ( \ стан, | МSK6 \ переходи, \МSK7 \ побічні ефекти , МSK8 \ у детерміністичній коді \

Стримана невизначеність: Модель системи управління

І Стриманий візерунок невизначеності формує зв 'язок між можливими та детермінативними компонентами:

Субстрата (fakтиM SK1 feds the Автор: (LLMM SK1 що годує Контренер МSK0validate, rewriteM SK2 budget)
LLM ніколи не володіє станом чи побічними ефектами
Кожен вихід обмежений жорсткими обмеженнями

Частина 2: Конstrained Fuzzy MoM розширює це на багатовимірні-агентні системи, де багато LLM комунікують за допомогою введених сигналівM SK1 не природний язык. Субстрат стає спільним . Констренер стає координатором МSK4 Команди все ще стосуютьсяМSK5

Zero-PII Customer Intelligence

Семанційне розуміння без зберігання ідентичності показує, як використовувати вбудовані додатки та LLM для кращого розпізнавання покупців, зберігаючи небезпечні деталі. (PIIM SK1 переваги

поведінкова пам 'ять LRU

Навчитися ЛРУ - Навіть управління пам 'яттю слідує цим принципам . LLM може допомогти вирішити що щоб пам 'ятати,, але механізм пам 'ять є нудним, надійною политикою виведення кэшуM SK1

Останнє правило: ( те, що має значення

LLM інтерпретують реальність. Їм ніколи не потрібно дозволити її визначити

Використовуйте кожен інструмент для того, що це добре в '

Ми вже розв 'язали стан МСК0 причинно-наслідковий МSK1 і гарантії МКС2 Не зрозумійте цього тільки тому, що демонстрація виглядає розумною

І коли ви зрозумієте це правильно, то станеться щось дивовижне, ви перестанете потребувати дорогих моделей. МСК2 Модель параметрів МСК3 Б, яка працює локально, може класифікувати МSK4 підсумувати , і створювати гіпотези просто чудово. тому що детерміністичні системи навколо неї обробляють все, що насправді має бути правильним Моделі кордону продають вам надійність, яку ви повинні будувати самі.

Збудувати нудну машину. Demote the LLM to advisor. Then watch a tiny model punch way above its weightM SK2

Якщо це здається очевидним, то це означає, що ви вже знаєте, як побудувати надійні системи.