Моя система, DiSE, це самооптимізація, самоконструювання, самоконструювання, проектування програмного забезпечення на основі роботи.
Ні, і розуміння чому має значення, якщо ви будуєте все, що потрібно для виробництва.
"Звучить, що це Вояджер, але з більшою кількістю сходинок."
Справедливо. ви напевно чули про Вояджер Система, яка навчила GPT-4 грати у Mineraft, генеруючи придатний для обміну код - і Передавач інструментів (Schick et al, 2023) - яка навчила LLM використовувати інструменти вимірюючи дійсні результати.
На перший погляд, DiSE (пряма синтетична еволюція) може виглядати як Voyager + Toolrenter з свіжим шаром фарби, але це все одно, що сказати про виробничу базу даних - це просто електронна таблиця з додатковими кроками. Різниця має значення, якщо ви дбаєте про масштаб, вартість і, насправді, доставляєте щось.
Новий в ДіАЕ? Отримати мій рівень ліфту для загальної картинки, потім ознайомтеся з серією "Навіки з DiSE": Частина 2 на випускні програми і Частина 3 на ненадійних LLMНа цій сторінці чітко показано різницю між архітектурою DiSE і Voyager і інструментатором.
Цей допис пояснює, що Voyager and Toolnorger зробили правильно, де вони вступають у обмеження, і чому архітектурний підхід DiSE вирішує проблеми, які неможливо вирішити самостійно.
Два документи з 2023 року змінили наше ставлення до LLM агентів та інструментів:
Вояджер представив важливу думку:
LLM можуть створювати власні придатні для відтворення інструменти.
Замість жорсткого кодування будь- яких дій у Minecraft Voyager використовував GPT- 4 для запису функцій на льоту. Кожна успішна дія стала можливістю, що зберігається у векторній базі даних. Запит був явним:
"Ваша функція буде повторно використана для побудови більш складних функцій. Тому вам слід зробити її типовою і придатною для виконання."
Це було важливо, вперше система агентів сприймала створення інструментів як справжня програмна інженерія Вояджер показав, що агенти можуть:
І це спрацювало, типу, в Minecraft, з GPT-4.
Передавач інструментів (Schick et al, 2023) зробив інший підхід замість створення інструментів, він навчав LLMs коли називати існуючі інструменти.
Розумна частина: інструментодавець створив свої власні навчальні дані.
Це створені моделі, які навчилися використовувати інструмент з об' єктивні результати Замість людської анотації. API калькулятора, який повертає правильну відповідь є кращим, ніж той, який не потрібен - не потрібен вирок LLM.
DiSE робить висновки з обох документів, але спрямовує їх прогалини:
З Вояджера:
За допомогою панелі інструментів:
Родовід ДіЕ:
ВВАЖАЙТЕ, що ДіХТО - це внук реакцій, рефлексії, інструменту донощика і Вояджера.
graph TB
ReAct[ReAct 2022:<br/>Reason + Act<br/>Step-by-step thinking] --> DiSE
Reflexion[Reflexion 2023:<br/>Self-critique loops<br/>Try → Reflect → Retry] --> DiSE
Toolformer[Toolformer 2023:<br/>Learn from outcomes<br/>Self-generated training data] --> DiSE
Voyager[Voyager 2023:<br/>Generate reusable tools<br/>Code as memory] --> DiSE
DiSE[DiSE 2024:<br/>Directed Synthetic Evolution]
DiSE --> G[Generate tools with tests]
DiSE --> E[Evaluate objectively]
DiSE --> M[Mutate and improve]
DiSE --> S[Store with usage stats]
DiSE --> R[Retrieve and reuse]
DiSE --> C[Tiered execution]
style ReAct stroke:#8b5cf6,stroke-width:2px
style Reflexion stroke:#ec4899,stroke-width:2px
style Toolformer stroke:#f59e0b,stroke-width:2px
style Voyager stroke:#ef4444,stroke-width:2px
style DiSE stroke:#10b981,stroke-width:3px
Спадщина:
Що ДіАЕ додає:
Виявлено, що ви можете тренувати моделі використання інструментів за допомогою вимірювань реальних результатів. Доведено, що агенти Voyager можуть будувати власні бібліотеки інструментів. Рефлексія підтвердила роботу петлі відбиття.
DiSE запитує: Що, якщо ми об'єднаємо усі ці розуміння, але зробимо його досить дешевим, щоб працювати в виробництві і достатньо розумним, щоб покращитися з часом?
І так, там також є стрибок архітектури Рой Філдінг - інструменти є потужними ресурсами з адресами, метадані і версіями. Кожен з інструментів є доступним, кешованим і може складатися з інших. Рекорд інструмента - це не просто векторна база даних; це скарбниця, де ресурси (набори) мають стан (сучасні статистичні дані, показники швидкодії, історія версій), яка впливає на те, як вони отримуються і розвиваються.
Это не тренировка, это не поколение одновременно. керована еволюція.
graph TB
subgraph Voyager["Voyager (2023)"]
A[GPT-4] --> B[Generate Code]
B --> C[Execute in Minecraft]
C --> D{Success?}
D -->|Yes| E[Store with embedding]
D -->|No| F[GPT-4 suggests fix]
F --> B
E --> G[Vector DB]
G --> H[Future retrieval]
H --> A
end
style A stroke:#ef4444,stroke-width:3px
style F stroke:#ef4444,stroke-width:3px
note1[All reasoning flows through GPT-4]
note1 -.-> A
Бачите проблему? Кожне рішення - планування, оцінка, усування вад, композиція - проходить через однакову модель границь. Якщо вам потрібно бути кмітливим на кожному кроці, вам слід будь- де скористатися GPT- 4 (або еквівалентом) GPT- 4.
Voyager не просто використовував GPT- 4 для створення коду. Для цього Version було використано GPT- 4 для:
Коли модель все робить, вона має бути блискучою на рівні кордонів кожного разу.
Саме тому "Вояджер" не перевищував масштабу, тому його використання у виробництві коштувало б багато грошей.
Давайте порахуємо серветку. Скажімо, ви хочете запустити систему Voyager для завдань у реальному світі:
Тепер додайте запити на отримання, спроби композиції, цикли для усування вад.
Для порівняння, ось що може коштувати зв'язаний підхід:
♪GPT-4) } ДІСЕ [Тігда] ♪ Відходить ♪ |------|-----------------|---------------|---------| ♪Tryage/routing} $0,05] $0,01 (Llama 3. 1 8B)} 98} Передбачається, що ця програма стане доступною для всіх користувачів світу. {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ > Атмосфера (10%) дорівнює 0,05$0,05 (GPT-4o)} 0%---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | Середнє на завдання | $0.20 | $0.016 | 92% |
Коли ви називаєте цю дорогу модель лише справді складною, економіка кардинально змінюється.
Вояджер, донощик і рефлексія не були марними, вони просто вдарили по технічній та економічній стелі свого моменту.
Три перешкоди заблокували поступ у 2023 році:
Д. д. д. д. д. д. ст. д. д. д. д. д. д. д. д. д. д. д. д. д. д. |-------------------|-------------|--------------------------| ♪ Одна модель повинна була робити все, що завгодно - GPT-4o + QWen + DeepSek + Llama} Локальні в'язки були слабкими або невикористаними, це було дорогою БГЕ / Аркти / MinyLM на споживача ГПУС ♪ No throughd draced} application LM = LLM' LLMs now runs cleanly runningly imumnificately imumerized} ♪
Тому Voyager і інструментатор не можуть розвиватися.
Вони могли б називатися лише моделями або моделями, які б доповнювали вашу увагу. Вони не змогли розповсюдити когнітивну систему. Вони не могли застосувати тиск на вибір.
Вони вирішили "Можем?" питання.
DiSE вирішує "Як ми можемо продовжувати вдосконалюватися?" питання.
Не тому, що я розумніший за Ванг або Шік - але тому, що апаратура, інструменталізація, і економіка нарешті захопились.
Це інженерна проблема. І інженерія - це завжди питання часу.
Ключова ідея, яка лежить в основі DiSE, проста, але глибока:
Структура замінює яскравість.
Замість того, щоб очікувати, що одна модель зробить все ідеально, DiSE поширюватиме проблему через систему оркестрування. тиск, зворотній зв' язок і пам'ять Так що моделі можуть покращувати ітеративний код замість того, щоб генерувати його ідеально при першій спробі.
graph TB
subgraph DiSE["DiSE (Distributed System)"]
A[Triage Agent] -->|Easy| B[Fast Model - Qwen/Llama]
A -->|Hard| C[Strong Model - GPT-4o]
B --> D[Test Suite]
C --> D
D -->|Pass| E[Structured Registry]
D -->|Fail| F{Worth escalating?}
F -->|Yes| G[Optimizer Agent]
F -->|No| H[Mark as failed]
G --> I[Mutation Pipeline]
I --> D
E --> J[RAG with usage stats]
J --> K[Clustering & reranking]
K --> A
end
style D stroke:#10b981,stroke-width:3px
style E stroke:#3b82f6,stroke-width:3px
style K stroke:#8b5cf6,stroke-width:3px
note2[Most tasks never hit expensive models]
note2 -.-> B
Різниця різкою:
"? }Вода ДІСІ |------------|---------|------| Передня програма GPT-4) Д-р Харріс: "Техніка GPT-4" - це тести з вимірами.
Тому що кожен елемент створеного коду вважається артефактом, без негайної відповіді.
Це не судження тим, що "це виглядає добре?" - це судження:
Дешевий LLM (QWen 2. 5 Coder 7B, Llama 3. 1 8B) може створити п' ять варіантів. Тестування вибирає найкраще. Більша модель буде залучена, лише якщо слабші елементи зазнають невдачі.
З часом система дізнається, які моделі є хорошими для якої області визначення. Реалізація семантичного пошуку - Вам не потрібна найбільша модель, якщо ви маєте правильну архітектуру.
Процес вдосконалення стає Еволюція, а не авторегресія.
Скажімо, Ви хочете, щоб Ваш агент реалізував ефективне сортування.
Наближається Вояджер:
Прихід DISE:
Дешева модель може досліджувати простір розв' язку. Тести роблять вибір. Дорога модель буде залучена, лише якщо всі 5 варіантів не матимуть успіху.
Я експериментував з подібними принципами в Система RAG мого блогу і Можливості семантичного інтелекту. Взірець послідовний:
Використовувати найбільшу модель для рішень архітектури, а не виконання.
Коли я збудував пошкоджений обробник посилань зі зворотним семантичним пошуком, я не використовував GPT- 4 для перевірки кожного зв' язку. Система:
Дорогий інтелект знаходиться в дизайні, а не в страті.
Кожна система задає різні запитання:
Запит виробника інструментів:
Чи може LLM вчитися, коли використовувати інструменти вимірювання, який інструмент викликів насправді допомогти?
Вояджер запитує:
Чи може LLM створити повторний код, який допоможе у наступних завданнях?
DiSE запитує:
Чи може система створювати інструменти, об'єктивно оцінювати їх, розвивати їх на основі реальних результатів, і робити все це достатньо ефективно, щоб працювати в виробництві?
Виказано інструменту для створення інструментів Навчання, засноване на результатах, працює. Виявлено Вояджера Створені інструменти можна повторно використовувати. DiSE доводить інструменти можуть розвиватися безперервно без зламу банку.
Інструментатор - це час тренування. Вояджер є flash. DiSE is інфраструктура.
Одна з них показує, що ви можете вчитися з результатів. Одна з програм ви можете створювати інструменти. Інший будує механізм для безперервної еволюції.
Якщо ви будуєте системи LLM з потужністю LLM сьогодні, підхід DiSE пропонує:
Напиши тести, що визначають "роботи," як це роблю я. Міграція кадрів моєї сутності Не потрібно приймати рішення LLM.
Шлях до простих завдань - до дешевих моделей. Зарезервуйте дорогі моделі для справді складних проблем. Ваш гаманець буде вам вдячний.
Зберігати не лише код, але:
Ці метадані стають тренуваннями даних для вашої логіки.
Не сподівайтесь досконалості під час першої спроби. Створюйте варіанти, перевіряйте їх, тримайте переможцями, мутуйте гарні, але не досконалі варіанти.
Ось так я підходжу до розробки цього блогу - публічно прочитую: Вчитися від реального трафіку, покращитись на основі реального використання.
Різниця між Вояджером і ДіАЕ полягає не лише в ціні. те, що відбувається, коли речі зазнають невдачі.
У Вояджері невдача означає:
У ДІСЕ є причини невдачі:
Система отримує Розумніше про те, чого не знає..
Я не думаю, що ми побачимо, як чисті моделі роблять все, що завгодно, що виграє системи виробництва.Економіка не працює, а режими невдач занадто непрозорі.
Натомість, ми побачимо гібридні системи, такі як DiSE:
Ми бачимо цю закономірність усюди:
Магія не в тому, щоб мати одну блискучу модель. правильна модель у відповідний час з контекст праворуч.
Вояджер був маяком, який показував, що агенти можуть вчитися за допомогою створення коду.
Наступний крок не був стимулом, а досягав своїх обмежень.
Наступний крок: штучна еволюція:
DiSE не намагається бути розумнішим одним пострілом. It's trying to be be better on the next стріляв.
Ця різниця полягає в тому, де починається еволюція.
І на відміну від біологічної еволюції, нам не потрібно чекати мільйони років, щоб побачити результати.
Папери:
У цьому блозі:
Інструменти:
© 2026 Scott Galloway — Unlicense — All content and source code on this site is free to use, copy, modify, and sell.