"Не лише Вояджер"? (Українська (Ukrainian))

Моя система, DiSE, це самооптимізація, самоконструювання, самоконструювання, проектування програмного забезпечення на основі роботи.

Ні, і розуміння чому має значення, якщо ви будуєте все, що потрібно для виробництва.

Вступ

"Звучить, що це Вояджер, але з більшою кількістю сходинок."

Справедливо. ви напевно чули про Вояджер Система, яка навчила GPT-4 грати у Mineraft, генеруючи придатний для обміну код - і Передавач інструментів (Schick et al, 2023) - яка навчила LLM використовувати інструменти вимірюючи дійсні результати.

На перший погляд, DiSE (пряма синтетична еволюція) може виглядати як Voyager + Toolrenter з свіжим шаром фарби, але це все одно, що сказати про виробничу базу даних - це просто електронна таблиця з додатковими кроками. Різниця має значення, якщо ви дбаєте про масштаб, вартість і, насправді, доставляєте щось.

Новий в ДіАЕ? Отримати мій рівень ліфту для загальної картинки, потім ознайомтеся з серією "Навіки з DiSE": Частина 2 на випускні програми і Частина 3 на ненадійних LLMНа цій сторінці чітко показано різницю між архітектурою DiSE і Voyager і інструментатором.

Цей допис пояснює, що Voyager and Toolnorger зробили правильно, де вони вступають у обмеження, і чому архітектурний підхід DiSE вирішує проблеми, які неможливо вирішити самостійно.

Що добре зробив Вояджер і його попередник

Два документи з 2023 року змінили наше ставлення до LLM агентів та інструментів:

Voyager: Агенти можуть створювати засоби

Вояджер представив важливу думку:

LLM можуть створювати власні придатні для відтворення інструменти.

Замість жорсткого кодування будь- яких дій у Minecraft Voyager використовував GPT- 4 для запису функцій на льоту. Кожна успішна дія стала можливістю, що зберігається у векторній базі даних. Запит був явним:

"Ваша функція буде повторно використана для побудови більш складних функцій. Тому вам слід зробити її типовою і придатною для виконання."

Це було важливо, вперше система агентів сприймала створення інструментів як справжня програмна інженерія Вояджер показав, що агенти можуть:

Побудова чимраз більшої бібліотеки навичок з часом
Завершіть прості навички у складній поведінці
Уникайте катастрофічних забуття через вбудовування

І це спрацювало, типу, в Minecraft, з GPT-4.

Утиліта: агенти можуть навчитися користуватися засобами

Передавач інструментів (Schick et al, 2023) зробив інший підхід замість створення інструментів, він навчав LLMs коли називати існуючі інструменти.

Розумна частина: інструментодавець створив свої власні навчальні дані.

Вставити потенційні інструменти виклики в текст ("можливо, я повинен використовувати калькулятор тут?")
Виконати ці інструменти
Тримайте приклади, де інструменти допомогли, відкиньте те, чого вони не робили
Налаштовування на успішні приклади

Це створені моделі, які навчилися використовувати інструмент з об' єктивні результати Замість людської анотації. API калькулятора, який повертає правильну відповідь є кращим, ніж той, який не потрібен - не потрібен вирок LLM.

Як DiSE з'єднує обидва (І йде далі)

DiSE робить висновки з обох документів, але спрямовує їх прогалини:

З Вояджера:

Речові пам'ятки коду
ведьми для будущего получения.
ведь добавляет: "Это работает в шахте"?
♫ Але додати: Models замість GPT-4 для всього
♫ Але додає: мутація і еволюція, а не тільки зберігання.

За допомогою панелі інструментів:

▸ Вчитись від об'єктивних результатів.
Доступні дані автоматично
Д-р Харріс: "Але додається: "Теорія виконання," а не просто навчання-час навчання."
Створіть самі інструменти, а не навчайтеся їх називати.
♫ Але додати: можна поліпшити повний життєвий цикл - інструменти, а не тільки вживати їх.

Родовід ДіЕ:

ВВАЖАЙТЕ, що ДіХТО - це внук реакцій, рефлексії, інструменту донощика і Вояджера.

graph TB
    ReAct[ReAct 2022:<br/>Reason + Act<br/>Step-by-step thinking] --> DiSE
    Reflexion[Reflexion 2023:<br/>Self-critique loops<br/>Try → Reflect → Retry] --> DiSE
    Toolformer[Toolformer 2023:<br/>Learn from outcomes<br/>Self-generated training data] --> DiSE
    Voyager[Voyager 2023:<br/>Generate reusable tools<br/>Code as memory] --> DiSE

    DiSE[DiSE 2024:<br/>Directed Synthetic Evolution]

    DiSE --> G[Generate tools with tests]
    DiSE --> E[Evaluate objectively]
    DiSE --> M[Mutate and improve]
    DiSE --> S[Store with usage stats]
    DiSE --> R[Retrieve and reuse]
    DiSE --> C[Tiered execution]

    style ReAct stroke:#8b5cf6,stroke-width:2px
    style Reflexion stroke:#ec4899,stroke-width:2px
    style Toolformer stroke:#f59e0b,stroke-width:2px
    style Voyager stroke:#ef4444,stroke-width:2px
    style DiSE stroke:#10b981,stroke-width:3px

Спадщина:

РеАКConstellation name (optional) → Структурована аргументація з циклами керування діями
Рефлексія → Самоперевірка через відображення (але сам LLM судить)
Передавач інструментів → Вчися від реальних результатів, а не просто прохань
Вояджер → Створювати і зберігати речові дефекти коду

Що ДіАЕ додає:

Програма для тестування (не самовизначення LLM)
Еволюція виконання (не просто час тренування)
Виправлена модель виконання (cheap → дорого коштує, лише якщо потрібно)
Повний життєвий цикл (Породження → мутація → спадок → смерть)
Цикл оптимізації вартості
Реєстр дійових інструментів (частина архітектури Fielding - інструменти, які можна адресувати до ресурсів зі штатом)

Виявлено, що ви можете тренувати моделі використання інструментів за допомогою вимірювань реальних результатів. Доведено, що агенти Voyager можуть будувати власні бібліотеки інструментів. Рефлексія підтвердила роботу петлі відбиття.

DiSE запитує: Що, якщо ми об'єднаємо усі ці розуміння, але зробимо його досить дешевим, щоб працювати в виробництві і достатньо розумним, щоб покращитися з часом?

І так, там також є стрибок архітектури Рой Філдінг - інструменти є потужними ресурсами з адресами, метадані і версіями. Кожен з інструментів є доступним, кешованим і може складатися з інших. Рекорд інструмента - це не просто векторна база даних; це скарбниця, де ресурси (набори) мають стан (сучасні статистичні дані, показники швидкодії, історія версій), яка впливає на те, як вони отримуються і розвиваються.

Это не тренировка, это не поколение одновременно. керована еволюція.

Архітектура Вояджера

graph TB
    subgraph Voyager["Voyager (2023)"]
        A[GPT-4] --> B[Generate Code]
        B --> C[Execute in Minecraft]
        C --> D{Success?}
        D -->|Yes| E[Store with embedding]
        D -->|No| F[GPT-4 suggests fix]
        F --> B
        E --> G[Vector DB]
        G --> H[Future retrieval]
        H --> A
    end

    style A stroke:#ef4444,stroke-width:3px
    style F stroke:#ef4444,stroke-width:3px

    note1[All reasoning flows through GPT-4]
    note1 -.-> A

Бачите проблему? Кожне рішення - планування, оцінка, усування вад, композиція - проходить через однакову модель границь. Якщо вам потрібно бути кмітливим на кожному кроці, вам слід будь- де скористатися GPT- 4 (або еквівалентом) GPT- 4.

Що сталося з Вояджером

Voyager не просто використовував GPT- 4 для створення коду. Для цього Version було використано GPT- 4 для:

Планування - Розбити цілі високого рівня у підзадачі
Оцінка - Отклоняю, если умение сработало правильно.
Декомпозиція - Вириваю з яких існуючих навичок об'єднати
Називання - Створення описових ідентифікаторів для зберігання
Вибір - Вибирайте потрібні навички з вбудовування.
Судження про якість - Отклоняет то, что "достаточно"

Коли модель все робить, вона має бути блискучою на рівні кордонів кожного разу.

Саме тому "Вояджер" не перевищував масштабу, тому його використання у виробництві коштувало б багато грошей.

Проблема кошту

Давайте порахуємо серветку. Скажімо, ви хочете запустити систему Voyager для завдань у реальному світі:

GPT- 4 Turbo: ~ $0. 01 на 1K вводних маркерів, ~ $0. 03 на 1K
Типове створення вправ: ~2K input + 1K вивід = $0.05
100 навичок з трьома спробами спроб кожного = ~300 викликів = $15
Це просто початкова бібліотека бібліотеки.

Тепер додайте запити на отримання, спроби композиції, цикли для усування вад.

Для порівняння, ось що може коштувати зв'язаний підхід:

♪GPT-4) } ДІСЕ [Тігда] ♪ Відходить ♪ |------|-----------------|---------------|---------| ♪Tryage/routing} $0,05] $0,01 (Llama 3. 1 8B)} 98} Передбачається, що ця програма стане доступною для всіх користувачів світу. {\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ > Атмосфера (10%) дорівнює 0,05$0,05 (GPT-4o)} 0%---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | Середнє на завдання | $0.20 | $0.016 | 92% |

Коли ви називаєте цю дорогу модель лише справді складною, економіка кардинально змінюється.

Чому не було можливо в 2023 р. (Але тепер є)

Вояджер, донощик і рефлексія не були марними, вони просто вдарили по технічній та економічній стелі свого моменту.

Три перешкоди заблокували поступ у 2023 році:

Д. д. д. д. д. д. ст. д. д. д. д. д. д. д. д. д. д. д. д. д. д. |-------------------|-------------|--------------------------| ♪ Одна модель повинна була робити все, що завгодно - GPT-4o + QWen + DeepSek + Llama} Локальні в'язки були слабкими або невикористаними, це було дорогою БГЕ / Аркти / MinyLM на споживача ГПУС ♪ No throughd draced} application LM = LLM' LLMs now runs cleanly runningly imumnificately imumerized} ♪

Тому Voyager і інструментатор не можуть розвиватися.

Вони могли б називатися лише моделями або моделями, які б доповнювали вашу увагу. Вони не змогли розповсюдити когнітивну систему. Вони не могли застосувати тиск на вибір.

Вони вирішили "Можем?" питання.

DiSE вирішує "Як ми можемо продовжувати вдосконалюватися?" питання.

Не тому, що я розумніший за Ванг або Шік - але тому, що апаратура, інструменталізація, і економіка нарешті захопились.

Це інженерна проблема. І інженерія - це завжди питання часу.

Основна відмінність ДиСЕ

Ключова ідея, яка лежить в основі DiSE, проста, але глибока:

Структура замінює яскравість.

Замість того, щоб очікувати, що одна модель зробить все ідеально, DiSE поширюватиме проблему через систему оркестрування. тиск, зворотній зв' язок і пам'ять Так що моделі можуть покращувати ітеративний код замість того, щоб генерувати його ідеально при першій спробі.

Архітектура DiSE

graph TB
    subgraph DiSE["DiSE (Distributed System)"]
        A[Triage Agent] -->|Easy| B[Fast Model - Qwen/Llama]
        A -->|Hard| C[Strong Model - GPT-4o]

        B --> D[Test Suite]
        C --> D

        D -->|Pass| E[Structured Registry]
        D -->|Fail| F{Worth escalating?}

        F -->|Yes| G[Optimizer Agent]
        F -->|No| H[Mark as failed]

        G --> I[Mutation Pipeline]
        I --> D

        E --> J[RAG with usage stats]
        J --> K[Clustering & reranking]
        K --> A
    end

    style D stroke:#10b981,stroke-width:3px
    style E stroke:#3b82f6,stroke-width:3px
    style K stroke:#8b5cf6,stroke-width:3px

    note2[Most tasks never hit expensive models]
    note2 -.-> B

Різниця різкою:

"? }Вода ДІСІ |------------|---------|------| Передня програма GPT-4) Д-р Харріс: "Техніка GPT-4" - це тести з вимірами.

Тег + використання статистики Д. д. д. д. д. д. д. д. д. д. д. д. д. д. д. ♪ Передбачається, що це буде кінцева дата. custom control} None't pastitation + failed логіка повернення ♪

Чому DiSE не потребує GPT- 4 (більша частина часу)

Тому що кожен елемент створеного коду вважається артефактом, без негайної відповіді.

Це не судження тим, що "це виглядає добре?" - це судження:

Він біжить?
Він вирішує завдання?
Це швидше, ніж раніше?
Это проходит через тест-компанию?

Дешевий LLM (QWen 2. 5 Coder 7B, Llama 3. 1 8B) може створити п' ять варіантів. Тестування вибирає найкраще. Більша модель буде залучена, лише якщо слабші елементи зазнають невдачі.

З часом система дізнається, які моделі є хорошими для якої області визначення. Реалізація семантичного пошуку - Вам не потрібна найбільша модель, якщо ви маєте правильну архітектуру.

Процес вдосконалення стає Еволюція, а не авторегресія.

Справжній приклад: впорядкування алгоритмів

Скажімо, Ви хочете, щоб Ваш агент реалізував ефективне сортування.

Наближається Вояджер:

GPT- 4 створює швидкохідну реалізацію
GPT- 4 обчислюється, якщо " виглядає правильно"
GPT- 4 запускає його у середовищі
Якщо спроба зазнає невдачі, GPT- 4 пропонує виправлення
Вартість: ~0.20- 0. 30 за спробу

Прихід DISE:

Triage: "просте впорядкування" → До загальної краватки
QWen 2. 5 Coder 7B створює 5 варіантів (QuickSort, ConsoleSort, HeapSort, visions)
Комплекс тестів запускає всі 5 проти:
- Перевірка коректності (скорочені вихідні дані, стабільність, кількість ребер)
- Позначки швидкодії (час, пам' ять)
- Статичний аналіз (комплекс, якість коду)
Найкращий варіант застосування входить до реєстру з вимірами
Вартість: ~0. 002- 0. 005
Майбутні запити для " sorting " отримують цю перевірену реалізацію
Якщо пізніше хтось потребує " стабільного впорядкування ," оптимізатор може змінювати існуючий код замість початку з нуля

Дешева модель може досліджувати простір розв' язку. Тести роблять вибір. Дорога модель буде залучена, лише якщо всі 5 варіантів не матимуть успіху.

Що це означає на практиці

Я експериментував з подібними принципами в Система RAG мого блогу і Можливості семантичного інтелекту. Взірець послідовний:

Використовувати найбільшу модель для рішень архітектури, а не виконання.

Коли я збудував пошкоджений обробник посилань зі зворотним семантичним пошуком, я не використовував GPT- 4 для перевірки кожного зв' язку. Система:

Використовувати прості запити HEAD для перевірки коректності посилання (без LLM)
Переводить назад до семантичного пошуку під час розриву зв' язку (у моделі ONNX)
Включає лише LLM, якщо семантичний пошук невдалий (дуже потрібний)

Дорогий інтелект знаходиться в дизайні, а не в страті.

Головне питання

Кожна система задає різні запитання:

Запит виробника інструментів:

Чи може LLM вчитися, коли використовувати інструменти вимірювання, який інструмент викликів насправді допомогти?

Вояджер запитує:

Чи може LLM створити повторний код, який допоможе у наступних завданнях?

DiSE запитує:

Чи може система створювати інструменти, об'єктивно оцінювати їх, розвивати їх на основі реальних результатів, і робити все це достатньо ефективно, щоб працювати в виробництві?

Виказано інструменту для створення інструментів Навчання, засноване на результатах, працює. Виявлено Вояджера Створені інструменти можна повторно використовувати. DiSE доводить інструменти можуть розвиватися безперервно без зламу банку.

Інструментатор - це час тренування. Вояджер є flash. DiSE is інфраструктура.

Одна з них показує, що ви можете вчитися з результатів. Одна з програм ви можете створювати інструменти. Інший будує механізм для безперервної еволюції.

Практичні приклади

Якщо ви будуєте системи LLM з потужністю LLM сьогодні, підхід DiSE пропонує:

1. Спочатку звантажте обчислення

Напиши тести, що визначають "роботи," як це роблю я. Міграція кадрів моєї сутності Не потрібно приймати рішення LLM.

Будьте наполегливі

Шлях до простих завдань - до дешевих моделей. Зарезервуйте дорогі моделі для справді складних проблем. Ваш гаманець буде вам вдячний.

3. Стежити за тим, що працює

Зберігати не лише код, але:

Для чого було створено
Яка з моделей її створила
Як добре він виконався
Кількість повторних спроб

Ці метадані стають тренуваннями даних для вашої логіки.

4. Захоплююча еволюція

Не сподівайтесь досконалості під час першої спроби. Створюйте варіанти, перевіряйте їх, тримайте переможцями, мутуйте гарні, але не досконалі варіанти.

Ось так я підходжу до розробки цього блогу - публічно прочитую: Вчитися від реального трафіку, покращитись на основі реального використання.

Чому структура має більше значення, ніж ви думаєте

Різниця між Вояджером і ДіАЕ полягає не лише в ціні. те, що відбувається, коли речі зазнають невдачі.

У Вояджері невдача означає:

Надіслати запит на зневаджування GPT- 4
Сподіваюся, він розуміє проблему.
Платити $0,05 за цей привілей

У ДІСЕ є причини невдачі:

Аналіз структурованої помилки (що не вдалося, чому, що очікувалося)
Покоління Варіантів з робочих варіантів
Зростання, лише якщо проблема є справжньою.
Вчитися у майбутньому подібних невдач

Система отримує Розумніше про те, чого не знає..

Майбутнє Гібридне

Я не думаю, що ми побачимо, як чисті моделі роблять все, що завгодно, що виграє системи виробництва.Економіка не працює, а режими невдач занадто непрозорі.

Натомість, ми побачимо гібридні системи, такі як DiSE:

Моделі хепа для звичайних візерунків
Дорогі моделі для нових проблем
Логіка не уLM для всього іншого (тести, вихідні дані, перевірка)
Система пам'яті, яка насправді вчиться на результатах

Ми бачимо цю закономірність усюди:

Система RAG Комбінація поновлення + створення
Багатоагентні потоки з особливими компонентами
Семантичний пошук використання вбудовування + перевищення

Магія не в тому, щоб мати одну блискучу модель. правильна модель у відповідний час з контекст праворуч.

Висновки

Вояджер був маяком, який показував, що агенти можуть вчитися за допомогою створення коду.

Наступний крок не був стимулом, а досягав своїх обмежень.

Наступний крок: штучна еволюція:

Знешкодити варіації
Обробка об' єктів
Системний спадок
Коротке навчання

DiSE не намагається бути розумнішим одним пострілом. It's trying to be be better on the next стріляв.

Ця різниця полягає в тому, де починається еволюція.

І на відміну від біологічної еволюції, нам не потрібно чекати мільйони років, щоб побачити результати.

Чому знецінення є інакше

Не треба тусувати. - Працює з будь- яким LLM через API
Не потрібен GPT- 4 для всього - Витримана страта зменшує витрати
Не галюцинативна оцінка - Об'єктне тестування, а не судження LLM
Не викидає код. - Будь-який артефакт зберігається, копіюється, відстежується.
Не забуває про минуле. - RAG + використання статистики = інституційна пам' ять
Не боїться невдачі - Використовує його як тиск на вибір для еволюції.

Подальше читання

Папери:

Вояджер: універсальний агент з великими моделями мови - Оригінальний папір.
ToolFormer - Навчати LLM використовувати інструменти
РеАКConstellation name (optional) - Розмірковування + Діяльний шаблон
Дерево думок - Скасовувати розв' язання проблем

У цьому блозі:

Побудова системи RAG - Гібридне отримання + створення архітектури
Семантичний пошук з ONNX і Qdrant - Вбудовані без дорогого API
Війна 404 року - Титановий підхід до встановлення зв'язків
Використання Ollama для локальних LLM - Самоавторизуючі менші моделі
Побудова серії адвокатських програм GPT - Багаточастина на RAG + LLMs

Інструменти:

Ольямаjapan. kgm - Запустити Llama, QWen та інші моделі локально
LiteLM - Unified API для 100+ постачальників LLM
Лангхейнvietnam. kgm - Framework для програм LLM (хоча я уникаю важких оболонок)