1973-02-08T1:59

Вступ

В моєму8- частина серії GPT LavierЯ показав вам, як побудувати повний місцевий помічник письма на основі RAG, використовуючи прискорення GPU, локальні бази даних LLM і векторні бази даних.

Він потужний, приватний і повністю працює на вашому обладнанні.

Але давайте будемо чесні - не всі мають робочу станцію з NVIDIA GPU, 96GB RAM, і терпіння, щоб встановити CUDA, CUDN і wrangle GGUF-моделі.

Що, якщо ви просто хочете отримати переваги асистента блогу запису без апаратної інвестиції?

У цій статті наведено альтернативу, засновану на хмарах: той самий підхід до RAG, та сама векторна база даних Qdrant, але за допомогою програм Hama LLM замість локального резюме.

Думайте про це як про " Lawier GPT Lite" - простіше налаштування, нижчий бар'єр для входу до системи, і потенційно кращу якість виводу з використанням моделей кордонів.

Повне викриття: я все ще вивчаю, який підхід найкраще працює на практиці, тому враховуйте мої оцінки витрат та вимоги щодо виконання з щіпкою солі.

Я можу сказати, що цей підхід до хмар виявився надзвичайно простим у порівнянні з маршрутом GPU.

ЗАУВАЖЕННЯ: це частина мого експерименту з комп'ютером (заступною чернеткою) + моїм власним редагуванням.
Той самий голос, той самий прагматизм, тільки швидші пальці.
Для чого існує альтернатива хмарі?
Початковий підхід
Повна серія "Lawier GPT" будує систему, яка:
Виконує 100% локально (придатність)
Без витрат API

Швидке обчислення GPU

Потрібна програма NVIDIA GPU (8GB+ VRAM)

Комплексне налаштування (CUDA, cUDN, керування моделлю)
Обмежено моделями, які можна вмістити у VRAM.
Розгортання з фокусуванням віконComment
Альтернативна зміна хмар
Цей підхід підказує вам:
Не потрібен GPU (запускається на будь- якому комп' ютері)
Простий набір (немає CUDA/cuDN)
Доступ до моделей меж (GPT- 4, Клод тощо)

Кросплатформа (Windows, Mac, Linux)

Краща якість виводу (більша, більш здібна модель) |--------------------|-------------------| Вартість API (хоча прийнятна для особистого використання) Дані відіслані до третього API Затримка залежить від мережі Когда пользоваться кем?

Передня частина має критичне значення:

graph TB
    A[Markdown Files] -->|Ingest| B[Chunking Service]
    B -->|Text Chunks| C[Cloud Embedding API]
    C -->|Vectors| D[Qdrant Vector DB]

    E[User Writing] -->|Current Draft| F[Web/Desktop Client]
    F -->|Embed Context| C
    C -->|Query Vector| D
    D -->|Similar Content| G[Context Builder]

    G -->|Relevant Past Articles| H[Prompt Engineer]
    H -->|Prompt + Context| I[Cloud LLM API]
    I -->|Generated Suggestions| J[Response Handler]
    J -->|Suggestions + Citations| F

    F -->|Display| K[Editor with Suggestions]

    class C,I cloud
    class D,K local

    classDef cloud stroke:#f96,stroke-width:4px
    classDef local stroke:#333,stroke-width:2px

Ви маєте обладнання GPU ♪ Ви перебуваєте на Mac/Linux/lap top}

} Високий об' єм використовує режим (кількість послідовностей/ місяців)♫ Ви насолоджуєтесь тим, що робите, якщо хочете, щоб результати були швидкимиtext-embedding-3-smallОгляд архітектури
**Версія " Хмара " зберігає однакові основи RAG, але змінює локальні підсумки LLM на виклики API:**Різниця ключів:
Вмонтована модель: OpenAI's
API замість локальної моделі BGELLM

: Claw 3. 5 Sonnet або GPT- 4 API замість локального Central/ Llama

Не потрібен GPU

: Всі на основі процесора локально, обчислення відбувається у хмарі

Просте представлення: Окремий виконуваний файл, без файлів моделей для керування
**Мені слід зауважити, що я ще не зробив широких пам'яток, порівнюючи два підходи - я все ще в фазі експедиції.**Але перші результати є достатньо перспективними, щоб ділитися ними.

Стек технології

Core Framework. NET 9
- Те саме, що і початкова серіяC# 13
**- Сучасні особливості мови.**Хмари API

OpenAI API

**- Вмонтовані (текстовий елемент - 3- маленький) + LLM (GPT- 4)**Антропічний API
**- Альтернативний LLM (Claude 3. 5 Sonnet)**Обидва

- Ти можеш змішувати і паруватися!

База даних векторівQdrant
- Те саме, що і оригінал, може працювати локально за допомогою Docker або використовувати Qdrant ХмариАльтернативна
**: Pincone, Weaviate Хмара (правильні варіанти)**Параметри клієнта

Консольна програма

- Simplest, good for testing

Blazor Web Asssemely

docker run -p 6333:6333 -p 6334:6334 \
    -v $(pwd)/qdrant_storage:/qdrant/storage:z \
    qdrant/qdrant

- Заснований на мережі, працює будь-де

Авалоніяgreece_ prefectures. kgm- Кросплатформова стільниця (Windows, Mac, Linux)
Налаштування: Швидкий шлях

Встановити Qdrant

Параметр A: локальний докер (рекомендовано для розробки)

**Варіант B: Хмара Qdrant (найвищий)**Підписатися на

хмар.qdrant.ioСтворити вільне скупчення
Отримати ваш ключ API і адресу URL кластера
Жодного cUDA, ніякого cuDN, не потрібно встановлювати драйверів!

**2.**Отримати ключі API

OpenAI(для вбудовування + LLM):
Перейти до

ranger. openai.com

Створити ключ APIappsettings.json:

{
  "BlogRAG": {
    "Embedding": {
      "Provider": "OpenAI",
      "Model": "text-embedding-3-small",
      "ApiKey": "sk-..."
    },
    "LLM": {
      "Provider": "Anthropic",
      "Model": "claude-3-5-sonnet-20241022",
      "ApiKey": "sk-ant-..."
    },
    "VectorStore": {
      "Type": "Qdrant",
      "Url": "http://localhost:6333",
      "ApiKey": "",
      "CollectionName": "blog_embeddings"
    },
    "Ingestion": {
      "MarkdownPath": "/path/to/your/blog/Markdown",
      "ChunkSize": 500,
      "ChunkOverlap": 50
    }
  }
}

**Встановіть обмеження використання (важливе!)**АнтропічніKCharselect unicode block name

(необов'язково, Клод):

Перейти до

console. anthropic.com

using OpenAI;
using OpenAI.Embeddings;

namespace BlogRAG.Services
{
    public interface IEmbeddingService
    {
        Task<float[]> GenerateEmbeddingAsync(string text);
        Task<List<float[]>> GenerateBatchEmbeddingsAsync(List<string> texts);
    }

    public class OpenAIEmbeddingService : IEmbeddingService
    {
        private readonly OpenAIClient _client;
        private readonly string _model;
        private readonly ILogger<OpenAIEmbeddingService> _logger;

        public OpenAIEmbeddingService(
            string apiKey,
            string model,
            ILogger<OpenAIEmbeddingService> logger)
        {
            _client = new OpenAIClient(apiKey);
            _model = model;
            _logger = logger;
        }

        public async Task<float[]> GenerateEmbeddingAsync(string text)
        {
            var embeddings = await GenerateBatchEmbeddingsAsync(new List<string> { text });
            return embeddings.First();
        }

        public async Task<List<float[]>> GenerateBatchEmbeddingsAsync(List<string> texts)
        {
            _logger.LogInformation("Generating embeddings for {Count} texts", texts.Count);

            var request = new EmbeddingRequest
            {
                Input = texts,
                Model = _model
            };

            var response = await _client.CreateEmbeddingAsync(request);

            return response.Data
                .OrderBy(e => e.Index)
                .Select(e => e.Embedding.ToArray())
                .ToList();
        }
    }
}

Створити ключ API

Налаштування
Створити
Ось так.

**Без налаштування GPU, без звантаження моделей (12GB файлів), без керування VRAM.**Впровадження

Служби ядра

Служба вбудовування хмар

using Anthropic.SDK;
using Anthropic.SDK.Messaging;

namespace BlogRAG.Services
{
    public interface ILLMService
    {
        Task<string> GenerateCompletionAsync(
            string systemPrompt,
            string userPrompt,
            float temperature = 0.7f);

        IAsyncEnumerable<string> GenerateStreamingCompletionAsync(
            string systemPrompt,
            string userPrompt,
            float temperature = 0.7f);
    }

    public class ClaudeLLMService : ILLMService
    {
        private readonly AnthropicClient _client;
        private readonly string _model;
        private readonly ILogger<ClaudeLLMService> _logger;

        public ClaudeLLMService(
            string apiKey,
            string model,
            ILogger<ClaudeLLMService> logger)
        {
            _client = new AnthropicClient(new APIAuthentication(apiKey));
            _model = model;
            _logger = logger;
        }

        public async Task<string> GenerateCompletionAsync(
            string systemPrompt,
            string userPrompt,
            float temperature = 0.7f)
        {
            _logger.LogInformation("Generating completion with temperature {Temp}", temperature);

            var messages = new List<Message>
            {
                new Message
                {
                    Role = RoleType.User,
                    Content = userPrompt
                }
            };

            var request = new MessageRequest
            {
                Model = _model,
                MaxTokens = 2048,
                Temperature = temperature,
                System = systemPrompt,
                Messages = messages
            };

            var response = await _client.Messages.CreateAsync(request);

            return response.Content.First().Text;
        }

        public async IAsyncEnumerable<string> GenerateStreamingCompletionAsync(
            string systemPrompt,
            string userPrompt,
            float temperature = 0.7f)
        {
            var messages = new List<Message>
            {
                new Message { Role = RoleType.User, Content = userPrompt }
            };

            var request = new MessageRequest
            {
                Model = _model,
                MaxTokens = 2048,
                Temperature = temperature,
                System = systemPrompt,
                Messages = messages,
                Stream = true
            };

            await foreach (var chunk in _client.Messages.StreamAsync(request))
            {
                if (chunk.Delta?.Text != null)
                {
                    yield return chunk.Delta.Text;
                }
            }
        }
    }
}

Позиції ключів/ Локальні:

Без налаштування виконання ONNX
Без керування пам'яттю GPU
Автоматичне пакетизування за допомогою OpenAI
Якість вбудовування " state- the- art" Comment

Вартість:

: ~0.0001 на 1 K маркерів (дуже дешевий)
Обробка 100 дописів блогу (~500K маркерів): ~ $0.05
Використання дня (10 запитів): ~ $0. 001/day = $0. 30/ month

Служба пам' яті LLMName

using Qdrant.Client;
using Qdrant.Client.Grpc;

namespace BlogRAG.Services
{
    public class QdrantVectorStore
    {
        private readonly QdrantClient _client;
        private readonly string _collectionName;
        private readonly ILogger<QdrantVectorStore> _logger;

        public QdrantVectorStore(
            string url,
            string apiKey,
            string collectionName,
            ILogger<QdrantVectorStore> logger)
        {
            _client = new QdrantClient(url, apiKey: apiKey);
            _collectionName = collectionName;
            _logger = logger;
        }

        public async Task CreateCollectionAsync(int vectorSize)
        {
            var collections = await _client.ListCollectionsAsync();

            if (collections.Any(c => c.Name == _collectionName))
            {
                _logger.LogInformation("Collection {Name} already exists", _collectionName);
                return;
            }

            await _client.CreateCollectionAsync(
                collectionName: _collectionName,
                vectorsConfig: new VectorParams
                {
                    Size = (ulong)vectorSize,
                    Distance = Distance.Cosine
                });

            _logger.LogInformation("Created collection {Name}", _collectionName);
        }

        public async Task UpsertAsync(
            Guid id,
            float[] vector,
            Dictionary<string, object> payload)
        {
            var point = new PointStruct
            {
                Id = id,
                Vectors = vector,
                Payload = payload
            };

            await _client.UpsertAsync(_collectionName, new[] { point });
        }

        public async Task<List<ScoredPoint>> SearchAsync(
            float[] queryVector,
            int limit = 10,
            float scoreThreshold = 0.7f)
        {
            var results = await _client.SearchAsync(
                collectionName: _collectionName,
                vector: queryVector,
                limit: (ulong)limit,
                scoreThreshold: scoreThreshold);

            return results.ToList();
        }
    }
}

**Користі над локальними:**Не завантажувати модель (початковий запуск)

Без обмежень VRAM (за потреби використовуйте контекст 200K)

namespace BlogRAG.Services
{
    public class IngestionService
    {
        private readonly IEmbeddingService _embedder;
        private readonly QdrantVectorStore _vectorStore;
        private readonly ILogger<IngestionService> _logger;

        public IngestionService(
            IEmbeddingService embedder,
            QdrantVectorStore vectorStore,
            ILogger<IngestionService> logger)
        {
            _embedder = embedder;
            _vectorStore = vectorStore;
            _logger = logger;
        }

        public async Task IngestMarkdownFilesAsync(string markdownPath)
        {
            var files = Directory.GetFiles(markdownPath, "*.md", SearchOption.AllDirectories);
            _logger.LogInformation("Found {Count} markdown files", files.Length);

            foreach (var file in files)
            {
                await IngestFileAsync(file);
            }
        }

        private async Task IngestFileAsync(string filePath)
        {
            var content = await File.ReadAllTextAsync(filePath);
            var metadata = ExtractMetadata(content);
            var chunks = ChunkContent(content);

            _logger.LogInformation("Processing {File}: {ChunkCount} chunks",
                Path.GetFileName(filePath), chunks.Count);

            // Batch embedding generation
            var texts = chunks.Select(c => c.Text).ToList();
            var embeddings = await _embedder.GenerateBatchEmbeddingsAsync(texts);

            // Upload to Qdrant
            for (int i = 0; i < chunks.Count; i++)
            {
                var chunk = chunks[i];
                var embedding = embeddings[i];

                var payload = new Dictionary<string, object>
                {
                    ["text"] = chunk.Text,
                    ["file_path"] = filePath,
                    ["blog_post_slug"] = metadata.Slug,
                    ["blog_post_title"] = metadata.Title,
                    ["chunk_index"] = i,
                    ["category"] = metadata.Category
                };

                await _vectorStore.UpsertAsync(Guid.NewGuid(), embedding, payload);
            }

            _logger.LogInformation("Ingested {File}", Path.GetFileName(filePath));
        }

        private List<TextChunk> ChunkContent(string content, int chunkSize = 500, int overlap = 50)
        {
            // Simple sentence-aware chunking
            var sentences = content.Split(new[] { ". ", ".\n", "!\n", "?\n" },
                StringSplitOptions.RemoveEmptyEntries);

            var chunks = new List<TextChunk>();
            var currentChunk = new StringBuilder();
            var currentLength = 0;

            foreach (var sentence in sentences)
            {
                if (currentLength + sentence.Length > chunkSize && currentChunk.Length > 0)
                {
                    chunks.Add(new TextChunk { Text = currentChunk.ToString() });

                    // Overlap: keep last sentence
                    currentChunk.Clear();
                    currentLength = 0;
                }

                currentChunk.Append(sentence).Append(". ");
                currentLength += sentence.Length;
            }

            if (currentChunk.Length > 0)
            {
                chunks.Add(new TextChunk { Text = currentChunk.ToString() });
            }

            return chunks;
        }

        private BlogMetadata ExtractMetadata(string content)
        {
            // Extract from markdown frontmatter or HTML comments
            var titleMatch = Regex.Match(content, @"^#\s+(.+)$", RegexOptions.Multiline);
            var categoryMatch = Regex.Match(content, @"");

            return new BlogMetadata
            {
                Title = titleMatch.Success ? titleMatch.Groups[1].Value : "Untitled",
                Category = categoryMatch.Success ? categoryMatch.Groups[1].Value : "General",
                Slug = Path.GetFileNameWithoutExtension(content)
            };
        }
    }

    public class TextChunk
    {
        public string Text { get; set; } = string.Empty;
    }

    public class BlogMetadata
    {
        public string Title { get; set; } = string.Empty;
        public string Category { get; set; } = string.Empty;
        public string Slug { get; set; } = string.Empty;
    }
}

Краща якість виводу (принаймні в теорії - я все ще тестую)

namespace BlogRAG.Services
{
    public class RAGGenerationService
    {
        private readonly IEmbeddingService _embedder;
        private readonly QdrantVectorStore _vectorStore;
        private readonly ILLMService _llm;
        private readonly ILogger<RAGGenerationService> _logger;

        public RAGGenerationService(
            IEmbeddingService embedder,
            QdrantVectorStore vectorStore,
            ILLMService llm,
            ILogger<RAGGenerationService> logger)
        {
            _embedder = embedder;
            _vectorStore = vectorStore;
            _llm = llm;
            _logger = logger;
        }

        public async Task<string> GenerateSuggestionAsync(
            string currentDraft,
            string requestType = "continue")
        {
            // 1. Generate embedding for current draft
            var draftEmbedding = await _embedder.GenerateEmbeddingAsync(currentDraft);

            // 2. Search for relevant past content
            var results = await _vectorStore.SearchAsync(
                queryVector: draftEmbedding,
                limit: 5,
                scoreThreshold: 0.7f);

            _logger.LogInformation("Found {Count} relevant chunks", results.Count);

            // 3. Build context from results
            var contextBuilder = new StringBuilder();
            foreach (var result in results)
            {
                var text = result.Payload["text"].ToString();
                var title = result.Payload["blog_post_title"].ToString();
                var score = result.Score;

                contextBuilder.AppendLine($"## From: {title} (relevance: {score:F2})");
                contextBuilder.AppendLine(text);
                contextBuilder.AppendLine();
            }

            // 4. Build prompt
            var systemPrompt = BuildSystemPrompt(requestType);
            var userPrompt = BuildUserPrompt(currentDraft, contextBuilder.ToString(), requestType);

            // 5. Generate with LLM
            var suggestion = await _llm.GenerateCompletionAsync(
                systemPrompt: systemPrompt,
                userPrompt: userPrompt,
                temperature: 0.7f);

            return suggestion;
        }

        private string BuildSystemPrompt(string requestType)
        {
            return requestType switch
            {
                "continue" => @"You are a technical blog writing assistant. Your role is to suggest
                    continuations for blog posts based on the author's past writing style and content.

                    Guidelines:
                    - Match the author's voice and technical depth
                    - Use similar patterns and structures from past posts
                    - Be specific and technical, not generic
                    - Include code examples when relevant
                    - Maintain consistency with past content",

                "improve" => @"You are a technical blog editor. Your role is to improve sections
                    of blog posts while maintaining the author's voice.

                    Guidelines:
                    - Preserve the author's style
                    - Improve clarity and flow
                    - Add technical depth where appropriate
                    - Suggest better examples from past posts
                    - Fix unclear explanations",

                "outline" => @"You are a technical blog outline generator. Your role is to suggest
                    outlines for new blog posts based on past structures.

                    Guidelines:
                    - Study the author's typical post structure
                    - Suggest sections based on successful past posts
                    - Include technical depth appropriate to topic
                    - Reference similar past articles",

                _ => "You are a helpful technical writing assistant."
            };
        }

        private string BuildUserPrompt(string currentDraft, string context, string requestType)
        {
            return $@"
# Current Draft
{currentDraft}

# Relevant Past Content
{context}

# Request
{GetRequestDescription(requestType)}

Please provide your suggestion based on the current draft and the relevant past content shown above.
Remember to maintain consistency with the author's past writing style and technical approach.
";
        }

        private string GetRequestDescription(string requestType)
        {
            return requestType switch
            {
                "continue" => "Continue writing from where the draft ends. Suggest the next 1-2 paragraphs.",
                "improve" => "Improve the current draft. Suggest specific edits and enhancements.",
                "outline" => "Create a detailed outline for completing this post.",
                _ => "Provide helpful suggestions."
            };
        }
    }
}

Потік ідеально працює

using Microsoft.Extensions.Configuration;
using Microsoft.Extensions.DependencyInjection;
using Microsoft.Extensions.Logging;

namespace BlogRAG.Console
{
    class Program
    {
        static async Task Main(string[] args)
        {
            // Setup DI and configuration
            var services = new ServiceCollection();

            var configuration = new ConfigurationBuilder()
                .SetBasePath(Directory.GetCurrentDirectory())
                .AddJsonFile("appsettings.json")
                .AddUserSecrets<Program>()  // For API keys
                .Build();

            services.AddLogging(builder => builder.AddConsole());

            // Register services
            var embeddingConfig = configuration.GetSection("BlogRAG:Embedding");
            services.AddSingleton<IEmbeddingService>(sp =>
                new OpenAIEmbeddingService(
                    embeddingConfig["ApiKey"]!,
                    embeddingConfig["Model"]!,
                    sp.GetRequiredService<ILogger<OpenAIEmbeddingService>>()));

            var llmConfig = configuration.GetSection("BlogRAG:LLM");
            services.AddSingleton<ILLMService>(sp =>
                new ClaudeLLMService(
                    llmConfig["ApiKey"]!,
                    llmConfig["Model"]!,
                    sp.GetRequiredService<ILogger<ClaudeLLMService>>()));

            var vectorConfig = configuration.GetSection("BlogRAG:VectorStore");
            services.AddSingleton(sp =>
                new QdrantVectorStore(
                    vectorConfig["Url"]!,
                    vectorConfig["ApiKey"] ?? "",
                    vectorConfig["CollectionName"]!,
                    sp.GetRequiredService<ILogger<QdrantVectorStore>>()));

            services.AddSingleton<IngestionService>();
            services.AddSingleton<RAGGenerationService>();

            var serviceProvider = services.BuildServiceProvider();

            // Run CLI
            await RunCLI(serviceProvider, configuration);
        }

        static async Task RunCLI(ServiceProvider serviceProvider, IConfiguration configuration)
        {
            System.Console.WriteLine("=== Blog RAG Assistant ===\n");
            System.Console.WriteLine("Commands:");
            System.Console.WriteLine("  ingest - Ingest markdown files");
            System.Console.WriteLine("  write - Start writing session");
            System.Console.WriteLine("  quit - Exit\n");

            while (true)
            {
                System.Console.Write("> ");
                var command = System.Console.ReadLine()?.Trim().ToLower();

                switch (command)
                {
                    case "ingest":
                        await IngestCommand(serviceProvider, configuration);
                        break;
                    case "write":
                        await WriteCommand(serviceProvider);
                        break;
                    case "quit":
                        return;
                    default:
                        System.Console.WriteLine("Unknown command");
                        break;
                }
            }
        }

        static async Task IngestCommand(ServiceProvider serviceProvider, IConfiguration configuration)
        {
            var ingestion = serviceProvider.GetRequiredService<IngestionService>();
            var markdownPath = configuration["BlogRAG:Ingestion:MarkdownPath"];

            System.Console.WriteLine($"Ingesting from {markdownPath}...");
            await ingestion.IngestMarkdownFilesAsync(markdownPath!);
            System.Console.WriteLine("Ingestion complete!\n");
        }

        static async Task WriteCommand(ServiceProvider serviceProvider)
        {
            var rag = serviceProvider.GetRequiredService<RAGGenerationService>();

            System.Console.WriteLine("\nEnter your draft (end with empty line):");
            var draft = new StringBuilder();
            string? line;

            while (!string.IsNullOrWhiteSpace(line = System.Console.ReadLine()))
            {
                draft.AppendLine(line);
            }

            System.Console.WriteLine("\nGenerating suggestion...\n");
            var suggestion = await rag.GenerateSuggestionAsync(draft.ToString());

            System.Console.WriteLine("=== Suggestion ===");
            System.Console.WriteLine(suggestion);
            System.Console.WriteLine("\n");
        }
    }
}

Вартість

Claude 3. 5 Sonnet: 3/ млн. вводних маркерів, 15 мільйонів доларів виводу

# 1. Clone/create project
dotnet new console -n BlogRAG
cd BlogRAG

# 2. Add packages
dotnet add package Qdrant.Client
dotnet add package OpenAI
dotnet add package Anthropic.SDK
dotnet add package Microsoft.Extensions.Configuration.Json
dotnet add package Microsoft.Extensions.Configuration.UserSecrets

# 3. Set API keys (stored securely)
dotnet user-secrets init
dotnet user-secrets set "BlogRAG:Embedding:ApiKey" "sk-..."
dotnet user-secrets set "BlogRAG:LLM:ApiKey" "sk-ant-..."

# 4. Start Qdrant (local)
docker run -d -p 6333:6333 qdrant/qdrant

# 5. Run ingestion
dotnet run
> ingest

# 6. Start writing
> write

Типовий сеанс запису блогу (20K вхідні дані, вивід 2K): приблизно $0. 09Щомісячне використання (10 сеансів) приблизно $ 0. 90/місяця

Ці фігури, засновані на моїх ранніх експериментах, можуть різнитися залежно від того, наскільки ви балакучі з ШІ.

# Start Qdrant (if using local Docker)
docker start qdrant

# Run assistant
dotnet run
> write

# Enter your draft
I've been working on a new feature that uses Entity Framework Core...
[Ctrl+D or empty line]

# Get AI suggestion based on your past EF posts!

3.

Магазин векторів Qdrant (те саме, що і перший!)

Те саме програмне забезпечення, як локальне налаштування- тільки вкажіть на місцеву хмару Докера або Квітрант!

Спрямування трубопроводу |-----------|--------|------| Служба створення RAG Простий клієнт консолі Як запустити систему | Налаштування першого часу | | ~$3.65 |

Загальний час налаштування

: приблизно 15 хвилин проти близько 2 годин для місцевих конфігурацій GPU - припускаючи, що все йде гладко, що з мого досвіду є небезпечним припущенням.
Щоденне користування
Аналіз вартості

**Оцінка щомісячної вартості (Персональний блог)**Сценарій

: Запис 4 блогів на місяць

♪ Cost ♪:
- text-embedding-3-small
- text-embedding-3-largeВуздечки (квартири, 40/місяць)} 40 K marks} $0.04}
- ♪ LLM calls (40 tips) * 800K вхідні дані, 80K виходи} 60}

Загалом щомісяцяДля порівняння:

// Use OpenAI Batch API for ingestion
var batch = await client.CreateBatchAsync(requests);
// Wait hours, pay half price

Локальне налаштування: $0/ month (але $800+ GPU напроти):
```
// Don't re-embed identical text
var cache = new Dictionary<string, float[]>();
```
ChatGPT Plus: $20/місяця (без RAG, загальний):
- Грамодинальний прем' єм: $12/місяця (без запису комп' ютера)
- Безперервна точка
: Якщо ви використаєте це протягом 18+ місяців, місцева поліція платить за себе.:
```
// Retrieve top 3 instead of top 10 chunks
limit: 3  // 70% less input tokens
```

Інакше хмари дешевші.

Хоча я все ще працюю над тим, чи мої витрати точні, я, можливо, з'їм свої слова через кілька місяців, коли прийдуть рахунки.

Підказки щодо Оптимізації вартості |-------|---------|---------|--------|--------| Використовувати менші моделі для вбудовування : $0.00002/1K маркерів : $0.00013/1K маркерів 6,5х коштує різниця!

Пакетні виклики API(50% дешевше для непродуктивного):

Вбудовування кешу локально

// Switch models with one line
services.AddSingleton<ILLMService>(sp =>
    new ClaudeLLMService(  // Was GPT-4, now Claude
        config["ApiKey"],
        "claude-3-5-sonnet-20241022",  // Latest model
        sp.GetRequiredService<ILogger<ClaudeLLMService>>()));

Використовувати дешевші моделі для чернетокClaude 3. 5 Haiku: ввід 0. 25/ M (12x дешевший за Sonnet)

GPT- 4o- mini: введення $0. 25/ M (20x дешевше за GPT- 4)

# Works on Mac (no CUDA support)
dotnet run  # Just works!

# Works on Linux ARM (Raspberry Pi?)
dotnet run  # Just works!

# Works in Codespaces/Gitpod
dotnet run  # Just works!

Обмежити контекстне вікно

Переваги над локальним налаштуванням

// Handle 100 concurrent users? Easy with APIs
await Task.WhenAll(users.Select(u =>
    rag.GenerateSuggestionAsync(u.Draft)));

// Local? Limited by your single GPU

Побудова " Lawier GPT " для вашого блогу - чудове налаштування LLM Альтернативність: RAG з Qdrant і Загальні мережеві LLMs

Вступ

Думайте про це як про " Lawier GPT Lite" - простіше налаштування, нижчий бар'єр для входу до системи, і потенційно кращу якість виводу з використанням моделей кордонів.

Повне викриття: я все ще вивчаю, який підхід найкраще працює на практиці, тому враховуйте мої оцінки витрат та вимоги щодо виконання з щіпкою солі.

Швидке обчислення GPU

Не потрібен GPU

: Всі на основі процесора локально, обчислення відбувається у хмарі

Стек технології

OpenAI API

- Ти можеш змішувати і паруватися!

Консольна програма

- Simplest, good for testing

Параметр A: локальний докер (рекомендовано для розробки)

ranger. openai.com

(необов'язково, Клод):

Перейти до

console. anthropic.com

Служба вбудовування хмар

Служба пам' яті LLMName

Без обмежень VRAM (за потреби використовуйте контекст 200K)

Краща якість виводу (принаймні в теорії - я все ще тестую)

Потік ідеально працює

Вартість

Claude 3. 5 Sonnet: 3/ млн. вводних маркерів, 15 мільйонів доларів виводу

Ці фігури, засновані на моїх ранніх експериментах, можуть різнитися залежно від того, наскільки ви балакучі з ШІ.

3.

Магазин векторів Qdrant (те саме, що і перший!)

: Запис 4 блогів на місяць

Інакше хмари дешевші.

Хоча я все ще працюю над тим, чи мої витрати точні, я, можливо, з'їм свої слова через кілька місяців, коли прийдуть рахунки.

Вбудовування кешу локально

GPT- 4o- mini: введення $0. 25/ M (20x дешевше за GPT- 4)

Переваги над локальним налаштуванням

1.

Deploy to Azure/AWS/GCP

Upload single binary, set env vars, done

Local? Need to:

- Include 12GB model files

- Install CUDA on target machine

- Ensure GPU drivers

Побудова " Lawier GPT " для вашого блогу - чудове налаштування LLM Альтернативність: RAG з Qdrant і Загальні мережеві LLMs

Вступ

Думайте про це як про " Lawier GPT Lite" - простіше налаштування, нижчий бар'єр для входу до системи, і потенційно кращу якість виводу з використанням моделей кордонів.

Повне викриття: я все ще вивчаю, який підхід найкраще працює на практиці, тому враховуйте мої оцінки витрат та вимоги щодо виконання з щіпкою солі.

Швидке обчислення GPU

⇩ Використовувати локальні ⇩ Використовувати share' ї@ info: whatsthis

Не потрібен GPU

: Всі на основі процесора локально, обчислення відбувається у хмарі

Стек технології

OpenAI API

- Ти можеш змішувати і паруватися!

Консольна програма

- Simplest, good for testing

Параметр A: локальний докер (рекомендовано для розробки)

ranger. openai.com

(необов'язково, Клод):

Перейти до

console. anthropic.com

Служба вбудовування хмар

Служба пам' яті LLMName

Без обмежень VRAM (за потреби використовуйте контекст 200K)

Краща якість виводу (принаймні в теорії - я все ще тестую)

Потік ідеально працює

Вартість

Claude 3. 5 Sonnet: 3/ млн. вводних маркерів, 15 мільйонів доларів виводу

Ці фігури, засновані на моїх ранніх експериментах, можуть різнитися залежно від того, наскільки ви балакучі з ШІ.

3.

Магазин векторів Qdrant (те саме, що і перший!)

: Запис 4 блогів на місяць

Інакше хмари дешевші.

Хоча я все ще працюю над тим, чи мої витрати точні, я, можливо, з'їм свої слова через кілька місяців, коли прийдуть рахунки.

Вбудовування кешу локально

GPT- 4o- mini: введення $0. 25/ M (20x дешевше за GPT- 4)

Переваги над локальним налаштуванням

1.

Deploy to Azure/AWS/GCP

Upload single binary, set env vars, done

Local? Need to:

- Include 12GB model files

- Install CUDA on target machine

- Ensure GPU drivers