ваше сообщение коммита

2025-09-04 13:24:53 +03:00
parent 888873f630
commit 9f94295d15
8 changed files with 118 additions and 79 deletions
--- a/Dockerfile.ollama
+++ b/Dockerfile.ollama
@@ -0,0 +1,10 @@
 FROM ollama/ollama:latest
 # Устанавливаем curl для API запросов
 RUN apt-get update && apt-get install -y curl && rm -rf /var/lib/apt/lists/*
 # Копируем entrypoint скрипт
 COPY entrypoint.sh /entrypoint.sh
 RUN chmod +x /entrypoint.sh
 ENTRYPOINT ["/entrypoint.sh"]
--- a/backend/app.js
+++ b/backend/app.js
@@ -21,7 +21,6 @@ const errorHandler = require('./middleware/errorHandler');
 // const { version } = require('./package.json'); // Закомментировано, так как не используется
 const db = require('./db'); // Добавляем импорт db
 const aiAssistant = require('./services/ai-assistant'); // Добавляем импорт aiAssistant
 const { warmupModel } = require('./scripts/warmup-model'); // Добавляем импорт разогрева модели
 const fs = require('fs');
 const path = require('path');
 const messagesRoutes = require('./routes/messages');
--- a/backend/scripts/warmup-model.js
+++ b/backend/scripts/warmup-model.js
@@ -1,66 +0,0 @@
 #!/usr/bin/env node
 /**
 * Скрипт для разогрева модели Ollama
 * Запускается при старте backend для ускорения первых запросов
 */
 const fetch = require('node-fetch');
 const OLLAMA_URL = process.env.OLLAMA_URL || 'http://ollama:11434';
 const MODEL_NAME = process.env.OLLAMA_MODEL || 'qwen2.5:7b';
 async function warmupModel() {
  // console.log('🔥 Разогрев модели Ollama...');
  try {
    // Проверяем доступность Ollama
    const healthResponse = await fetch(`${OLLAMA_URL}/api/tags`);
    if (!healthResponse.ok) {
      throw new Error(`Ollama недоступен: ${healthResponse.status}`);
    }
          // console.log('✅ Ollama доступен');
    // Отправляем простой запрос для разогрева (корректный эндпоинт)
    const warmupResponse = await fetch(`${OLLAMA_URL}/api/chat`, {
      method: 'POST',
      headers: { 'Content-Type': 'application/json' },
      body: JSON.stringify({
        model: MODEL_NAME,
        messages: [
          { role: 'system', content: 'Ты полезный ассистент.' },
          { role: 'user', content: 'Привет! Как дела?' }
        ],
        stream: false,
        options: {
          temperature: 0.2,
          num_predict: 64,
          num_ctx: 1024,
          num_thread: 4,
          num_gpu: 1,
          repeat_penalty: 1.1,
          top_k: 30,
          top_p: 0.9
        }
      }),
    });
    if (!warmupResponse.ok) {
      throw new Error(`Ошибка разогрева: ${warmupResponse.status}`);
    }
    const data = await warmupResponse.json();
          // console.log('✅ Модель разогрета успешно');
      // console.log(`📝 Ответ модели: ${(data.message?.content || data.response || '').substring(0, 100)}...`);
  } catch (error) {
          // console.error('❌ Ошибка разогрева модели:', error.message);
    // Не прерываем запуск приложения
  }
 }
 // Запускаем разогрев с задержкой
 setTimeout(warmupModel, 5000);
 module.exports = { warmupModel }; 
--- a/backend/server.js
+++ b/backend/server.js
@@ -18,7 +18,6 @@ const logger = require('./utils/logger');
 const { getBot } = require('./services/telegramBot');
 const EmailBotService = require('./services/emailBot');
 const { initDbPool, seedAIAssistantSettings } = require('./db');
 const { warmupModel } = require('./scripts/warmup-model'); // Добавляем импорт разогрева модели
 const memoryMonitor = require('./utils/memoryMonitor');
 const PORT = process.env.PORT || 8000;
@@ -72,9 +71,6 @@ async function startServer() {
  // Разогрев модели Ollama
      // console.log('🔥 Запуск разогрева модели...');
  setTimeout(() => {
    warmupModel().catch(err => {
              // console.error('❌ Ошибка разогрева модели:', err.message);
    });
  }, 10000); // Задержка 10 секунд для полной инициализации
  await initServices(); // Только теперь запускать сервисы
--- a/backend/services/ai-assistant.js
+++ b/backend/services/ai-assistant.js
@@ -352,8 +352,7 @@ class AIAssistant {
            model,
            messages: finalMessages,
            stream: false,
-            options: ollamaOptions,
+            options: ollamaOptions
            keep_alive: '3m'
          })
        });
        logger.info(`[AIAssistant] Ollama API ответил: status=${response.status}`);
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -30,7 +30,9 @@ services:
      timeout: 5s
      retries: 5
  ollama:
-    image: ollama/ollama:latest
+    build:
      context: .
      dockerfile: Dockerfile.ollama
    container_name: dapp-ollama
    restart: unless-stopped
    logging:
@@ -53,11 +55,11 @@ services:
    environment:
      - OLLAMA_HOST=0.0.0.0
      - OLLAMA_ORIGINS=*
-      - OLLAMA_NUM_PARALLEL=1
+      - OLLAMA_NUM_PARALLEL=2
      - OLLAMA_NUM_GPU=0
      - OLLAMA_KEEP_ALIVE=86400
      - OLLAMA_MODEL_TIMEOUT=0
-      - OLLAMA_MAX_LOADED_MODELS=1
+      - OLLAMA_MAX_LOADED_MODELS=2
      - OLLAMA_FLASH_ATTENTION=0
      - OLLAMA_LLM_LIBRARY=auto
    healthcheck:
@@ -66,8 +68,6 @@ services:
      timeout: 10s
      retries: 5
      start_period: 120s
    # Предзагружаем модель при запуске контейнера с keepalive
    entrypoint: ["/bin/sh", "-c", "ollama serve & sleep 15 && ollama run --keepalive 24h qwen2.5:7b 'test' && tail -f /dev/null"]
  vector-search:
    build:
      context: ./vector-search
--- a/docs/RAG_TASKS.md
+++ b/docs/RAG_TASKS.md
@@ -134,6 +134,36 @@
  - Генерация мультимодальных ответов
 - **Результат:** Контекст из медиафайлов
 #### 9. Агент "Саммари беседы"
 - **Задача:** Создание краткого саммари истории беседы
 - **Функции:**
  - Анализирует последние 10-20 сообщений из истории
  - Создает краткое саммари через AI (вместо передачи полной истории)
  - Кэширует результат для повторного использования
  - Обновляет саммари при поступлении новых сообщений
  - Оптимизирует количество токенов в промпте
 - **Результат:** Оптимизированный контекст беседы для AI
 #### 10. Агент "Анализ контакта"
 - **Задача:** Извлечение и анализ данных пользователя из профиля
 - **Функции:**
  - Получает данные из профиля контакта (имя, теги, язык, роль)
  - Анализирует предпочтения и историю взаимодействий
  - Кэширует анализ для быстрого доступа
  - Обновляет при изменении профиля пользователя
  - Определяет стиль общения и приоритет
 - **Результат:** Персонализированный контекст для ответа
 #### 11. Агент "Кэширование бесед"
 - **Задача:** Управление кэшем бесед и контекста
 - **Функции:**
  - Кэширует саммари беседы + анализ контакта
  - Управляет TTL (Time To Live) для автоматической очистки
  - Проверяет актуальность кэша при новых сообщениях
  - Оптимизирует производительность системы
  - Предотвращает повторные вычисления
 - **Результат:** Быстрый доступ к контексту без пересчета
 ### ⚙️ Логика работы многоагентной системы
 #### Шаг 1: Получение сообщения
@@ -148,6 +178,9 @@
 - Агент "Контекст" → анализирует историю
 - Агент "Мультиязычность" → определяет язык
 - Агент "Мультимодальность" → обрабатывает медиа
 - Агент "Саммари беседы" → создает краткое саммари истории
 - Агент "Анализ контакта" → извлекает данные из профиля
 - Агент "Кэширование бесед" → проверяет и обновляет кэш
 #### Шаг 3: Сбор и анализ результатов
 - Координатор собирает данные от всех агентов
@@ -163,6 +196,8 @@
 - Обновляет профиль пользователя
 - Сохраняет контекст беседы
 - Логирует использованные знания
 - Обновляет кэш саммари и анализа контакта
 - Сохраняет оптимизированный контекст для будущих запросов
 ### 🎨 Преимущества многоагентной архитектуры
@@ -172,6 +207,9 @@
 4. **Гибкость:** Разные комбинации агентов для разных ситуаций
 5. **Персонализация:** Глубокое понимание каждого пользователя
 6. **Качество:** Специализированная обработка каждого аспекта
 7. **Оптимизация:** Саммари бесед снижает количество токенов
 8. **Кэширование:** Быстрый доступ к контексту без пересчета
 9. **Производительность:** Уменьшение времени ответа и нагрузки на AI
 ---
@@ -251,10 +289,17 @@
   - Агент "Контекст беседы"
   - Агент "Детализация"
   - Агент "Персонализация ответа"
   - Агент "Саммари беседы" (новый)
   - Агент "Анализ контакта" (новый)
   - Агент "Кэширование бесед" (новый)
 3. **Интеграция с существующей системой:**
   - Подключение агентов к текущему pipeline
   - Настройка логирования и мониторинга
   - Тестирование взаимодействия агентов
 4. **Реализация оптимизаций:**
   - Создание сервиса саммари бесед
   - Интеграция анализа контактов для персонализации
   - Настройка кэширования для повышения производительности
 ---
@@ -262,8 +307,12 @@
 1. **Модификация логики ответа ассистента:**
   - При получении сообщения пользователя — искать релевантные знания и включать их в prompt LLM.
   - Обеспечить мультиязычность поиска и генерации ответа.
   - Интегрировать саммари беседы вместо передачи полной истории.
   - Использовать анализ контактов для персонализации ответов.
 2. **Логирование и трассировка:**
   - Сохранять, какие знания были использованы для ответа.
   - Логировать использование саммари и кэширования.
   - Отслеживать производительность оптимизаций.
 ---
@@ -287,7 +336,9 @@
 ## Этап 7. Тестирование и оптимизация
 1. **Покрытие тестами ключевых сценариев (unit, интеграционные).**
 2. **Оптимизация скорости поиска и генерации.**
-3. **Документация для команды.**
+3. **Тестирование производительности саммари и кэширования.**
 4. **Оптимизация использования токенов и времени ответа.**
 5. **Документация для команды.**
 ---
@@ -308,6 +359,9 @@
 - При обработке запроса пользователя RAG-ассистент определяет его теги (по связям в таблице тегов).
 - Для генерации ответа ассистент использует только те знания (вопросы/ответы), которые соответствуют тегам пользователя.
 - Администратор может добавлять новые теги, связывать их с пользователями, а также создавать и редактировать знания для каждой группы.
 - **Оптимизация через саммари:** Вместо передачи полной истории беседы (10 сообщений), система создает краткое саммари через AI.
 - **Персонализация через контакты:** Ассистент использует данные из профиля контакта (имя, язык, теги) для персонализации ответов.
 - **Кэширование контекста:** Саммари беседы и анализ контактов кэшируются для быстрого доступа без пересчета.
 ### 4. UI/UX требования
 - В интерфейсе создания/редактирования пользовательских таблиц должен быть доступен тип столбца "relation" (связь с users).
--- a/entrypoint.sh
+++ b/entrypoint.sh
@@ -0,0 +1,47 @@
 #!/bin/bash
 # Запускаем Ollama сервер в фоне
 ollama serve &
 # Ждем запуска сервера
 echo "Ждем запуска Ollama сервера..."
 sleep 20
 # Проверяем готовность сервера
 echo "Проверяем готовность сервера..."
 while ! curl -s http://localhost:11434/api/tags > /dev/null; do
  echo "Сервер еще не готов, ждем..."
  sleep 5
 done
 echo "Сервер готов!"
 # Загружаем чат-модель через API с keepalive 24h
 echo "Загружаем чат-модель qwen2.5:7b через API..."
 curl -X POST http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5:7b",
    "messages": [{"role": "user", "content": "hi"}],
    "keep_alive": "24h"
  }' > /dev/null 2>&1
 echo "Чат-модель qwen2.5:7b загружена!"
 # Скачиваем модель эмбеддингов
 echo "Скачиваем модель эмбеддингов mxbai-embed-large:latest..."
 ollama pull mxbai-embed-large:latest
 # Загружаем модель эмбеддингов через API с keepalive 24h
 echo "Загружаем модель эмбеддингов в память на 24 часа..."
 curl -X POST http://localhost:11434/api/embed \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mxbai-embed-large:latest",
    "input": "test",
    "keep_alive": "24h"
  }'
 echo "Все модели загружены! Система готова к работе."
 # Держим контейнер запущенным
 tail -f /dev/null