ваше сообщение коммита
This commit is contained in:
10
Dockerfile.ollama
Normal file
10
Dockerfile.ollama
Normal file
@@ -0,0 +1,10 @@
|
|||||||
|
FROM ollama/ollama:latest
|
||||||
|
|
||||||
|
# Устанавливаем curl для API запросов
|
||||||
|
RUN apt-get update && apt-get install -y curl && rm -rf /var/lib/apt/lists/*
|
||||||
|
|
||||||
|
# Копируем entrypoint скрипт
|
||||||
|
COPY entrypoint.sh /entrypoint.sh
|
||||||
|
RUN chmod +x /entrypoint.sh
|
||||||
|
|
||||||
|
ENTRYPOINT ["/entrypoint.sh"]
|
||||||
@@ -21,7 +21,6 @@ const errorHandler = require('./middleware/errorHandler');
|
|||||||
// const { version } = require('./package.json'); // Закомментировано, так как не используется
|
// const { version } = require('./package.json'); // Закомментировано, так как не используется
|
||||||
const db = require('./db'); // Добавляем импорт db
|
const db = require('./db'); // Добавляем импорт db
|
||||||
const aiAssistant = require('./services/ai-assistant'); // Добавляем импорт aiAssistant
|
const aiAssistant = require('./services/ai-assistant'); // Добавляем импорт aiAssistant
|
||||||
const { warmupModel } = require('./scripts/warmup-model'); // Добавляем импорт разогрева модели
|
|
||||||
const fs = require('fs');
|
const fs = require('fs');
|
||||||
const path = require('path');
|
const path = require('path');
|
||||||
const messagesRoutes = require('./routes/messages');
|
const messagesRoutes = require('./routes/messages');
|
||||||
|
|||||||
@@ -1,66 +0,0 @@
|
|||||||
#!/usr/bin/env node
|
|
||||||
|
|
||||||
/**
|
|
||||||
* Скрипт для разогрева модели Ollama
|
|
||||||
* Запускается при старте backend для ускорения первых запросов
|
|
||||||
*/
|
|
||||||
|
|
||||||
const fetch = require('node-fetch');
|
|
||||||
|
|
||||||
const OLLAMA_URL = process.env.OLLAMA_URL || 'http://ollama:11434';
|
|
||||||
const MODEL_NAME = process.env.OLLAMA_MODEL || 'qwen2.5:7b';
|
|
||||||
|
|
||||||
async function warmupModel() {
|
|
||||||
// console.log('🔥 Разогрев модели Ollama...');
|
|
||||||
|
|
||||||
try {
|
|
||||||
// Проверяем доступность Ollama
|
|
||||||
const healthResponse = await fetch(`${OLLAMA_URL}/api/tags`);
|
|
||||||
if (!healthResponse.ok) {
|
|
||||||
throw new Error(`Ollama недоступен: ${healthResponse.status}`);
|
|
||||||
}
|
|
||||||
|
|
||||||
// console.log('✅ Ollama доступен');
|
|
||||||
|
|
||||||
// Отправляем простой запрос для разогрева (корректный эндпоинт)
|
|
||||||
const warmupResponse = await fetch(`${OLLAMA_URL}/api/chat`, {
|
|
||||||
method: 'POST',
|
|
||||||
headers: { 'Content-Type': 'application/json' },
|
|
||||||
body: JSON.stringify({
|
|
||||||
model: MODEL_NAME,
|
|
||||||
messages: [
|
|
||||||
{ role: 'system', content: 'Ты полезный ассистент.' },
|
|
||||||
{ role: 'user', content: 'Привет! Как дела?' }
|
|
||||||
],
|
|
||||||
stream: false,
|
|
||||||
options: {
|
|
||||||
temperature: 0.2,
|
|
||||||
num_predict: 64,
|
|
||||||
num_ctx: 1024,
|
|
||||||
num_thread: 4,
|
|
||||||
num_gpu: 1,
|
|
||||||
repeat_penalty: 1.1,
|
|
||||||
top_k: 30,
|
|
||||||
top_p: 0.9
|
|
||||||
}
|
|
||||||
}),
|
|
||||||
});
|
|
||||||
|
|
||||||
if (!warmupResponse.ok) {
|
|
||||||
throw new Error(`Ошибка разогрева: ${warmupResponse.status}`);
|
|
||||||
}
|
|
||||||
|
|
||||||
const data = await warmupResponse.json();
|
|
||||||
// console.log('✅ Модель разогрета успешно');
|
|
||||||
// console.log(`📝 Ответ модели: ${(data.message?.content || data.response || '').substring(0, 100)}...`);
|
|
||||||
|
|
||||||
} catch (error) {
|
|
||||||
// console.error('❌ Ошибка разогрева модели:', error.message);
|
|
||||||
// Не прерываем запуск приложения
|
|
||||||
}
|
|
||||||
}
|
|
||||||
|
|
||||||
// Запускаем разогрев с задержкой
|
|
||||||
setTimeout(warmupModel, 5000);
|
|
||||||
|
|
||||||
module.exports = { warmupModel };
|
|
||||||
@@ -18,7 +18,6 @@ const logger = require('./utils/logger');
|
|||||||
const { getBot } = require('./services/telegramBot');
|
const { getBot } = require('./services/telegramBot');
|
||||||
const EmailBotService = require('./services/emailBot');
|
const EmailBotService = require('./services/emailBot');
|
||||||
const { initDbPool, seedAIAssistantSettings } = require('./db');
|
const { initDbPool, seedAIAssistantSettings } = require('./db');
|
||||||
const { warmupModel } = require('./scripts/warmup-model'); // Добавляем импорт разогрева модели
|
|
||||||
const memoryMonitor = require('./utils/memoryMonitor');
|
const memoryMonitor = require('./utils/memoryMonitor');
|
||||||
|
|
||||||
const PORT = process.env.PORT || 8000;
|
const PORT = process.env.PORT || 8000;
|
||||||
@@ -72,9 +71,6 @@ async function startServer() {
|
|||||||
// Разогрев модели Ollama
|
// Разогрев модели Ollama
|
||||||
// console.log('🔥 Запуск разогрева модели...');
|
// console.log('🔥 Запуск разогрева модели...');
|
||||||
setTimeout(() => {
|
setTimeout(() => {
|
||||||
warmupModel().catch(err => {
|
|
||||||
// console.error('❌ Ошибка разогрева модели:', err.message);
|
|
||||||
});
|
|
||||||
}, 10000); // Задержка 10 секунд для полной инициализации
|
}, 10000); // Задержка 10 секунд для полной инициализации
|
||||||
|
|
||||||
await initServices(); // Только теперь запускать сервисы
|
await initServices(); // Только теперь запускать сервисы
|
||||||
|
|||||||
@@ -352,8 +352,7 @@ class AIAssistant {
|
|||||||
model,
|
model,
|
||||||
messages: finalMessages,
|
messages: finalMessages,
|
||||||
stream: false,
|
stream: false,
|
||||||
options: ollamaOptions,
|
options: ollamaOptions
|
||||||
keep_alive: '3m'
|
|
||||||
})
|
})
|
||||||
});
|
});
|
||||||
logger.info(`[AIAssistant] Ollama API ответил: status=${response.status}`);
|
logger.info(`[AIAssistant] Ollama API ответил: status=${response.status}`);
|
||||||
|
|||||||
@@ -30,7 +30,9 @@ services:
|
|||||||
timeout: 5s
|
timeout: 5s
|
||||||
retries: 5
|
retries: 5
|
||||||
ollama:
|
ollama:
|
||||||
image: ollama/ollama:latest
|
build:
|
||||||
|
context: .
|
||||||
|
dockerfile: Dockerfile.ollama
|
||||||
container_name: dapp-ollama
|
container_name: dapp-ollama
|
||||||
restart: unless-stopped
|
restart: unless-stopped
|
||||||
logging:
|
logging:
|
||||||
@@ -53,11 +55,11 @@ services:
|
|||||||
environment:
|
environment:
|
||||||
- OLLAMA_HOST=0.0.0.0
|
- OLLAMA_HOST=0.0.0.0
|
||||||
- OLLAMA_ORIGINS=*
|
- OLLAMA_ORIGINS=*
|
||||||
- OLLAMA_NUM_PARALLEL=1
|
- OLLAMA_NUM_PARALLEL=2
|
||||||
- OLLAMA_NUM_GPU=0
|
- OLLAMA_NUM_GPU=0
|
||||||
- OLLAMA_KEEP_ALIVE=86400
|
- OLLAMA_KEEP_ALIVE=86400
|
||||||
- OLLAMA_MODEL_TIMEOUT=0
|
- OLLAMA_MODEL_TIMEOUT=0
|
||||||
- OLLAMA_MAX_LOADED_MODELS=1
|
- OLLAMA_MAX_LOADED_MODELS=2
|
||||||
- OLLAMA_FLASH_ATTENTION=0
|
- OLLAMA_FLASH_ATTENTION=0
|
||||||
- OLLAMA_LLM_LIBRARY=auto
|
- OLLAMA_LLM_LIBRARY=auto
|
||||||
healthcheck:
|
healthcheck:
|
||||||
@@ -66,8 +68,6 @@ services:
|
|||||||
timeout: 10s
|
timeout: 10s
|
||||||
retries: 5
|
retries: 5
|
||||||
start_period: 120s
|
start_period: 120s
|
||||||
# Предзагружаем модель при запуске контейнера с keepalive
|
|
||||||
entrypoint: ["/bin/sh", "-c", "ollama serve & sleep 15 && ollama run --keepalive 24h qwen2.5:7b 'test' && tail -f /dev/null"]
|
|
||||||
vector-search:
|
vector-search:
|
||||||
build:
|
build:
|
||||||
context: ./vector-search
|
context: ./vector-search
|
||||||
|
|||||||
@@ -134,6 +134,36 @@
|
|||||||
- Генерация мультимодальных ответов
|
- Генерация мультимодальных ответов
|
||||||
- **Результат:** Контекст из медиафайлов
|
- **Результат:** Контекст из медиафайлов
|
||||||
|
|
||||||
|
#### 9. Агент "Саммари беседы"
|
||||||
|
- **Задача:** Создание краткого саммари истории беседы
|
||||||
|
- **Функции:**
|
||||||
|
- Анализирует последние 10-20 сообщений из истории
|
||||||
|
- Создает краткое саммари через AI (вместо передачи полной истории)
|
||||||
|
- Кэширует результат для повторного использования
|
||||||
|
- Обновляет саммари при поступлении новых сообщений
|
||||||
|
- Оптимизирует количество токенов в промпте
|
||||||
|
- **Результат:** Оптимизированный контекст беседы для AI
|
||||||
|
|
||||||
|
#### 10. Агент "Анализ контакта"
|
||||||
|
- **Задача:** Извлечение и анализ данных пользователя из профиля
|
||||||
|
- **Функции:**
|
||||||
|
- Получает данные из профиля контакта (имя, теги, язык, роль)
|
||||||
|
- Анализирует предпочтения и историю взаимодействий
|
||||||
|
- Кэширует анализ для быстрого доступа
|
||||||
|
- Обновляет при изменении профиля пользователя
|
||||||
|
- Определяет стиль общения и приоритет
|
||||||
|
- **Результат:** Персонализированный контекст для ответа
|
||||||
|
|
||||||
|
#### 11. Агент "Кэширование бесед"
|
||||||
|
- **Задача:** Управление кэшем бесед и контекста
|
||||||
|
- **Функции:**
|
||||||
|
- Кэширует саммари беседы + анализ контакта
|
||||||
|
- Управляет TTL (Time To Live) для автоматической очистки
|
||||||
|
- Проверяет актуальность кэша при новых сообщениях
|
||||||
|
- Оптимизирует производительность системы
|
||||||
|
- Предотвращает повторные вычисления
|
||||||
|
- **Результат:** Быстрый доступ к контексту без пересчета
|
||||||
|
|
||||||
### ⚙️ Логика работы многоагентной системы
|
### ⚙️ Логика работы многоагентной системы
|
||||||
|
|
||||||
#### Шаг 1: Получение сообщения
|
#### Шаг 1: Получение сообщения
|
||||||
@@ -148,6 +178,9 @@
|
|||||||
- Агент "Контекст" → анализирует историю
|
- Агент "Контекст" → анализирует историю
|
||||||
- Агент "Мультиязычность" → определяет язык
|
- Агент "Мультиязычность" → определяет язык
|
||||||
- Агент "Мультимодальность" → обрабатывает медиа
|
- Агент "Мультимодальность" → обрабатывает медиа
|
||||||
|
- Агент "Саммари беседы" → создает краткое саммари истории
|
||||||
|
- Агент "Анализ контакта" → извлекает данные из профиля
|
||||||
|
- Агент "Кэширование бесед" → проверяет и обновляет кэш
|
||||||
|
|
||||||
#### Шаг 3: Сбор и анализ результатов
|
#### Шаг 3: Сбор и анализ результатов
|
||||||
- Координатор собирает данные от всех агентов
|
- Координатор собирает данные от всех агентов
|
||||||
@@ -163,6 +196,8 @@
|
|||||||
- Обновляет профиль пользователя
|
- Обновляет профиль пользователя
|
||||||
- Сохраняет контекст беседы
|
- Сохраняет контекст беседы
|
||||||
- Логирует использованные знания
|
- Логирует использованные знания
|
||||||
|
- Обновляет кэш саммари и анализа контакта
|
||||||
|
- Сохраняет оптимизированный контекст для будущих запросов
|
||||||
|
|
||||||
### 🎨 Преимущества многоагентной архитектуры
|
### 🎨 Преимущества многоагентной архитектуры
|
||||||
|
|
||||||
@@ -172,6 +207,9 @@
|
|||||||
4. **Гибкость:** Разные комбинации агентов для разных ситуаций
|
4. **Гибкость:** Разные комбинации агентов для разных ситуаций
|
||||||
5. **Персонализация:** Глубокое понимание каждого пользователя
|
5. **Персонализация:** Глубокое понимание каждого пользователя
|
||||||
6. **Качество:** Специализированная обработка каждого аспекта
|
6. **Качество:** Специализированная обработка каждого аспекта
|
||||||
|
7. **Оптимизация:** Саммари бесед снижает количество токенов
|
||||||
|
8. **Кэширование:** Быстрый доступ к контексту без пересчета
|
||||||
|
9. **Производительность:** Уменьшение времени ответа и нагрузки на AI
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
@@ -251,10 +289,17 @@
|
|||||||
- Агент "Контекст беседы"
|
- Агент "Контекст беседы"
|
||||||
- Агент "Детализация"
|
- Агент "Детализация"
|
||||||
- Агент "Персонализация ответа"
|
- Агент "Персонализация ответа"
|
||||||
|
- Агент "Саммари беседы" (новый)
|
||||||
|
- Агент "Анализ контакта" (новый)
|
||||||
|
- Агент "Кэширование бесед" (новый)
|
||||||
3. **Интеграция с существующей системой:**
|
3. **Интеграция с существующей системой:**
|
||||||
- Подключение агентов к текущему pipeline
|
- Подключение агентов к текущему pipeline
|
||||||
- Настройка логирования и мониторинга
|
- Настройка логирования и мониторинга
|
||||||
- Тестирование взаимодействия агентов
|
- Тестирование взаимодействия агентов
|
||||||
|
4. **Реализация оптимизаций:**
|
||||||
|
- Создание сервиса саммари бесед
|
||||||
|
- Интеграция анализа контактов для персонализации
|
||||||
|
- Настройка кэширования для повышения производительности
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
@@ -262,8 +307,12 @@
|
|||||||
1. **Модификация логики ответа ассистента:**
|
1. **Модификация логики ответа ассистента:**
|
||||||
- При получении сообщения пользователя — искать релевантные знания и включать их в prompt LLM.
|
- При получении сообщения пользователя — искать релевантные знания и включать их в prompt LLM.
|
||||||
- Обеспечить мультиязычность поиска и генерации ответа.
|
- Обеспечить мультиязычность поиска и генерации ответа.
|
||||||
|
- Интегрировать саммари беседы вместо передачи полной истории.
|
||||||
|
- Использовать анализ контактов для персонализации ответов.
|
||||||
2. **Логирование и трассировка:**
|
2. **Логирование и трассировка:**
|
||||||
- Сохранять, какие знания были использованы для ответа.
|
- Сохранять, какие знания были использованы для ответа.
|
||||||
|
- Логировать использование саммари и кэширования.
|
||||||
|
- Отслеживать производительность оптимизаций.
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
@@ -287,7 +336,9 @@
|
|||||||
## Этап 7. Тестирование и оптимизация
|
## Этап 7. Тестирование и оптимизация
|
||||||
1. **Покрытие тестами ключевых сценариев (unit, интеграционные).**
|
1. **Покрытие тестами ключевых сценариев (unit, интеграционные).**
|
||||||
2. **Оптимизация скорости поиска и генерации.**
|
2. **Оптимизация скорости поиска и генерации.**
|
||||||
3. **Документация для команды.**
|
3. **Тестирование производительности саммари и кэширования.**
|
||||||
|
4. **Оптимизация использования токенов и времени ответа.**
|
||||||
|
5. **Документация для команды.**
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
@@ -308,6 +359,9 @@
|
|||||||
- При обработке запроса пользователя RAG-ассистент определяет его теги (по связям в таблице тегов).
|
- При обработке запроса пользователя RAG-ассистент определяет его теги (по связям в таблице тегов).
|
||||||
- Для генерации ответа ассистент использует только те знания (вопросы/ответы), которые соответствуют тегам пользователя.
|
- Для генерации ответа ассистент использует только те знания (вопросы/ответы), которые соответствуют тегам пользователя.
|
||||||
- Администратор может добавлять новые теги, связывать их с пользователями, а также создавать и редактировать знания для каждой группы.
|
- Администратор может добавлять новые теги, связывать их с пользователями, а также создавать и редактировать знания для каждой группы.
|
||||||
|
- **Оптимизация через саммари:** Вместо передачи полной истории беседы (10 сообщений), система создает краткое саммари через AI.
|
||||||
|
- **Персонализация через контакты:** Ассистент использует данные из профиля контакта (имя, язык, теги) для персонализации ответов.
|
||||||
|
- **Кэширование контекста:** Саммари беседы и анализ контактов кэшируются для быстрого доступа без пересчета.
|
||||||
|
|
||||||
### 4. UI/UX требования
|
### 4. UI/UX требования
|
||||||
- В интерфейсе создания/редактирования пользовательских таблиц должен быть доступен тип столбца "relation" (связь с users).
|
- В интерфейсе создания/редактирования пользовательских таблиц должен быть доступен тип столбца "relation" (связь с users).
|
||||||
|
|||||||
47
entrypoint.sh
Normal file
47
entrypoint.sh
Normal file
@@ -0,0 +1,47 @@
|
|||||||
|
#!/bin/bash
|
||||||
|
|
||||||
|
# Запускаем Ollama сервер в фоне
|
||||||
|
ollama serve &
|
||||||
|
|
||||||
|
# Ждем запуска сервера
|
||||||
|
echo "Ждем запуска Ollama сервера..."
|
||||||
|
sleep 20
|
||||||
|
|
||||||
|
# Проверяем готовность сервера
|
||||||
|
echo "Проверяем готовность сервера..."
|
||||||
|
while ! curl -s http://localhost:11434/api/tags > /dev/null; do
|
||||||
|
echo "Сервер еще не готов, ждем..."
|
||||||
|
sleep 5
|
||||||
|
done
|
||||||
|
echo "Сервер готов!"
|
||||||
|
|
||||||
|
# Загружаем чат-модель через API с keepalive 24h
|
||||||
|
echo "Загружаем чат-модель qwen2.5:7b через API..."
|
||||||
|
curl -X POST http://localhost:11434/api/chat \
|
||||||
|
-H "Content-Type: application/json" \
|
||||||
|
-d '{
|
||||||
|
"model": "qwen2.5:7b",
|
||||||
|
"messages": [{"role": "user", "content": "hi"}],
|
||||||
|
"keep_alive": "24h"
|
||||||
|
}' > /dev/null 2>&1
|
||||||
|
|
||||||
|
echo "Чат-модель qwen2.5:7b загружена!"
|
||||||
|
|
||||||
|
# Скачиваем модель эмбеддингов
|
||||||
|
echo "Скачиваем модель эмбеддингов mxbai-embed-large:latest..."
|
||||||
|
ollama pull mxbai-embed-large:latest
|
||||||
|
|
||||||
|
# Загружаем модель эмбеддингов через API с keepalive 24h
|
||||||
|
echo "Загружаем модель эмбеддингов в память на 24 часа..."
|
||||||
|
curl -X POST http://localhost:11434/api/embed \
|
||||||
|
-H "Content-Type: application/json" \
|
||||||
|
-d '{
|
||||||
|
"model": "mxbai-embed-large:latest",
|
||||||
|
"input": "test",
|
||||||
|
"keep_alive": "24h"
|
||||||
|
}'
|
||||||
|
|
||||||
|
echo "Все модели загружены! Система готова к работе."
|
||||||
|
|
||||||
|
# Держим контейнер запущенным
|
||||||
|
tail -f /dev/null
|
||||||
Reference in New Issue
Block a user