ваше сообщение коммита
This commit is contained in:
10
Dockerfile.ollama
Normal file
10
Dockerfile.ollama
Normal file
@@ -0,0 +1,10 @@
|
||||
FROM ollama/ollama:latest
|
||||
|
||||
# Устанавливаем curl для API запросов
|
||||
RUN apt-get update && apt-get install -y curl && rm -rf /var/lib/apt/lists/*
|
||||
|
||||
# Копируем entrypoint скрипт
|
||||
COPY entrypoint.sh /entrypoint.sh
|
||||
RUN chmod +x /entrypoint.sh
|
||||
|
||||
ENTRYPOINT ["/entrypoint.sh"]
|
||||
@@ -21,7 +21,6 @@ const errorHandler = require('./middleware/errorHandler');
|
||||
// const { version } = require('./package.json'); // Закомментировано, так как не используется
|
||||
const db = require('./db'); // Добавляем импорт db
|
||||
const aiAssistant = require('./services/ai-assistant'); // Добавляем импорт aiAssistant
|
||||
const { warmupModel } = require('./scripts/warmup-model'); // Добавляем импорт разогрева модели
|
||||
const fs = require('fs');
|
||||
const path = require('path');
|
||||
const messagesRoutes = require('./routes/messages');
|
||||
|
||||
@@ -1,66 +0,0 @@
|
||||
#!/usr/bin/env node
|
||||
|
||||
/**
|
||||
* Скрипт для разогрева модели Ollama
|
||||
* Запускается при старте backend для ускорения первых запросов
|
||||
*/
|
||||
|
||||
const fetch = require('node-fetch');
|
||||
|
||||
const OLLAMA_URL = process.env.OLLAMA_URL || 'http://ollama:11434';
|
||||
const MODEL_NAME = process.env.OLLAMA_MODEL || 'qwen2.5:7b';
|
||||
|
||||
async function warmupModel() {
|
||||
// console.log('🔥 Разогрев модели Ollama...');
|
||||
|
||||
try {
|
||||
// Проверяем доступность Ollama
|
||||
const healthResponse = await fetch(`${OLLAMA_URL}/api/tags`);
|
||||
if (!healthResponse.ok) {
|
||||
throw new Error(`Ollama недоступен: ${healthResponse.status}`);
|
||||
}
|
||||
|
||||
// console.log('✅ Ollama доступен');
|
||||
|
||||
// Отправляем простой запрос для разогрева (корректный эндпоинт)
|
||||
const warmupResponse = await fetch(`${OLLAMA_URL}/api/chat`, {
|
||||
method: 'POST',
|
||||
headers: { 'Content-Type': 'application/json' },
|
||||
body: JSON.stringify({
|
||||
model: MODEL_NAME,
|
||||
messages: [
|
||||
{ role: 'system', content: 'Ты полезный ассистент.' },
|
||||
{ role: 'user', content: 'Привет! Как дела?' }
|
||||
],
|
||||
stream: false,
|
||||
options: {
|
||||
temperature: 0.2,
|
||||
num_predict: 64,
|
||||
num_ctx: 1024,
|
||||
num_thread: 4,
|
||||
num_gpu: 1,
|
||||
repeat_penalty: 1.1,
|
||||
top_k: 30,
|
||||
top_p: 0.9
|
||||
}
|
||||
}),
|
||||
});
|
||||
|
||||
if (!warmupResponse.ok) {
|
||||
throw new Error(`Ошибка разогрева: ${warmupResponse.status}`);
|
||||
}
|
||||
|
||||
const data = await warmupResponse.json();
|
||||
// console.log('✅ Модель разогрета успешно');
|
||||
// console.log(`📝 Ответ модели: ${(data.message?.content || data.response || '').substring(0, 100)}...`);
|
||||
|
||||
} catch (error) {
|
||||
// console.error('❌ Ошибка разогрева модели:', error.message);
|
||||
// Не прерываем запуск приложения
|
||||
}
|
||||
}
|
||||
|
||||
// Запускаем разогрев с задержкой
|
||||
setTimeout(warmupModel, 5000);
|
||||
|
||||
module.exports = { warmupModel };
|
||||
@@ -18,7 +18,6 @@ const logger = require('./utils/logger');
|
||||
const { getBot } = require('./services/telegramBot');
|
||||
const EmailBotService = require('./services/emailBot');
|
||||
const { initDbPool, seedAIAssistantSettings } = require('./db');
|
||||
const { warmupModel } = require('./scripts/warmup-model'); // Добавляем импорт разогрева модели
|
||||
const memoryMonitor = require('./utils/memoryMonitor');
|
||||
|
||||
const PORT = process.env.PORT || 8000;
|
||||
@@ -72,9 +71,6 @@ async function startServer() {
|
||||
// Разогрев модели Ollama
|
||||
// console.log('🔥 Запуск разогрева модели...');
|
||||
setTimeout(() => {
|
||||
warmupModel().catch(err => {
|
||||
// console.error('❌ Ошибка разогрева модели:', err.message);
|
||||
});
|
||||
}, 10000); // Задержка 10 секунд для полной инициализации
|
||||
|
||||
await initServices(); // Только теперь запускать сервисы
|
||||
|
||||
@@ -352,8 +352,7 @@ class AIAssistant {
|
||||
model,
|
||||
messages: finalMessages,
|
||||
stream: false,
|
||||
options: ollamaOptions,
|
||||
keep_alive: '3m'
|
||||
options: ollamaOptions
|
||||
})
|
||||
});
|
||||
logger.info(`[AIAssistant] Ollama API ответил: status=${response.status}`);
|
||||
|
||||
@@ -30,7 +30,9 @@ services:
|
||||
timeout: 5s
|
||||
retries: 5
|
||||
ollama:
|
||||
image: ollama/ollama:latest
|
||||
build:
|
||||
context: .
|
||||
dockerfile: Dockerfile.ollama
|
||||
container_name: dapp-ollama
|
||||
restart: unless-stopped
|
||||
logging:
|
||||
@@ -53,11 +55,11 @@ services:
|
||||
environment:
|
||||
- OLLAMA_HOST=0.0.0.0
|
||||
- OLLAMA_ORIGINS=*
|
||||
- OLLAMA_NUM_PARALLEL=1
|
||||
- OLLAMA_NUM_PARALLEL=2
|
||||
- OLLAMA_NUM_GPU=0
|
||||
- OLLAMA_KEEP_ALIVE=86400
|
||||
- OLLAMA_MODEL_TIMEOUT=0
|
||||
- OLLAMA_MAX_LOADED_MODELS=1
|
||||
- OLLAMA_MAX_LOADED_MODELS=2
|
||||
- OLLAMA_FLASH_ATTENTION=0
|
||||
- OLLAMA_LLM_LIBRARY=auto
|
||||
healthcheck:
|
||||
@@ -66,8 +68,6 @@ services:
|
||||
timeout: 10s
|
||||
retries: 5
|
||||
start_period: 120s
|
||||
# Предзагружаем модель при запуске контейнера с keepalive
|
||||
entrypoint: ["/bin/sh", "-c", "ollama serve & sleep 15 && ollama run --keepalive 24h qwen2.5:7b 'test' && tail -f /dev/null"]
|
||||
vector-search:
|
||||
build:
|
||||
context: ./vector-search
|
||||
|
||||
@@ -134,6 +134,36 @@
|
||||
- Генерация мультимодальных ответов
|
||||
- **Результат:** Контекст из медиафайлов
|
||||
|
||||
#### 9. Агент "Саммари беседы"
|
||||
- **Задача:** Создание краткого саммари истории беседы
|
||||
- **Функции:**
|
||||
- Анализирует последние 10-20 сообщений из истории
|
||||
- Создает краткое саммари через AI (вместо передачи полной истории)
|
||||
- Кэширует результат для повторного использования
|
||||
- Обновляет саммари при поступлении новых сообщений
|
||||
- Оптимизирует количество токенов в промпте
|
||||
- **Результат:** Оптимизированный контекст беседы для AI
|
||||
|
||||
#### 10. Агент "Анализ контакта"
|
||||
- **Задача:** Извлечение и анализ данных пользователя из профиля
|
||||
- **Функции:**
|
||||
- Получает данные из профиля контакта (имя, теги, язык, роль)
|
||||
- Анализирует предпочтения и историю взаимодействий
|
||||
- Кэширует анализ для быстрого доступа
|
||||
- Обновляет при изменении профиля пользователя
|
||||
- Определяет стиль общения и приоритет
|
||||
- **Результат:** Персонализированный контекст для ответа
|
||||
|
||||
#### 11. Агент "Кэширование бесед"
|
||||
- **Задача:** Управление кэшем бесед и контекста
|
||||
- **Функции:**
|
||||
- Кэширует саммари беседы + анализ контакта
|
||||
- Управляет TTL (Time To Live) для автоматической очистки
|
||||
- Проверяет актуальность кэша при новых сообщениях
|
||||
- Оптимизирует производительность системы
|
||||
- Предотвращает повторные вычисления
|
||||
- **Результат:** Быстрый доступ к контексту без пересчета
|
||||
|
||||
### ⚙️ Логика работы многоагентной системы
|
||||
|
||||
#### Шаг 1: Получение сообщения
|
||||
@@ -148,6 +178,9 @@
|
||||
- Агент "Контекст" → анализирует историю
|
||||
- Агент "Мультиязычность" → определяет язык
|
||||
- Агент "Мультимодальность" → обрабатывает медиа
|
||||
- Агент "Саммари беседы" → создает краткое саммари истории
|
||||
- Агент "Анализ контакта" → извлекает данные из профиля
|
||||
- Агент "Кэширование бесед" → проверяет и обновляет кэш
|
||||
|
||||
#### Шаг 3: Сбор и анализ результатов
|
||||
- Координатор собирает данные от всех агентов
|
||||
@@ -163,6 +196,8 @@
|
||||
- Обновляет профиль пользователя
|
||||
- Сохраняет контекст беседы
|
||||
- Логирует использованные знания
|
||||
- Обновляет кэш саммари и анализа контакта
|
||||
- Сохраняет оптимизированный контекст для будущих запросов
|
||||
|
||||
### 🎨 Преимущества многоагентной архитектуры
|
||||
|
||||
@@ -172,6 +207,9 @@
|
||||
4. **Гибкость:** Разные комбинации агентов для разных ситуаций
|
||||
5. **Персонализация:** Глубокое понимание каждого пользователя
|
||||
6. **Качество:** Специализированная обработка каждого аспекта
|
||||
7. **Оптимизация:** Саммари бесед снижает количество токенов
|
||||
8. **Кэширование:** Быстрый доступ к контексту без пересчета
|
||||
9. **Производительность:** Уменьшение времени ответа и нагрузки на AI
|
||||
|
||||
---
|
||||
|
||||
@@ -251,10 +289,17 @@
|
||||
- Агент "Контекст беседы"
|
||||
- Агент "Детализация"
|
||||
- Агент "Персонализация ответа"
|
||||
- Агент "Саммари беседы" (новый)
|
||||
- Агент "Анализ контакта" (новый)
|
||||
- Агент "Кэширование бесед" (новый)
|
||||
3. **Интеграция с существующей системой:**
|
||||
- Подключение агентов к текущему pipeline
|
||||
- Настройка логирования и мониторинга
|
||||
- Тестирование взаимодействия агентов
|
||||
4. **Реализация оптимизаций:**
|
||||
- Создание сервиса саммари бесед
|
||||
- Интеграция анализа контактов для персонализации
|
||||
- Настройка кэширования для повышения производительности
|
||||
|
||||
---
|
||||
|
||||
@@ -262,8 +307,12 @@
|
||||
1. **Модификация логики ответа ассистента:**
|
||||
- При получении сообщения пользователя — искать релевантные знания и включать их в prompt LLM.
|
||||
- Обеспечить мультиязычность поиска и генерации ответа.
|
||||
- Интегрировать саммари беседы вместо передачи полной истории.
|
||||
- Использовать анализ контактов для персонализации ответов.
|
||||
2. **Логирование и трассировка:**
|
||||
- Сохранять, какие знания были использованы для ответа.
|
||||
- Логировать использование саммари и кэширования.
|
||||
- Отслеживать производительность оптимизаций.
|
||||
|
||||
---
|
||||
|
||||
@@ -287,7 +336,9 @@
|
||||
## Этап 7. Тестирование и оптимизация
|
||||
1. **Покрытие тестами ключевых сценариев (unit, интеграционные).**
|
||||
2. **Оптимизация скорости поиска и генерации.**
|
||||
3. **Документация для команды.**
|
||||
3. **Тестирование производительности саммари и кэширования.**
|
||||
4. **Оптимизация использования токенов и времени ответа.**
|
||||
5. **Документация для команды.**
|
||||
|
||||
---
|
||||
|
||||
@@ -308,6 +359,9 @@
|
||||
- При обработке запроса пользователя RAG-ассистент определяет его теги (по связям в таблице тегов).
|
||||
- Для генерации ответа ассистент использует только те знания (вопросы/ответы), которые соответствуют тегам пользователя.
|
||||
- Администратор может добавлять новые теги, связывать их с пользователями, а также создавать и редактировать знания для каждой группы.
|
||||
- **Оптимизация через саммари:** Вместо передачи полной истории беседы (10 сообщений), система создает краткое саммари через AI.
|
||||
- **Персонализация через контакты:** Ассистент использует данные из профиля контакта (имя, язык, теги) для персонализации ответов.
|
||||
- **Кэширование контекста:** Саммари беседы и анализ контактов кэшируются для быстрого доступа без пересчета.
|
||||
|
||||
### 4. UI/UX требования
|
||||
- В интерфейсе создания/редактирования пользовательских таблиц должен быть доступен тип столбца "relation" (связь с users).
|
||||
|
||||
47
entrypoint.sh
Normal file
47
entrypoint.sh
Normal file
@@ -0,0 +1,47 @@
|
||||
#!/bin/bash
|
||||
|
||||
# Запускаем Ollama сервер в фоне
|
||||
ollama serve &
|
||||
|
||||
# Ждем запуска сервера
|
||||
echo "Ждем запуска Ollama сервера..."
|
||||
sleep 20
|
||||
|
||||
# Проверяем готовность сервера
|
||||
echo "Проверяем готовность сервера..."
|
||||
while ! curl -s http://localhost:11434/api/tags > /dev/null; do
|
||||
echo "Сервер еще не готов, ждем..."
|
||||
sleep 5
|
||||
done
|
||||
echo "Сервер готов!"
|
||||
|
||||
# Загружаем чат-модель через API с keepalive 24h
|
||||
echo "Загружаем чат-модель qwen2.5:7b через API..."
|
||||
curl -X POST http://localhost:11434/api/chat \
|
||||
-H "Content-Type: application/json" \
|
||||
-d '{
|
||||
"model": "qwen2.5:7b",
|
||||
"messages": [{"role": "user", "content": "hi"}],
|
||||
"keep_alive": "24h"
|
||||
}' > /dev/null 2>&1
|
||||
|
||||
echo "Чат-модель qwen2.5:7b загружена!"
|
||||
|
||||
# Скачиваем модель эмбеддингов
|
||||
echo "Скачиваем модель эмбеддингов mxbai-embed-large:latest..."
|
||||
ollama pull mxbai-embed-large:latest
|
||||
|
||||
# Загружаем модель эмбеддингов через API с keepalive 24h
|
||||
echo "Загружаем модель эмбеддингов в память на 24 часа..."
|
||||
curl -X POST http://localhost:11434/api/embed \
|
||||
-H "Content-Type: application/json" \
|
||||
-d '{
|
||||
"model": "mxbai-embed-large:latest",
|
||||
"input": "test",
|
||||
"keep_alive": "24h"
|
||||
}'
|
||||
|
||||
echo "Все модели загружены! Система готова к работе."
|
||||
|
||||
# Держим контейнер запущенным
|
||||
tail -f /dev/null
|
||||
Reference in New Issue
Block a user