ваше сообщение коммита

This commit is contained in:
2025-09-04 13:24:53 +03:00
parent 888873f630
commit 9f94295d15
8 changed files with 118 additions and 79 deletions

10
Dockerfile.ollama Normal file
View File

@@ -0,0 +1,10 @@
FROM ollama/ollama:latest
# Устанавливаем curl для API запросов
RUN apt-get update && apt-get install -y curl && rm -rf /var/lib/apt/lists/*
# Копируем entrypoint скрипт
COPY entrypoint.sh /entrypoint.sh
RUN chmod +x /entrypoint.sh
ENTRYPOINT ["/entrypoint.sh"]

View File

@@ -21,7 +21,6 @@ const errorHandler = require('./middleware/errorHandler');
// const { version } = require('./package.json'); // Закомментировано, так как не используется
const db = require('./db'); // Добавляем импорт db
const aiAssistant = require('./services/ai-assistant'); // Добавляем импорт aiAssistant
const { warmupModel } = require('./scripts/warmup-model'); // Добавляем импорт разогрева модели
const fs = require('fs');
const path = require('path');
const messagesRoutes = require('./routes/messages');

View File

@@ -1,66 +0,0 @@
#!/usr/bin/env node
/**
* Скрипт для разогрева модели Ollama
* Запускается при старте backend для ускорения первых запросов
*/
const fetch = require('node-fetch');
const OLLAMA_URL = process.env.OLLAMA_URL || 'http://ollama:11434';
const MODEL_NAME = process.env.OLLAMA_MODEL || 'qwen2.5:7b';
async function warmupModel() {
// console.log('🔥 Разогрев модели Ollama...');
try {
// Проверяем доступность Ollama
const healthResponse = await fetch(`${OLLAMA_URL}/api/tags`);
if (!healthResponse.ok) {
throw new Error(`Ollama недоступен: ${healthResponse.status}`);
}
// console.log('✅ Ollama доступен');
// Отправляем простой запрос для разогрева (корректный эндпоинт)
const warmupResponse = await fetch(`${OLLAMA_URL}/api/chat`, {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({
model: MODEL_NAME,
messages: [
{ role: 'system', content: 'Ты полезный ассистент.' },
{ role: 'user', content: 'Привет! Как дела?' }
],
stream: false,
options: {
temperature: 0.2,
num_predict: 64,
num_ctx: 1024,
num_thread: 4,
num_gpu: 1,
repeat_penalty: 1.1,
top_k: 30,
top_p: 0.9
}
}),
});
if (!warmupResponse.ok) {
throw new Error(`Ошибка разогрева: ${warmupResponse.status}`);
}
const data = await warmupResponse.json();
// console.log('✅ Модель разогрета успешно');
// console.log(`📝 Ответ модели: ${(data.message?.content || data.response || '').substring(0, 100)}...`);
} catch (error) {
// console.error('❌ Ошибка разогрева модели:', error.message);
// Не прерываем запуск приложения
}
}
// Запускаем разогрев с задержкой
setTimeout(warmupModel, 5000);
module.exports = { warmupModel };

View File

@@ -18,7 +18,6 @@ const logger = require('./utils/logger');
const { getBot } = require('./services/telegramBot');
const EmailBotService = require('./services/emailBot');
const { initDbPool, seedAIAssistantSettings } = require('./db');
const { warmupModel } = require('./scripts/warmup-model'); // Добавляем импорт разогрева модели
const memoryMonitor = require('./utils/memoryMonitor');
const PORT = process.env.PORT || 8000;
@@ -72,9 +71,6 @@ async function startServer() {
// Разогрев модели Ollama
// console.log('🔥 Запуск разогрева модели...');
setTimeout(() => {
warmupModel().catch(err => {
// console.error('❌ Ошибка разогрева модели:', err.message);
});
}, 10000); // Задержка 10 секунд для полной инициализации
await initServices(); // Только теперь запускать сервисы

View File

@@ -352,8 +352,7 @@ class AIAssistant {
model,
messages: finalMessages,
stream: false,
options: ollamaOptions,
keep_alive: '3m'
options: ollamaOptions
})
});
logger.info(`[AIAssistant] Ollama API ответил: status=${response.status}`);

View File

@@ -30,7 +30,9 @@ services:
timeout: 5s
retries: 5
ollama:
image: ollama/ollama:latest
build:
context: .
dockerfile: Dockerfile.ollama
container_name: dapp-ollama
restart: unless-stopped
logging:
@@ -53,11 +55,11 @@ services:
environment:
- OLLAMA_HOST=0.0.0.0
- OLLAMA_ORIGINS=*
- OLLAMA_NUM_PARALLEL=1
- OLLAMA_NUM_PARALLEL=2
- OLLAMA_NUM_GPU=0
- OLLAMA_KEEP_ALIVE=86400
- OLLAMA_MODEL_TIMEOUT=0
- OLLAMA_MAX_LOADED_MODELS=1
- OLLAMA_MAX_LOADED_MODELS=2
- OLLAMA_FLASH_ATTENTION=0
- OLLAMA_LLM_LIBRARY=auto
healthcheck:
@@ -66,8 +68,6 @@ services:
timeout: 10s
retries: 5
start_period: 120s
# Предзагружаем модель при запуске контейнера с keepalive
entrypoint: ["/bin/sh", "-c", "ollama serve & sleep 15 && ollama run --keepalive 24h qwen2.5:7b 'test' && tail -f /dev/null"]
vector-search:
build:
context: ./vector-search

View File

@@ -134,6 +134,36 @@
- Генерация мультимодальных ответов
- **Результат:** Контекст из медиафайлов
#### 9. Агент "Саммари беседы"
- **Задача:** Создание краткого саммари истории беседы
- **Функции:**
- Анализирует последние 10-20 сообщений из истории
- Создает краткое саммари через AI (вместо передачи полной истории)
- Кэширует результат для повторного использования
- Обновляет саммари при поступлении новых сообщений
- Оптимизирует количество токенов в промпте
- **Результат:** Оптимизированный контекст беседы для AI
#### 10. Агент "Анализ контакта"
- **Задача:** Извлечение и анализ данных пользователя из профиля
- **Функции:**
- Получает данные из профиля контакта (имя, теги, язык, роль)
- Анализирует предпочтения и историю взаимодействий
- Кэширует анализ для быстрого доступа
- Обновляет при изменении профиля пользователя
- Определяет стиль общения и приоритет
- **Результат:** Персонализированный контекст для ответа
#### 11. Агент "Кэширование бесед"
- **Задача:** Управление кэшем бесед и контекста
- **Функции:**
- Кэширует саммари беседы + анализ контакта
- Управляет TTL (Time To Live) для автоматической очистки
- Проверяет актуальность кэша при новых сообщениях
- Оптимизирует производительность системы
- Предотвращает повторные вычисления
- **Результат:** Быстрый доступ к контексту без пересчета
### ⚙️ Логика работы многоагентной системы
#### Шаг 1: Получение сообщения
@@ -148,6 +178,9 @@
- Агент "Контекст" → анализирует историю
- Агент "Мультиязычность" → определяет язык
- Агент "Мультимодальность" → обрабатывает медиа
- Агент "Саммари беседы" → создает краткое саммари истории
- Агент "Анализ контакта" → извлекает данные из профиля
- Агент "Кэширование бесед" → проверяет и обновляет кэш
#### Шаг 3: Сбор и анализ результатов
- Координатор собирает данные от всех агентов
@@ -163,6 +196,8 @@
- Обновляет профиль пользователя
- Сохраняет контекст беседы
- Логирует использованные знания
- Обновляет кэш саммари и анализа контакта
- Сохраняет оптимизированный контекст для будущих запросов
### 🎨 Преимущества многоагентной архитектуры
@@ -172,6 +207,9 @@
4. **Гибкость:** Разные комбинации агентов для разных ситуаций
5. **Персонализация:** Глубокое понимание каждого пользователя
6. **Качество:** Специализированная обработка каждого аспекта
7. **Оптимизация:** Саммари бесед снижает количество токенов
8. **Кэширование:** Быстрый доступ к контексту без пересчета
9. **Производительность:** Уменьшение времени ответа и нагрузки на AI
---
@@ -251,10 +289,17 @@
- Агент "Контекст беседы"
- Агент "Детализация"
- Агент "Персонализация ответа"
- Агент "Саммари беседы" (новый)
- Агент "Анализ контакта" (новый)
- Агент "Кэширование бесед" (новый)
3. **Интеграция с существующей системой:**
- Подключение агентов к текущему pipeline
- Настройка логирования и мониторинга
- Тестирование взаимодействия агентов
4. **Реализация оптимизаций:**
- Создание сервиса саммари бесед
- Интеграция анализа контактов для персонализации
- Настройка кэширования для повышения производительности
---
@@ -262,8 +307,12 @@
1. **Модификация логики ответа ассистента:**
- При получении сообщения пользователя — искать релевантные знания и включать их в prompt LLM.
- Обеспечить мультиязычность поиска и генерации ответа.
- Интегрировать саммари беседы вместо передачи полной истории.
- Использовать анализ контактов для персонализации ответов.
2. **Логирование и трассировка:**
- Сохранять, какие знания были использованы для ответа.
- Логировать использование саммари и кэширования.
- Отслеживать производительность оптимизаций.
---
@@ -287,7 +336,9 @@
## Этап 7. Тестирование и оптимизация
1. **Покрытие тестами ключевых сценариев (unit, интеграционные).**
2. **Оптимизация скорости поиска и генерации.**
3. **Документация для команды.**
3. **Тестирование производительности саммари и кэширования.**
4. **Оптимизация использования токенов и времени ответа.**
5. **Документация для команды.**
---
@@ -308,6 +359,9 @@
- При обработке запроса пользователя RAG-ассистент определяет его теги (по связям в таблице тегов).
- Для генерации ответа ассистент использует только те знания (вопросы/ответы), которые соответствуют тегам пользователя.
- Администратор может добавлять новые теги, связывать их с пользователями, а также создавать и редактировать знания для каждой группы.
- **Оптимизация через саммари:** Вместо передачи полной истории беседы (10 сообщений), система создает краткое саммари через AI.
- **Персонализация через контакты:** Ассистент использует данные из профиля контакта (имя, язык, теги) для персонализации ответов.
- **Кэширование контекста:** Саммари беседы и анализ контактов кэшируются для быстрого доступа без пересчета.
### 4. UI/UX требования
- В интерфейсе создания/редактирования пользовательских таблиц должен быть доступен тип столбца "relation" (связь с users).

47
entrypoint.sh Normal file
View File

@@ -0,0 +1,47 @@
#!/bin/bash
# Запускаем Ollama сервер в фоне
ollama serve &
# Ждем запуска сервера
echo "Ждем запуска Ollama сервера..."
sleep 20
# Проверяем готовность сервера
echo "Проверяем готовность сервера..."
while ! curl -s http://localhost:11434/api/tags > /dev/null; do
echo "Сервер еще не готов, ждем..."
sleep 5
done
echo "Сервер готов!"
# Загружаем чат-модель через API с keepalive 24h
echo "Загружаем чат-модель qwen2.5:7b через API..."
curl -X POST http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "qwen2.5:7b",
"messages": [{"role": "user", "content": "hi"}],
"keep_alive": "24h"
}' > /dev/null 2>&1
echo "Чат-модель qwen2.5:7b загружена!"
# Скачиваем модель эмбеддингов
echo "Скачиваем модель эмбеддингов mxbai-embed-large:latest..."
ollama pull mxbai-embed-large:latest
# Загружаем модель эмбеддингов через API с keepalive 24h
echo "Загружаем модель эмбеддингов в память на 24 часа..."
curl -X POST http://localhost:11434/api/embed \
-H "Content-Type: application/json" \
-d '{
"model": "mxbai-embed-large:latest",
"input": "test",
"keep_alive": "24h"
}'
echo "Все модели загружены! Система готова к работе."
# Держим контейнер запущенным
tail -f /dev/null