Локальный ИИ-агент нужен, когда хочется работать с документами и моделями на своем компьютере: без отправки данных в облачный чат, без постоянной зависимости от API и с большим контролем над окружением. Но “локальный” не значит “магически приватный и мощный”: важно понимать ограничения железа, модели, документов и интерфейса.
Короткая версия: установите Ollama, скачайте подходящую модель, подключите Open WebUI или AnythingLLM, добавьте документы через RAG, ограничьте доступ к локальному API и проверьте качество ответов на своих файлах.
Что мы собираем
Соберем локального ассистента, который работает на компьютере или домашнем сервере. Он сможет отвечать в чате, работать с локальной моделью, подключать документы и выполнять простые агентные действия в выбранном интерфейсе.
- Ollama запускает локальную LLM.
- Open WebUI дает удобный чат-интерфейс.
- AnythingLLM подходит для workspace по документам и локального RAG.
- Документы индексируются локально.
- Агент не отправляет данные в облако, если вы не подключили внешние провайдеры.
- Качество зависит от модели, RAM/VRAM и подготовки базы знаний.
Шаг 1. Определите, зачем вам локальный агент
Перед установкой решите, какие задачи должен решать локальный агент. От этого зависит модель, интерфейс и требования к компьютеру.
- Чат по личным документам.
- Помощник для конспектов, PDF, инструкций и заметок.
- Локальный ассистент для кода.
- Прототип RAG без облачных API.
- Приватная база знаний для небольшой команды.
- Эксперименты с open-source моделями.
Если вам нужен агент для сложных CRM-действий, платежей или production-поддержки клиентов, локальный вариант лучше использовать как прототип, а не как единственный контур.
Шаг 2. Проверьте железо
Локальные модели требовательны к памяти. Маленькие 7B-8B модели могут работать на обычном компьютере, но скорость и качество будут зависеть от RAM, VRAM и CPU/GPU.
- 8-16 ГБ RAM: только небольшие модели и терпеливая скорость.
- 16-32 ГБ RAM: нормальный старт для 7B-8B моделей.
- GPU с 8-12 ГБ VRAM: заметно комфортнее для локального чата.
- Модели 13B+ требуют больше памяти и не всегда оправданы для первого запуска.
- Для RAG нужны еще место на диске и ресурсы на embeddings.
Начинайте с небольшой модели. Лучше стабильный быстрый помощник, чем “самая большая модель”, которая отвечает минутами.
Шаг 3. Установите Ollama и скачайте модель
Ollama запускает модели локально и дает API на порту 11434. После установки скачайте модель командой pull или сразу запустите ее через run.
ollama pull llama3.1:8b
ollama run llama3.1:8b
Проверьте список моделей:
ollama list
Проверка API:
curl http://localhost:11434/api/generate \
-d '{"model":"llama3.1:8b","prompt":"Коротко объясни, что такое RAG","stream":false}'
Если ответ пришел, локальная модель работает.
Шаг 4. Выберите интерфейс
Работать только из терминала неудобно. Для локального агента лучше поставить интерфейс.
- Open WebUI: удобный self-hosted чат-интерфейс для Ollama и других провайдеров.
- AnythingLLM: сильнее ориентирован на workspace, документы, RAG и локальные базы знаний.
- LM Studio: desktop-интерфейс для локальных моделей, удобен без Docker.
- Собственный интерфейс: если вы строите продукт или внутренний инструмент.
Для первого локального ассистента чаще всего достаточно Open WebUI. Если главный сценарий - документы и базы знаний, посмотрите AnythingLLM.
Шаг 5. Запустите Open WebUI
Open WebUI можно запускать через Docker. Если Ollama уже работает на компьютере, укажите UI, где находится Ollama API.
docker run -d \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Откройте http://localhost:3000, создайте администратора и проверьте, видит ли интерфейс модели Ollama. Если контейнер не видит Ollama, проблема почти всегда в адресе OLLAMA_BASE_URL и сетевых настройках Docker.
Шаг 6. Подключите документы
Чтобы локальный агент отвечал по вашим файлам, нужен RAG: документы загружаются, режутся на фрагменты, превращаются в embeddings и ищутся перед ответом.
- Начните с 10-20 файлов, а не со всего архива.
- Уберите старые версии и дубли.
- Разделите документы по темам или workspace.
- Проверьте, что PDF нормально извлекаются как текст.
- Не смешивайте личные, рабочие и тестовые документы в одну базу без необходимости.
Если интерфейс поддерживает workspace, создайте отдельные пространства: “личные заметки”, “проект”, “документация”, “клиенты”.
Шаг 7. Проверьте качество RAG
Локальный RAG может ошибаться даже при приватном запуске. Проверьте, что агент действительно находит нужный документ и не отвечает общими словами.
- Задайте вопросы, где ответ точно есть в документе.
- Проверьте, показывает ли интерфейс источники.
- Спросите вопрос, которого нет в документах.
- Проверьте, не путает ли агент разные файлы.
- Если ответ слабый, чините chunking, embeddings, названия документов и структуру базы.
Локальность не отменяет проверки. Агент может галлюцинировать так же уверенно, как облачная модель.
Шаг 8. Настройте приватность
Локальный запуск снижает зависимость от облака, но приватность зависит от настроек. Если вы подключили облачную модель, внешние embeddings или синхронизацию, данные уже могут уходить наружу.
- Проверьте, какие провайдеры включены в интерфейсе.
- Отключите внешние API, если нужен полностью локальный режим.
- Не открывайте порт Ollama в интернет.
- Защитите Open WebUI паролем.
- Не загружайте секреты и пароли в базу документов.
- Для команды используйте отдельные аккаунты и права доступа.
Локальный API на localhost безопаснее, чем публичный порт, но все равно следите, какие приложения имеют доступ к компьютеру.
Шаг 9. Добавьте простые агентные действия
Многие локальные интерфейсы умеют не только чат, но и инструменты: поиск, работа с файлами, вызов функций, web search, code interpreter или кастомные actions. Включайте их постепенно.
- Сначала только чат по документам.
- Потом summary и извлечение данных.
- Потом локальные actions без риска.
- Только после тестов - действия, которые меняют файлы или отправляют данные наружу.
Не давайте локальному агенту доступ к папкам с важными файлами без резервной копии. Автономные действия должны быть ограничены.
Шаг 10. Настройте память
Память полезна, если ассистент должен помнить стиль, проект или постоянные предпочтения. Но локальный агент тоже может сохранить ошибочный факт, поэтому память должна быть управляемой.
- Сохраняйте только подтвержденные предпочтения.
- Не сохраняйте пароли, токены, паспортные данные и медицинские детали.
- Разделяйте память по workspace или пользователям.
- Периодически просматривайте, что агент запомнил.
- Для чувствительных задач лучше использовать только историю текущего чата.
Шаг 11. Сделайте резервные копии
Если вы загрузили документы, настроили workspace и память, это уже ценные данные. Проверьте, где интерфейс хранит базу и как ее восстановить.
- Docker volume Open WebUI или AnythingLLM.
- Папка с загруженными документами.
- Конфигурация моделей и провайдеров.
- Векторная база или внутренний индекс документов.
- Экспорт важных чатов, если они нужны.
Перед обновлением интерфейса сделайте backup volume. Это скучно, пока однажды не спасет день.
Шаг 12. Проверьте готовность
Перед тем как полагаться на локального агента в работе, прогоните короткий тест.
- Ollama запускается после перезагрузки.
- UI открывается и видит модели.
- Модель отвечает с приемлемой скоростью.
- Документы ищутся и источники показываются.
- Вопрос вне базы не вызывает уверенную выдумку.
- Внешние провайдеры отключены, если нужен локальный режим.
- Порты не открыты наружу без защиты.
- Есть backup настроек и документов.
Мини-чеклист запуска
- Выбрана задача локального агента.
- Проверены RAM, VRAM и скорость модели.
- Ollama установлена и модель скачана.
- Open WebUI, AnythingLLM или другой UI подключен к Ollama.
- Документы загружены небольшими наборами.
- Проверены источники и качество RAG.
- Внешние API отключены, если нужна приватность.
- Доступ к UI защищен.
- Память включена только с понятными правилами.
- Есть резервная копия данных интерфейса.
Частые вопросы
Локальный ИИ-агент полностью приватный?
Только если все компоненты работают локально: модель, embeddings, документы, интерфейс и память. Если подключены облачные LLM, внешние embeddings, web search или синхронизация, часть данных может уходить наружу.
Что выбрать: Open WebUI или AnythingLLM?
Open WebUI удобен как универсальный чат-интерфейс для локальных моделей. AnythingLLM больше ориентирован на workspace, документы, RAG и локальные базы знаний. Для простого чата начните с Open WebUI, для работы с документами - с AnythingLLM.
Какая модель лучше для старта?
Начинайте с небольшой 7B-8B модели, которую ваш компьютер тянет быстро. Потом сравните несколько моделей на своих задачах: русский язык, документы, код, краткие ответы, инструкции. Самая большая модель не всегда лучшая для повседневной работы.
Можно ли использовать локального агента для бизнеса?
Да, но нужно аккуратно настроить доступ, backup, права пользователей, качество RAG и обновления. Для критичных бизнес-процессов лучше добавить мониторинг, тесты и отдельный серверный контур.
Почему локальный агент отвечает хуже ChatGPT?
Локальные модели часто меньше и слабее облачных флагманов. Качество зависит от размера модели, квантования, промпта, языка, контекста и RAG. Зато локальный запуск дает больше контроля над данными и окружением.