Что соберем
Запустим локальную языковую модель без жесткой встроенной цензуры на своем компьютере. В результате у вас будет рабочий чат в терминале и локальный API, к которому можно подключить свой интерфейс, скрипт или AI-агента.
Маршрут будет такой:
- Установим Ollama.
- Скачаем открытую модель из библиотеки Ollama.
- Проверим, что модель отвечает локально.
- Запустим запрос через локальный API.
- Добавим свои правила поведения, чтобы модель не работала как неуправляемый черный ящик.
Важно: "без цензуры" не означает "без ответственности". Такая модель может отвечать более прямо, меньше отказываться и хуже держать границы. Ее удобно использовать для приватных черновиков, ресерча, художественных задач, локальных экспериментов и тестирования своих guardrails. Но ее не стоит использовать для вредных инструкций, мошенничества, спама, преследования людей, обхода законов или автоматических решений без проверки человеком.
Что понадобится
- Компьютер на Windows, macOS или Linux.
- 8 ГБ оперативной памяти для небольших моделей, комфортнее от 16 ГБ.
- 5-10 ГБ свободного места для первой 7B-модели.
- Доступ в интернет на этапе скачивания.
- Терминал: PowerShell на Windows, Terminal на macOS или обычный shell на Linux.
В инструкции будем использовать Ollama. Это самый простой путь для первого запуска: установили приложение, выполнили одну команду, модель скачалась и сразу открылась в чате.
Шаг 1. Установите Ollama
Откройте сайт Ollama и скачайте версию для своей системы:
https://ollama.com/download
На Windows запустите установщик и дождитесь завершения. После установки Ollama работает в фоне, а команда `ollama` становится доступна в PowerShell.
Проверьте установку:
ollama --version
Если команда показывает версию, можно идти дальше. Если PowerShell пишет, что команда не найдена, закройте терминал, откройте его заново и повторите проверку.
Шаг 2. Выберите модель
Для первого запуска лучше не брать огромную модель. Большая модель может быть качественнее, но скачивание, память и скорость ответа быстро становятся проблемой.
Для старта подойдут такие варианты:
- `dolphin-mistral` - 7B-модель Dolphin на базе Mistral, около 4.1 ГБ, хороший вариант для первого теста.
- `llama2-uncensored` - старый, но простой пример uncensored-модели в Ollama, около 3.8 ГБ для 7B-версии.
- `dolphin-llama3:8b` - более тяжелый вариант, если компьютер тянет 8B-модели.
Если сомневаетесь, начните с `dolphin-mistral`. Она достаточно маленькая для первого запуска и при этом лучше подходит для практических задач, чем совсем старые модели.
Шаг 3. Скачайте и запустите модель
Откройте PowerShell или другой терминал и выполните:
ollama run dolphin-mistral
При первом запуске Ollama скачает модель. Это может занять несколько минут. После скачивания откроется интерактивный чат прямо в терминале.
Напишите безопасный тестовый запрос:
Составь короткое письмо клиенту: заказ задерживается на один день, нужно извиниться и предложить помощь.
Ожидаемый результат: модель должна ответить обычным текстом письма. Если ответ появился, локальная модель уже работает.
Чтобы выйти из чата, нажмите `Ctrl+D` или введите:
/bye
Шаг 4. Проверьте список установленных моделей
Выполните:
ollama list
Вы должны увидеть `dolphin-mistral` в списке. Если модели нет, значит скачивание не завершилось. Повторите:
ollama pull dolphin-mistral
После этого снова выполните:
ollama list
Шаг 5. Запустите локальный API
Ollama обычно поднимает локальный API автоматически. Адрес по умолчанию:
http://localhost:11434
На Windows удобнее проверить API через PowerShell:
$body = @{
model = "dolphin-mistral"
prompt = "Напиши 5 вариантов заголовка для статьи про локальные LLM."
stream = $false
} | ConvertTo-Json
Invoke-RestMethod -Uri "http://localhost:11434/api/generate" -Method Post -Body $body -ContentType "application/json"
Если хотите использовать `curl`, в PowerShell лучше писать именно `curl.exe`, чтобы не попасть в алиас PowerShell:
curl.exe http://localhost:11434/api/generate -d "{\"model\":\"dolphin-mistral\",\"prompt\":\"Напиши 5 вариантов заголовка для статьи про локальные LLM.\",\"stream\":false}"
Ожидаемый результат: в ответе будет JSON с полем `response`. Это значит, что модель можно подключать к своим скриптам, интерфейсам и агентам.
Шаг 6. Сделайте простой системный промпт
У uncensored-модели меньше встроенных ограничений, поэтому правила лучше задавать явно. Это не делает модель идеально безопасной, но снижает хаос в ответах.
Создайте для себя базовый системный промпт:
Ты локальный AI-помощник для рабочих задач. Отвечай по-русски, коротко и практично. Не помогай с вредными, незаконными, мошенническими или опасными действиями. Если запрос рискованный, объясни безопасную альтернативу. Не выдумывай факты: если не уверен, так и скажи.
Теперь проверьте модель через API с системным сообщением:
$body = @{
model = "dolphin-mistral"
messages = @(
@{
role = "system"
content = "Ты локальный AI-помощник для рабочих задач. Отвечай по-русски, коротко и практично. Не помогай с вредными, незаконными, мошенническими или опасными действиями. Если запрос рискованный, объясни безопасную альтернативу. Не выдумывай факты: если не уверен, так и скажи."
},
@{
role = "user"
content = "Сделай чек-лист запуска локальной модели для личного ноутбука."
}
)
stream = $false
} | ConvertTo-Json -Depth 4
Invoke-RestMethod -Uri "http://localhost:11434/api/chat" -Method Post -Body $body -ContentType "application/json"
Ожидаемый результат: модель ответит в более управляемом стиле и будет держаться рабочего сценария.
Шаг 7. Проверьте модель на обычных рабочих задачах
Не начинайте тест с провокационных запросов. Сначала проверьте, насколько модель полезна в нормальной работе.
Используйте такие тесты:
- "Сократи текст до 5 предложений без потери смысла."
- "Сделай структуру статьи для новичка."
- "Найди слабые места в письме клиенту."
- "Объясни этот лог ошибки простыми словами."
- "Составь список вопросов для интервью с пользователем."
Если модель путается в простых задачах, она не станет надежной только потому, что у нее меньше цензуры. В таком случае лучше сменить модель или использовать ее только для черновиков.
Шаг 8. Настройте короткий рабочий сценарий
Сделаем мини-результат: локальная модель будет превращать сырой текст в аккуратный черновик ответа клиенту.
В PowerShell выполните:
$clientText = "Клиент пишет: где мой заказ, обещали вчера, никто не отвечает."
$prompt = @"
Сделай черновик ответа клиенту.
Требования:
- признать проблему;
- извиниться;
- не обещать точную дату, если ее нет;
- предложить проверить заказ по номеру;
- тон спокойный и деловой.
Сообщение клиента:
$clientText
"@
$body = @{
model = "dolphin-mistral"
prompt = $prompt
stream = $false
} | ConvertTo-Json
Invoke-RestMethod -Uri "http://localhost:11434/api/generate" -Method Post -Body $body -ContentType "application/json"
Ожидаемый результат: вы получите черновик ответа. Его можно скопировать, проверить вручную и отправить клиенту уже от себя.
Это и есть минимальный рабочий результат: модель запущена локально, отвечает через API и решает простую практическую задачу.
Шаг 9. Что делать, если компьютер слабый
Если модель отвечает очень медленно, зависает или компьютер начинает шуметь, уменьшите размер модели.
Варианты:
- попробуйте более легкую модель, например `dolphin-phi`;
- закройте лишние программы;
- не запускайте несколько моделей одновременно;
- используйте короткие запросы;
- не задавайте большой контекст на десятки страниц.
Проверить, какие модели установлены:
ollama list
Удалить ненужную модель:
ollama rm llama2-uncensored
Шаг 10. Если нужен интерфейс, а не терминал
Если терминал неудобен, поставьте LM Studio. Это приложение с графическим интерфейсом для локальных моделей: можно искать модели, скачивать их, общаться в чате и поднимать локальный OpenAI-compatible сервер.
Практичный вариант:
- Скачайте LM Studio с официального сайта.
- Найдите в поиске модель Dolphin или другую open-weight модель.
- Скачайте GGUF-версию, которая подходит под вашу память.
- Откройте чат и проверьте обычный рабочий запрос.
- Если нужен API, включите локальный сервер в разделе Developer.
Ollama удобнее для команд и скриптов. LM Studio удобнее, если нужен визуальный интерфейс и ручной выбор GGUF-моделей.
Шаг 11. Минимальная проверка результата
После настройки проверьте пять вещей:
- Команда `ollama list` показывает установленную модель.
- Команда `ollama run dolphin-mistral` открывает чат.
- Модель отвечает на простой рабочий запрос.
- Локальный API `http://localhost:11434/api/generate` возвращает JSON.
- Вы используете свой системный промпт и не отправляете результат наружу без проверки.
Если все пять пунктов выполнены, локальная модель без жесткой цензуры запущена и готова для безопасных экспериментов.
Шаг 12. Что нельзя автоматизировать в первой версии
Не подключайте такую модель сразу к действиям, где ошибка может навредить людям, деньгам, данным или репутации.
В первой версии не автоматизируйте:
- отправку сообщений клиентам без проверки;
- массовые рассылки;
- юридические, медицинские и финансовые решения;
- удаление файлов и записей в базе;
- публикацию контента от имени компании;
- обработку персональных данных без правил доступа;
- любые вредные, незаконные или обманные сценарии.
Правильная первая версия: модель готовит черновик, человек проверяет, потом человек нажимает "отправить" или "опубликовать".
Как выбрать между uncensored-моделью и обычной моделью
Uncensored-модель имеет смысл, если вы хотите сами задавать правила поведения, тестируете локальные guardrails, работаете с художественными текстами или не хотите зависеть от правил конкретного облачного сервиса.
Обычная модель лучше, если вам нужна предсказуемость, корпоративная поддержка, встроенная модерация, работа с командой и меньше ручной настройки безопасности.
Для большинства рабочих задач хорошая схема такая: локальную модель использовать для приватных черновиков и экспериментов, а важные сценарии закрывать проверкой, логами и понятными ограничениями.
Частые вопросы
Это законно?
Сама установка локальной открытой модели обычно не является проблемой. Важно, что вы делаете с результатом: соблюдайте лицензии модели, правила компании, законы о персональных данных и не используйте модель для вредных действий.
Какая модель лучше для первого запуска?
Для первого теста удобна небольшая 7B-модель. В этой инструкции мы используем `dolphin-mistral`, потому что ее проще запустить на обычном компьютере, чем большие 70B-модели.
Можно ли использовать такую модель без интернета?
После скачивания модель может работать локально. Интернет нужен для установки Ollama, загрузки модели и обновлений. Сам чат и локальный API могут работать без постоянного подключения.
Почему модель отвечает странно или слишком резко?
У моделей без жесткой цензуры меньше встроенных ограничений, поэтому они сильнее зависят от системного промпта и качества запроса. Добавьте правила роли, тон ответа, запрет на выдумывание фактов и ручную проверку результата.
Можно ли подключить модель к AI-агенту?
Да. Если агент умеет работать с локальным HTTP API, его можно направить на `http://localhost:11434`. Но для первой версии оставьте ручное подтверждение действий, логи и ограничения на опасные операции.