Llama можно запустить на Windows локально: без отдельного сервера, без сложной сборки и без постоянной отправки запросов в облако. Самый простой путь для первого запуска - установить Ollama, скачать модель семейства Llama и проверить ответ в PowerShell.
Короткая версия: установите Ollama для Windows, откройте PowerShell и выполните ollama run llama3.2. Если модель отвечает, локальный Llama уже работает.
Что мы устанавливаем
Важно различать две вещи. Llama - это семейство языковых моделей Meta. Ollama - программа, которая скачивает модель, хранит ее на компьютере и запускает локальный чат через командную строку или локальный API.
Для первой установки не нужно вручную искать веса модели, собирать llama.cpp или настраивать Python. Ollama берет на себя скачивание, запуск и обновление моделей.
Что понадобится перед установкой
- Windows 10 или Windows 11 с актуальными обновлениями.
- Минимум 8 ГБ оперативной памяти для небольших моделей, комфортнее - от 16 ГБ.
- Свободное место на диске: обычно 3-10 ГБ на одну небольшую модель, больше для крупных вариантов.
- Стабильный интернет для первого скачивания модели.
- PowerShell или Windows Terminal для проверки команд.
Шаг 1. Установите Ollama
- Откройте официальный сайт Ollama: ollama.com/download.
- Выберите версию для Windows и скачайте установщик.
- Запустите установщик и дождитесь окончания установки.
- После установки откройте новое окно PowerShell, чтобы система увидела команду ollama.
Если команда не находится, закройте PowerShell и откройте его заново. Иногда помогает перезагрузка Windows, потому что путь к программе обновляется не во всех уже открытых окнах терминала.
Шаг 2. Проверьте, что Ollama работает
Откройте PowerShell и выполните команду проверки версии.
ollama --version
Если вы видите номер версии, установка прошла нормально. Дополнительно можно проверить локальный сервис Ollama.
(Invoke-WebRequest http://localhost:11434).Content
В норме Ollama поднимает локальный API на адресе localhost:11434. Это пригодится позже, если вы захотите подключить модель к редактору, скрипту или локальному приложению.
Шаг 3. Скачайте и запустите Llama
Для первого запуска лучше выбрать небольшую модель: она быстрее скачивается, меньше нагружает компьютер и позволяет сразу понять, что все работает.
ollama run llama3.2
При первом запуске Ollama скачает модель. После загрузки появится интерактивный чат. Напишите простой запрос, например: “Объясни, что такое RAG простыми словами”.
Шаг 4. Проверьте список моделей
После установки полезно посмотреть, какие модели уже лежат на компьютере.
ollama list
Если модель больше не нужна, ее можно удалить. Это освободит место на диске.
ollama rm llama3.2
Шаг 5. Запустите Llama через локальный API
Ollama полезна не только как чат в терминале. К ней можно обращаться из локальных программ через API. В PowerShell базовая проверка выглядит так:
$body = @{
model = "llama3.2"
prompt = "Составь план статьи про локальные LLM"
stream = $false
} | ConvertTo-Json
Invoke-RestMethod -Uri http://localhost:11434/api/generate -Method Post -Body $body -ContentType "application/json"
Если в ответе есть поле response, значит модель доступна не только из терминала, но и для локальной интеграции.
Как выбрать модель под свой компьютер
- Слабый ноутбук или 8 ГБ RAM: начинайте с маленькой модели и коротких запросов.
- 16 ГБ RAM: можно комфортнее работать с моделями среднего размера, но не стоит сразу брать самые крупные.
- Есть дискретная видеокарта: ответы обычно быстрее, но все зависит от объема видеопамяти и конкретной модели.
- Если Windows начинает тормозить, закройте лишние приложения или выберите меньший вариант модели.
Типичные ошибки
- ollama не распознается как команда - откройте новый PowerShell или перезагрузите компьютер.
- Модель долго скачивается - проверьте интернет и свободное место на диске.
- Ответы идут слишком медленно - выберите модель меньшего размера.
- localhost:11434 не отвечает - убедитесь, что Ollama запущена, или перезапустите приложение.
- Не хватает памяти - закройте браузер, IDE и тяжелые приложения, затем попробуйте меньшую модель.
Что делать после установки
Когда Llama отвечает в терминале, можно переходить к практическим сценариям: писать черновики, конспектировать документы, генерировать идеи, подключать локальную модель к редактору кода или собирать простой RAG-поиск по личным файлам.
Главное ограничение локальной модели - ресурсы вашего компьютера. Локальный запуск дает больше контроля над данными, но не всегда заменяет сильные облачные модели в сложных задачах.
Частые вопросы
Можно ли установить Llama на Windows без видеокарты?
Да, можно. Модель будет работать на процессоре, но ответы могут идти заметно медленнее. Для первого опыта лучше брать небольшую модель.
Нужно ли платить за Ollama?
Для локального запуска Ollama обычно используют бесплатно. Платить может потребоваться только за отдельные облачные сервисы или коммерческую инфраструктуру, если вы ее подключаете.
Куда скачиваются модели?
Ollama хранит скачанные модели локально на компьютере. Точное расположение зависит от версии Windows и настроек приложения, поэтому управлять моделями проще через команды ollama list и ollama rm.
Можно ли использовать Llama с программами через API?
Да. Ollama запускает локальный API на localhost:11434, поэтому к модели можно обращаться из скриптов, редакторов, прототипов и внутренних инструментов.