Локальный inference engine Open-source

llama.cpp

C/C++ inference engine для локального запуска LLM и GGUF-моделей.

Открыть сайт
llama.cpp дает высокий контроль над локальным запуском моделей, параметрами и серверным режимом. Это один из базовых проектов экосистемы локальных LLM.

Лучше всего подходит

Типовые задачи

GGUF разработка локальный сервер контроль параметров