llama.cpp
C/C++ inference engine для локального запуска LLM и GGUF-моделей.
Открыть сайт
llama.cpp дает высокий контроль над локальным запуском моделей, параметрами и серверным режимом. Это один из базовых проектов экосистемы локальных LLM.
Лучше всего подходит
Типовые задачи
GGUF
разработка
локальный сервер
контроль параметров