Главная· Трекер· Новое· Поиск· Правила· FAQ· Группы

Lemonade — локальный LLM-сервер при поддержке AMD. Зачем он нужен, если есть Ollama?

Страницы: 1

Professor Seleznov

Ryzen AI 9 HX 370 - это чип с NPU на 50 TOPS и Ollama его не видит - из-за своей архитектуры. Собственно, сама Ollama работает поверх llama.cpp, llama.cpp поддерживает GPU через CUDA, Metal, Vulkan и ROCm. А вот AMD GPU Ollama запускает - через ROCm и Vulkan. Но AMD NPU на базе архитектуры XDNA туда, к сожалению, не входит. Ryzen AI 300, Ryzen 8040, Ryzen 7040 - у всех этих чипов есть нейронный процессор, который при запуске Ollama простаивает.
И вот Lemonade Server появился именно для этого сегмента.
Что за Lemonade
Для начала - это не корпоративный продукт AMD. Они финансируют разработку и предоставляют инженеров, но это не официальный продукт с корпоративным релизным циклом.
Lemonade - это управляющий слой поверх нескольких специализированных движков. Каждый движок обслуживает свою задачу.
Для текстовых моделей - llama.cpp с поддержкой Vulkan и отдельная ROCm-сборка llama.cpp для AMD GPU. Для NPU - FastFlowLM (FLM) на чипах с архитектурой XDNA - это Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и Ryzen 7040 (Phoenix). Для распознавания речи - whisper.cpp. Для синтеза речи - Kokoro. Для генерации изображений - sd-cpp.
Всё это управляется фоновым процессом lemond на порту 13305.
При старте Lemonade определяет доступное железо и выбирает движок. На APU с Ryzen AI - FastFlowLM. На GPU с ROCm - специальная llamacpp-rocm сборка. На NVIDIA или без GPU - Vulkan или CPU-режим. Ручная настройка не требуется.
Ollama использует один бэкенд - llama.cpp. TTS, STT и генерация изображений в нём не реализованы. Это разные инструменты, не встроенные в сервер.
Пять API-стандартов одновременно
Lemonade поднимает пять API-протоколов. Три основных - OpenAI, Ollama и Anthropic. Плюс llama.cpp-специализированные эндпоинты и собственный Lemonade API для управления сервером.
Клиент, написанный под OpenAI API, подключается к Lemonade заменой одной строки:

base_url = "http://localhost:13305/api/v1"
api_key = "lemonade"  # параметр обязателен, но не проверяется

Из официально задокументированных интеграций - Continue, Open WebUI, AnythingLLM, Claude Code, CodeGPT, OpenHands, Mindcraft.
Порт у Lemonade - 13305, а не 11434 от Ollama. Клиенты, захардкоженные на 11434, потребуют перенастройки.
Lemonade vs Ollama

Параметр	Lemonade Server	Ollama
Лицензия	Apache 2.0	MIT
Движок (текст)	llama.cpp + FLM	llama.cpp
GPU NVIDIA	Vulkan	CUDA
GPU AMD	ROCm (отдельная сборка)	ROCm (не все GPU)
AMD NPU (XDNA)	FLM нативно	не поддерживается
TTS	Kokoro встроено	нет
STT	whisper.cpp встроено	нет
Генерация изображений	sd-cpp встроено	нет
API OpenAI	да	да
API Ollama	да	да
API Anthropic	да	да
GUI	Десктопное приложение + браузерный UI (Windows, macOS beta)	Системный трей (macOS, Windows)
Встраиваемый режим	portable build lemond	нет

NPU-движок FLM бесплатен только для некоммерческого использования. Сам Lemonade Server - Apache 2.0 без ограничений. Коммерческое применение FLM требует отдельной лицензии.
Быстрый старт
На Windows - MSI-инсталлятор.

После установки запускается Lemonade App - десктопное приложение с менеджером моделей и встроенным LLM-чатом.

Через CLI - скачать и запустить модель:

lemonade pull Llama-3.2-1B-Instruct-Hybrid
lemonade run Llama-3.2-1B-Instruct-Hybrid  # загружает модель и открывает вебаппу в браузере

Проверяем, поднялся ли сервер:

lemonade status

Для Linux - пакеты тут (snap, RPM, Debian, Docker).

Llama-3.2-1B-Instruct-GGUF - одна из наименее требовательных моделей в каталоге. Запускается в CPU-режиме без GPU. Модели с суффиксом Hybrid - только для XDNA NPU, на обычных машинах в каталоге не появляются.

Нужен ли вам Lemonade
NVIDIA + Ollama работает - переходить незачем. Ollama использует CUDA нативно. Lemonade на NVIDIA работает через Vulkan, что медленнее.
AMD-десктоп или ноутбук с Ryzen AI - Lemonade под это, собственно, и собран. ROCm-сборка llama.cpp, нативная поддержка XDNA NPU через FLM.
В версии 10.3 десктопное приложение перешло с Electron на Tauri - размер уменьшился в 10 раз. MLX-поддержка для Mac в разработке. macOS beta уже завершена. Полной поддержки NVIDIA через CUDA пока нет.
Lemonade имеет смысл, если нужен AMD NPU, встроенный голос или генерация изображений. Если ваш стек в них не попадает - остаёмся с Ollama.-Источник

Пользовательское Соглашение | Связь с администрацией

SysAdmin.Guru · Telegram-канал

Loading...

Error