Lemonade — локальный LLM-сервер при поддержке AMD. Зачем он нужен, если есть Ollama?

Страницы:  1

Ответить
 

Professor Seleznov


Ryzen AI 9 HX 370 - это чип с NPU на 50 TOPS и Ollama его не видит - из-за своей архитектуры. Собственно, сама Ollama работает поверх llama.cpp, llama.cpp поддерживает GPU через CUDA, Metal, Vulkan и ROCm. А вот AMD GPU Ollama запускает - через ROCm и Vulkan. Но AMD NPU на базе архитектуры XDNA туда, к сожалению, не входит. Ryzen AI 300, Ryzen 8040, Ryzen 7040 - у всех этих чипов есть нейронный процессор, который при запуске Ollama простаивает.
И вот Lemonade Server появился именно для этого сегмента.
Что за Lemonade
Для начала - это не корпоративный продукт AMD. Они финансируют разработку и предоставляют инженеров, но это не официальный продукт с корпоративным релизным циклом.
Lemonade - это управляющий слой поверх нескольких специализированных движков. Каждый движок обслуживает свою задачу.
Для текстовых моделей - llama.cpp с поддержкой Vulkan и отдельная ROCm-сборка llama.cpp для AMD GPU. Для NPU - FastFlowLM (FLM) на чипах с архитектурой XDNA - это Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и Ryzen 7040 (Phoenix). Для распознавания речи - whisper.cpp. Для синтеза речи - Kokoro. Для генерации изображений - sd-cpp.
Всё это управляется фоновым процессом lemond на порту 13305.
При старте Lemonade определяет доступное железо и выбирает движок. На APU с Ryzen AI - FastFlowLM. На GPU с ROCm - специальная llamacpp-rocm сборка. На NVIDIA или без GPU - Vulkan или CPU-режим. Ручная настройка не требуется.
Ollama использует один бэкенд - llama.cpp. TTS, STT и генерация изображений в нём не реализованы. Это разные инструменты, не встроенные в сервер.
Пять API-стандартов одновременно
Lemonade поднимает пять API-протоколов. Три основных - OpenAI, Ollama и Anthropic. Плюс llama.cpp-специализированные эндпоинты и собственный Lemonade API для управления сервером.
Клиент, написанный под OpenAI API, подключается к Lemonade заменой одной строки:
base_url = "http://localhost:13305/api/v1"
api_key = "lemonade" # параметр обязателен, но не проверяется
Из официально задокументированных интеграций - Continue, Open WebUI, AnythingLLM, Claude Code, CodeGPT, OpenHands, Mindcraft.
Порт у Lemonade - 13305, а не 11434 от Ollama. Клиенты, захардкоженные на 11434, потребуют перенастройки.
Lemonade vs Ollama
Параметр Lemonade Server Ollama
Лицензия Apache 2.0 MIT
Движок (текст) llama.cpp + FLM llama.cpp
GPU NVIDIA Vulkan CUDA
GPU AMD ROCm (отдельная сборка) ROCm (не все GPU)
AMD NPU (XDNA) FLM нативно не поддерживается
TTS Kokoro встроено нет
STT whisper.cpp встроено нет
Генерация изображений sd-cpp встроено нет
API OpenAI да да
API Ollama да да
API Anthropic да да
GUI Десктопное приложение + браузерный UI (Windows, macOS beta) Системный трей (macOS, Windows)
Встраиваемый режим portable build lemond нет

NPU-движок FLM бесплатен только для некоммерческого использования. Сам Lemonade Server - Apache 2.0 без ограничений. Коммерческое применение FLM требует отдельной лицензии.
Быстрый старт
На Windows - MSI-инсталлятор.
pic
После установки запускается Lemonade App - десктопное приложение с менеджером моделей и встроенным LLM-чатом.
pic
Через CLI - скачать и запустить модель:
lemonade pull Llama-3.2-1B-Instruct-Hybrid
lemonade run Llama-3.2-1B-Instruct-Hybrid # загружает модель и открывает вебаппу в браузере
pic
Проверяем, поднялся ли сервер:
lemonade status
pic
Для Linux - пакеты тут (snap, RPM, Debian, Docker).
Llama-3.2-1B-Instruct-GGUF - одна из наименее требовательных моделей в каталоге. Запускается в CPU-режиме без GPU. Модели с суффиксом Hybrid - только для XDNA NPU, на обычных машинах в каталоге не появляются.
Нужен ли вам Lemonade
NVIDIA + Ollama работает - переходить незачем. Ollama использует CUDA нативно. Lemonade на NVIDIA работает через Vulkan, что медленнее.
AMD-десктоп или ноутбук с Ryzen AI - Lemonade под это, собственно, и собран. ROCm-сборка llama.cpp, нативная поддержка XDNA NPU через FLM.
В версии 10.3 десктопное приложение перешло с Electron на Tauri - размер уменьшился в 10 раз. MLX-поддержка для Mac в разработке. macOS beta уже завершена. Полной поддержки NVIDIA через CUDA пока нет.
Lemonade имеет смысл, если нужен AMD NPU, встроенный голос или генерация изображений. Если ваш стек в них не попадает - остаёмся с Ollama.-Источник
 
Loading...
Error