|
Professor Seleznov
|
Написал большую техническую статью на тему "Что считают 5-часовые лимиты в ChatGPT, Claude и других LLM — и почему модели вообще стоят по-разному" Там красиво и с картинками Новая статья дополняет две уже написанные мной ранее и рассказываете про еще более глубокие слои того, какие вычисления происходят за шторкой 5-ти часовых лимитов. Ссылка на саму статью (там много картинок, в пост не влезет)
Что считают 5-часовые лимиты в ChatGPT и Claude — и почему модели стоят по-разному
 Предыдущие статьи про принципы работы LLM Просто и подробно о том, как работают ChatGPT и другие GPT подобные модели От написания промптов к проектированию контекста. Или один очень обширный материал по Context Engineering Внутри вот о чем ⏺ Из чего складывается стоимость ответа модели
⏺ Что такое Active\Total Параметры на примере LLama и DeepSeek
⏺ Dense и MoE — два подхода к современным трансформерам
⏺ Чем отличаются Frontier модели от локальных
⏺ В чем разница Input и Output токенов и почему они стоят по разному
⏺ Что такое KV-cache и сколько VRAM занимает один токен И добавил большое приложение актуальных на сегодня Open Weight LLM с сортировкой по их Active | Total параметрам и прайсам за 1М токенов P.S. Если найдете неточности в тексте или картинках, то напишите -- исправлю-Источник
|
|
|