Производительность и экономика при инференсе LLM

На вебинаре со спикерами из Spectr и Selectel разберем, из чего складывается экономика инференса и какие решения при проектировании снижают бюджет на порядок. С одной стороны — глубоко закопаемся в технические детали и способы оптимизации инференса (будет очень полезно для технарей), с другой стороны будем говорить про деньги и делиться конкретными бенчмарками про финансы и железо (будет полезно бизнесу).
Что разберём:
— как устроен инференс LLM и какие способы оптимизации производительности существуют;
— из чего складывается стоимость эксплуатации LLM в продакшене;
— как выбор LLM-модели и конфигурации GPU меняет стоимость инфраструктуры на порядок;
— бенчмарки на реальном оборудовании: сравнение GPU в разных конфигурациях под нагрузкой;
— свой сервер и API: расчёт с ценами российских провайдеров, что выгодней.
🧑🏻💻 Вебинар будет полезен для CTO, архитекторов, руководителей продуктов и разработчиков, которые строят LLM-решения и хотят понимать экономику их эксплуатации.
Участие бесплатное, но необходима предварительная регистрация!


