На вебинаре «Предсказания, которые сбываются: эффективное прогнозирование рейтингов и продаж» представители компании DaтaPy рассказали о методах и алгоритмах построения прогнозов.
Российский вендор технологического оборудования, решений и сервисов DaтaPy поставляет серверы, сетевое оборудование, СХД. Наряду с этим компания оказывает услуги, предоставляет сервисы, в том числе облачные. Команда «DaтaPy Консалтинг» реализует сложные проекты в области корпоративной аналитики, разрабатывает и внедряет комплексные решения для систем RPA, ERP, CRM, BI, помогает клиентам с автоматизацией бизнес-процессов на международных и российских платформах.
В ходе вебинара архитектор решений компании DaтaPy Дмитрий Тонких (представитель команды «DaтaPy Консалтинг») рассказал о методах, применяемых для прогнозирования, и показал, как они реализуются на платформе Loginom. В качестве примера использовались данные телевизионных рейтингов одного из клиентов компании. Перед специалистами стояла задача с помощью алгоритмов повысить уровень экспертной оценки в области прогнозирования рейтингов.
Участникам вебинара был представлен временной ряд, данные разбиты на пятиминутные интервалы, не содержащие метаданных и подробностей (только номер интервала и его рейтинг). По словам эксперта, рассмотренные на мероприятии методы работают именно с такими временными рядами.
Телевизионный рейтинг прогнозируется как временной ряд. К характеристикам временных рядов относятся тренд, цикличность, сезонность, шумы. На этапе постановки задачи эксперт показал, как выглядят данные о рейтинге за неделю: два пика (наиболее высоких) пришлись на выходные дни, и пять более низких – на вечера будней. В кейсе использовались данные за 2033–2024 гг. (14 месяцев) одного из телеканалов.
Участникам вебинара предстояло получить прогноз рейтинга на одну-две недели с использованием методов машинного обучения. На больший горизонт планирования с такой гранулярностью данных полагаться не стоит. Для обучения использовались первые 13 месяцев. По условию задачи, внешние переменные отсутствовали, анализировались только данные рейтингов.
Вместо разведочного анализа был применен алгоритм LOESS (Locally Estimated Scatterplot Smoothing – локально оцененное сглаживание скаттерплота), чтобы обнаружить признаки сезонности, понять ее периодичность, выяснить, есть ли тренд. На основе такой информации можно попытаться улучшить прогноз экспертов.
Применение алгоритма LOESS позволило подтвердить гипотезу о том, что для данных характерны сезонность продолжительностью 24 часа и сезонность длиной семь дней. На базе этих данных можно строить предположения. Если сложить два сезонных графика – спроецировать в будущее, то телерейтинги будут такими же, как и предыдущие. Один из недостатков применения этого алгоритма в том, что он затратен по объему вычислений.
Второй алгоритм, рассмотренный в рамках вебинара, – ARIMA (интегрированная модель авторегрессии – скользящего среднего – модель и методология анализа временных рядов). Его компонентами являются авторегрессия, дифференцирование, скользящее среднее, сезонность и внешние переменные. Для каждого из этих компонентов предусмотрен соответствующий коэффициент, отражающий степень и глубину. У этого алгоритма есть несколько модификаций, позволяющих принимать во внимание внешние переменные (например, названия и типы передач, что коррелирует с целевой величиной) и учитывать сезонность.
В практической части вебинара эксперт продемонстрировал аналитическую платформу Loginom, необходимую для создания законченных прикладных решений в области анализа данных. Реализованные в ней технологии дают возможность на базе единой архитектуры выполнить все этапы: от консолидации данных до построения моделей и визуализации полученных результатов.
Стандартными средствами Loginom реализован алгоритм ARIMA. Небольшая подготовка данных состояла в том, что исходные данные были распределены на четыре дата-сета. В исторические данные включены данные до 11 февраля. Фактические их значения охватывали две недели, на основе которых строился прогноз. В масштабе года зафиксирован некоторый рост тренда. В полученной таблице были отражены фактическое и прогнозное значения рейтинга согласно алгоритму LOESS. Доступна визуализация их соотношения.
Для определения качества прогноза используются количественные метрики. Платформа Loginom содержит соответствующий блок.
В конце вебинара эксперт отметил, что прогнозирование при помощи алгоритма LOESS для аналитика предпочтительнее, поскольку лучше поддается интерпретации (выделяются сезонная суточная и сезонная недельная составляющие). Вечером рейтинг, как правило, выше, чем утром. Из построенных графиков можно вывести и другие закономерности.
В сессии вопросов и ответов один из слушателей поинтересовался у эксперта, каким алгоритмам он отдает предпочтение. Выяснилось, что алгоритмам машинного обучения, которые, пусть и уступают алгоритмам LOESS и ARIMA в интерпретируемости, но превосходят их в точности.