Как RFM помог оживить «спящую» базу (часть 2). блог edtech

RFM‑сегментация — это способ упорядочить клиентскую базу по трем измерениям покупательского поведения: давность, частота и денежная ценность. Наша цель — показать полный и воспроизводимый ход работ: от подготовки транзакций до маркировки сегментов и проверки устойчивости. Методика подходит для компаний с повторными покупками, где транзакции фиксируются по клиенту и заказу.

Мы использовали прозрачные определения метрик, согласовали окна наблюдения с бизнес‑циклом и сезонностью, а затем применили квантильный бининг для сопоставимых групп. Отдельно проверили, как сегменты ведут себя на контрольных периодах. В завершение сформулировали гипотезы по ключевым кластерам и приоритет реактивации.

Материал не описывает коммуникационные кампании и не содержит финансовых итогов. Он сконцентрирован на данных, правилах расчета и проверках, которые позволяют повторить результат в другой организации.

План статьи:

Подготовка данных и критерии включения клиентов
Определения измерений R, F, M в модели
Бининг и шкалирование: квантильный vs пороговый подход
Построение матрицы сегментов и маркировка ключевых кластеров
Проверка устойчивости сегментов во времени (стабильность, перетоки)
Гипотезы поведения и мотивации по каждому ключевому сегменту
Локальный вывод: какие сегменты приоритетны для реактивации

Подготовка данных и критерии включения клиентов

Основой RFM выступают транзакции. Транзакция — это подтвержденная покупка с суммой оплаты и датой, связанная с клиентским идентификатором. Для корректности мы формируем единый факт покупок с признаками канала, статуса и выручки, очищенной от возвратов и отмен. На вход включаются только завершенные операции: статус «оплачено» или «выдано», дата проведения в учетной системе и валюта, приведенная к единому курсу на контрольную дату.

Клиент — это уникальная сущность, к которой привязываются все покупки. Идентификация происходит по стабильному ключу (ID CRM, номер договора) с добавлением детерминированных связок (email+телефон) и проверенной вероятностной сшивкой, если каналов несколько. Включаем только клиентов, у которых в горизонте наблюдения есть хотя бы одна завершенная транзакция. Уточняем границы окна, чтобы исключить регистрированные, но никогда не покупавшие аккаунты.

Общий горизонт данных задаем из двух частей. Первая — референс‑период для расчета F и M (например, 365 календарных дней, если цикл покупки годичный). Вторая — точка отсчета для R: контрольная дата, на которую измеряется давность последней покупки. Такой раздельный подход предотвращает смещение recency из‑за ширины окна для частоты и денежной ценности.

Очистка, дедупликация, объединение каналов и офлайн/онлайн

Очистка начинается с удаления отмененных заказов и явных дублей. Дубликат — это записи с совпадающими ключами заказа, клиента, датой и суммой. Мы сохраняем только один экземпляр, предпочтительно с актуальным статусом. Возвраты оформляем как корректировки денежных сумм: создаем отрицательные записи на дату возврата или уменьшаем выручку исходной транзакции — метод фиксируем единообразно по всем каналам, чтобы Monetary имел единое определение.

Дедупликация клиентов происходит в два шага. Сначала детерминированное слияние по стабильному идентификатору и совпадающим контактам. Затем — осторожная вероятностная сшивка при частичных совпадениях (например, одни и те же ФИО и телефон, разные email). Кандидаты совпадений проходят ручную проверку на обучающей выборке и автоматические правила с порогом уверенности. Ошибки сшивки и разделения измеряем долей спорных случаев, чтобы не ошибиться в расчетах частоты.

Онлайн и офлайн каналы приводим к единому справочнику продуктов, скидок и статусов. Если онлайн‑заказ оплачен в магазине, событие все равно считается одной транзакцией. Кейс «клик‑резерв» без оплаты не включаем. Даты используем фактической оплаты/выдачи, а не создания заказа, чтобы частота и денежная ценность отражали реальное поведение.

❓Важно:

Метод обработки возвратов фиксируем один раз и не меняем по каналам, иначе Monetary перестанет быть сопоставимым.

В конце подготовки формируем таблицу фактов: client_id, order_id, order_datetime, net_amount, channel, скидка и валюта. Это гарантирует воспроизводимость и прозрачность всего последующего расчета. Для оперативного развития CRM после сегментации удобен CRM‑маркетинг по базе: он опирается на те же чистые факты и единые идентификаторы.

Построить отдел работы с базой →

Определения измерений R, F, M в модели

RFM — это три показателя, описывающих прошлое поведение клиента. Давность (R) — число дней с даты последней покупки до контрольной даты. Чем больше R, тем дольше клиент не покупал. Частота (F) — число завершенных транзакций клиента в референс‑периоде наблюдения. Денежная ценность (M) — суммарная чистая выручка клиента за этот же период после учета скидок и возвратов. Все три величины измеряются на одну контрольную дату, чтобы не смешивать периодизации.

Почему R — именно «давность в днях», а не обратный скор? Такой выбор делает критерий реактивации прозрачным: чем больше R, тем выше риск ухода. При бининге мы будем переводить «сырую» давность R в категории, сохраняя интуитивный смысл «высокая R = давно не покупал». Для F и M используем натуральные единицы: покупки и деньги. Это облегчает интерпретацию профилей и валидацию на контрольных периодах.

Рассчитываем показатели так. R = (контрольная дата − дата последней покупки) в днях; F — количество строк транзакций с положительной чистой суммой в референс‑периоде; M — сумма net_amount по этим строкам. Если возврат частичный, то он уменьшает M. Если возврат делает итог по заказу нулевым, транзакцию можно исключить из F и M или оставить F=1, M=0 — выбранную практику фиксируем и проверяем на устойчивость в чувствительности.

Окно давности и учет сезонности

Контрольную дату выбираем на конец отчетного месяца. Окно для F и M подбираем под ритм отрасли. Для FMCG, где покупки повторяются часто, достаточно 90–180 дней, чтобы оценить реальную частоту. Для товаров с долгим циклом (бытовая техника, мебель) лучше работать с 365–730 днями. Эти диапазоны определяются медианным интервалом между покупками по когортах и подтверждаются сезонными колебаниями спроса.

Сезонность — это систематические колебания спроса, повторяющиеся из года в год. Чтобы ее учесть, сравниваем метрики по одинаковым календарным отрезкам: текущий ноябрь — с прошлым ноябрем. Если доступен ряд минимум за два полных года, используем годовую рамку для F и M. Для R сезонность влияет косвенно: давность растет ежедневно, но интерпретацию корректируем относительно типичных «мезосезонов» спроса (например, высокий спрос в декабре).

Практически это означает два эксперимента. Сначала считаем F и M на нескольких окнах (например, 180 и 365 дней) и проверяем стабильность будущих сегментов. Затем фиксируем окно, в котором сегменты сохраняют структурную интерпретацию и дают наименьшую долю случайных перетоков в межсезонье. Такой подход предотвращает «перекрашивание» базы из‑за календаря, а не реального поведения.

Денежная ценность: чеки, возвраты, скидки

Monetary может считаться как сумма по чековому нетто или как сумма по заказам. Мы используем построчное нетто (net_amount), где из брутто вычтены скидки, купоны и возвраты. Если купон субсидирует часть чека, стоимость применяется пропорционально позициям заказа. Возвраты учитываются на дату факта возврата. Это обеспечивает корректную связь с давностью и частотой: клиент, вернувший товар через месяц, изменит M в месяце возврата, а не в месяце покупки.

Валюта — одна. Если продажи идут в несколькихвалютах, конвертируем суммы в базовую валюту по средневзвешенному курсу на дату транзакции. Это предотвращает ложные скачки Monetary при изменении курсов. НДС и налоги учитываем так же, как в управленческой отчетности: либо работаем с выручкой «нетто без НДС», либо фиксируем «брутто» и используем одинаковую базу для всех клиентов.

📖Совет:

Для редких крупных чеков применяйте винсоризацию Monetary на верхних 1–2% распределения. Это уменьшает влияние выбросов на границы бинов и улучшает стабильность сегментов.

Для извлечения управленческих инсайтов важно видеть, как меняется M у групп с одинаковой частотой. Такие сравнения проще вести в дашбордах. В практической работе помогает аналитика продаж и писем, где RFM‑метрики и когорты мониторятся ежедневно.

Заказать Monitor Analytics →

Бининг и шкалирование: квантильный vs пороговый подход

Бининг — это перевод непрерывных величин в категории. Он нужен, чтобы собрать клиентов в группы для интерпретации и коммуникаций. Мы рассмотрели два подхода: квантильный и пороговый. Квантильный бининг делит клиентов по процентилям распределения (например, на пять равных по размеру групп), пороговый использует заранее заданные числовые границы, привязанные к бизнес‑смыслу.

Квантильный метод хорош тем, что гарантирует сопоставимые по размеру сегменты. Это облегчает A/B‑тесты и контроль статистической мощности: в каждом бине достаточно наблюдений. Недостаток — изменчивость границ при сдвиге данных; его решают перекалибровкой на контрольных периодах и фиксацией границ до конца отчетного квартала. Пороговый подход, напротив, стабилен и интуитивен («F=1, F=2–3, F≥4»), но приводит к дисбалансу групп там, где распределение сильно скошено.

Для нашей задачи мы использовали гибрид. Для давности R применили квантильные границы, чтобы получить равные по размеру бины «давно/не очень/недавно». Для частоты F задали пороги по смыслу: отдельная группа для одноразовых покупателей и отдельная — для высокой частоты. Monetary разрезали квантилями с винсоризацией верхних значений. Такой микс дает равные по размеру группы там, где это важно, и сохраняет бизнес‑интерпретацию там, где важно отделить разовые покупки.

Дополнительно провели шкалирование в скоринговую шкалу 1–5 для каждого измерения. Мы сохранили монотонность: больше R (давность) — выше R‑скор, больше F — выше F‑скор, больше M — выше M‑скор. В результате интерпретация проста: R=5 означает «давно не покупал», а F=5 — «покупает часто». Такое прямое кодирование облегчает поиск приоритетов реактивации без инверсий в голове аналитика.

Выбор размерности матрицы (например, 5×5) и границы бинов

Размерность — компромисс между детализацией и управляемостью. Сетка 5×5×5 дает 125 комбинаций, что слишком много для операционного использования. Поэтому мы используем 5 бинов по R, 4 по F и 4 по M и затем агрегируем их в 12–16 бизнес‑сегментов. Такой выбор позволяет увидеть поведение с нужной детализацией и в то же время упростить маркировку. Решение проверяется нагрузкой на каналы: сколько сообщений команда успеет подготовить и отослать с качественным контролем.

Границы бинов определяем эмпирически. Пример для R (давность в днях) на окне годичных данных: P20, P40, P60, P80 распределения давности формируют пять бинов. Для F по смыслу выделяем: F=1; F=2; F=3–4; F≥5. Для M используем P25, P50, P75 как три границы четырех бинов после винсоризации верхних значений на P99. Такое разбиение дает управляемое количество комбинаций и понятные срезы по денежной ценности.

Рекомендации проверяем на контрольных периодах: если за квартал квантильные границы сильно сдвинулись, фиксируем их на базовом периоде до следующей перекалибровки. Это уменьшает «дрожание» сегментов. Важно документировать методику: какой процентиль использован, на каком окне, с какой винсоризацией. Тогда любой пересчет воспроизводим и сопоставим.

🚨Пример:

Если P80 давности равен 210 дням, то R‑бин 5 — это клиенты, не покупавшие более 210 дней. Такое определение непосредственно задает аудиторию для реактивации.

Чтобы устойчиво отслеживать границы и срезы, удобно автоматизировать выгрузки и визуализации. Здесь полезны дашборды для руководителя, где видно «дрейф» квантилей и нагрузку по сегментам.

Заказать Monitor Analytics →

Построение матрицы сегментов и маркировка ключевых кластеров

Матрица сегментов — это продукт перекрестного бининга R, F и M. Мы переводим каждую комбинацию бинов в понятную бизнес‑этикетку. Для начала задаем приоритетную ось — давность. Затем учитываем частоту, чтобы отличить «заснувших» лоялистов от разовых покупателей. Денежная ценность завершает картину и помогает разделить «дорогих» и «эконом» внутри одинаковых R и F.

Маркировка выполняется по четким правилам, чтобы любой аналитик мог воспроизвести результат. Пример схемы: R5 — «спящие», R4 с F≥3 — «умирающие», R1–R2 с F=1 — «новые/пробные», R1–R2 с F≥3 и M в верхнем бине — «лояльные high‑value». Средние значения F и M дают промежуточные кластеры: «стабильные серединные», «перспективные растущие». Эти ярлыки согласуются с маркетингом, чтобы коммуникации были точными и несли один и тот же смысл для всех команд.

Для иллюстрации приведем упрощенную таблицу соответствий. Это не финальная матрица 5×4×4, а компактная карта, показывающая логику на уровне приоритетных кластеров.

Комбинация R‑F‑M	Описание	Бизнес‑ярлык
R5 & F=1 & M внизу	Давно не покупал, разовая сделка, низкая ценность	Спящие
R5 & F≥3 & M сред/выс	Давно не покупал, но ранее часто и на сумму	Умирающие
R1–R2 & F=1 & M низ/сред	Свежая первая покупка	Новые/пробные
R1–R2 & F≥3 & M верх	Свежие, частые и дорогие	Лояльные high‑value
R3–R4 & F=2–3 & M сред	Равномерные повторные покупки	Стабильные
R2–R3 & F=1–2 & M сред/выс	Свежие с потенциалом	Перспективные

Карта дальше детализируется на основании реального распределения. Мы избегаем перекрывающихся ярлыков и фиксируем правила в коде сегментации. Так же назначаем технические идентификаторы сегментов, чтобы не зависеть от формулировок. Это необходимо для контролируемых экспериментов и точного расчета удержания в динамике.

📖Совет:

Сначала ограничьте число ярлыков 10–16. Избыточная детализация перегружает канал коммуникации и усложняет интерпретацию эффектов.

Для переноса логики в работу с подписной базой и операционными циклами пригодится отдел работы с базой: он использует эти же кластеры как объекты действий.

Построить отдел работы с базой →

«Спящие», «умирающие», «перспективные», «лояльные high‑value»

Спящие — клиенты с высокой давностью (R в верхнем бине), низкой частотой и низкой или средней денежной ценностью. Их поведение типично для разовых покупок или для тех, кто не нашел ценности в продукте. Для них важно различать тех, кто купил товар с длинным сроком службы, и тех, кто не вернулся из‑за барьеров. Критерий: R=5 и F=1, M в нижних двух бинах.

Умирающие — это давние бездействующие клиенты, у которых в прошлом была высокая частота или высокая денежная ценность. Это ядро для реактивации: они знают продукт и уже вносили заметнуювыручку. Критерий: R=5 и F≥3 или M в верхнем бине. Дополнительно выделяем подтип «high‑margin», если известно, что их корзины были маржинальными.

Перспективные — клиенты с невысокой давностью, но еще без устойчивой частоты. Это «горячая» аудитория, где легки повторные покупки. Критерий: R=2–3, F=1–2, M средний или выше. С ними важно вовремя закрепить привычку и расширить чек.

Лояльные high‑value — клиенты, которые покупают часто и недавно. Это основной источник валовой прибыли в большинстве розничных моделей. Критерий: R=1–2, F≥3 и M в верхнем бине. Важно не перегружать их коммуникациями и бережно относиться к частоте касаний, чтобы не вызывать выгорание.

Проверка устойчивости сегментов во времени (стабильность, перетоки)

Проверка устойчивости отвечает на два вопроса. Первый — повторится ли разбиение при пересчете через месяц или квартал. Второй — как клиенты переходят между сегментами, и отражают ли эти переходы реальное поведение, а не шум метрик. Мы используем контрольные периоды и матрицы перетоков, чтобы оценить стабильность.

Начинаем с заморозки границ бинов на базовом периоде и пересчета сегментов на последующем контрольном окне той же длины. На полученных кластерах рассчитываем долю совпадений ярлыков, индекс Жаккара для пересечения наборов клиентов в ключевых сегментах и медианные изменения бинов для каждого измерения. Если расхождения избыточны, анализируем причины: изменения сезонности, географии продаж, ошибки в обработке возвратов или сброс границ квантилей.

Матрица перетоков — это таблица, где по строкам исходные сегменты, по столбцам — сегменты на следующем периоде. Диагональ показывает стабильность, внедиагональные элементы — переходы. Мы следим за тремя паттернами: «старение» (рост R при стабильных F и M), «угасание» (падение F и M вместе), «реактивация» (снижение R, рост F). Для ключевых сегментов задаем ожидаемые коридоры долей переходов и сравниваем их по месяцам.

Статистическую устойчивость проверяем бутстрепом: многократно пересэмплируем клиентов и пересчитываем долю, оставшуюся в сегменте. Разброс интервалов доверия показывает, насколько границы бинов надежны. Если неопределенность велика у границ, сдвигаем пороги или уменьшаем число бинов. Для денежных метрик используем коэффициент вариации по клиентам в сегменте и проверяем, что он не выходит за управляемые пределы.

Важная часть проверки — чувствительность к окну наблюдения. Считаем сегментацию на окне 180 и 365 дней и сравниваем матрицы перетоков. Если структура сегментов сохраняется, окно можно выбрать по операционным соображениям. Если различия существенны, фиксируем более длинное окно и уменьшаем частоту перекалибровки квантилей.

❓Важно:

Любая корректировка границ должна сопровождаться повторной оценкой стабильности и документированием изменений. Так удается избежать «дрейфа» сегментов из‑за технических деталей.

Для регулярного мониторинга перетоков удобно использовать сквозную аналитику с автоматической выгрузкой матриц переходов и сигналами о выходе метрик за пороги.

Заказать Monitor Analytics →

Гипотезы поведения и мотивации по каждому ключевому сегменту

Гипотезы — это проверяемые утверждения о том, какая ценность и в какой форме важна для сегмента. Они опираются на историю покупок, давность и денежную ценность, но не подменяют причинно‑следственный анализ. Для каждого кластера формулируем, что может повысить вероятность повторной покупки и средний чек, и как это лучше проверить.

Для «спящих» базовая гипотеза — барьер к возвращению выше, чем у средних клиентов. Причины разные: забывание о бренде, отсутствие потребности, неудобство сервиса. Проверяем выделение триггеров на снижение барьеров: упрощенные сценарии переоформления, напоминание о гарантийном обслуживании, сопутствующие товары с жизненным циклом около срока давности. Сильные скидки — лишь одна из гипотез и тестируется в последнюю очередь, чтобы не обесценивать выручку.

Для «умирающих» ключевой мотиватор — восстановление привычного паттерна. Они уже покупали часто и на значимые суммы. Работают сигналы эксклюзивности в рамках привычной линейки, предложение сервисных пакетов, ограниченные во времени доступы к новым коллекциям. Важно не смешивать их с новичками: коммуникации строятся на «вы были с нами долго, вот что мы приготовили для вас».

«Перспективные» — аудитория, где формируется повторяемость. Гипотеза — у них еще недостаточно поводов вернуться. Проверяем, какие категории в корзине чаще приводят к вторым покупкам, сколько времени занимает естественный возврат и как его сократить. Точки роста: дополнительные гарантии, быстрая доставка, бонусы за второй заказ, персональные рекомендации на основе первой покупки.

«Лояльные high‑value» мотивируются бессервисными сценариями, ранним доступом и расширением ассортимента. Гипотезы — запуск подписок на расходные материалы, приоритетное обслуживание, доступ к закрытым распродажам. В переменной Monetary у них верхние бины, поэтому важно протестировать не размер скидки, а релевантность предложений и частоту касаний.

🚨Пример:

Если «умирающие» чаще возвращаются, когда им предлагают сервисный пакет для недавно купленной техники, то гипотеза «нужен сервис за умеренную доплату» подтверждается. Дальше ее можно развивать в продуктовую опцию, а не в разовую акцию.

Когда гипотезы подтверждаются, они превращаются в правила сегментации дальнейших коммуникаций. Для аккуратного внедрения помогает система апсейлов, опирающаяся на устойчивые паттерны поведения сегментов в RFM‑матрице.

Построить отдел работы с базой →

Локальный вывод: какие сегменты приоритетны для реактивации

Реактивация — это возвращение бездействующих клиентов к покупкам. По нашей модели в приоритете аудитории с высокой давностью R, высокой денежной ценностью M и средней или низкой частотой F. Они уже приносили выручку, но давно не проявляли активность. Вероятность отклика у них выше, чем у клиентов с низкой денежной ценностью, а операционные затраты ниже, чем у массовой «спящей» группы.

На втором месте — «умирающие» с высокой F в прошлом, даже если Monetary средний. Для них важны сценарии восстановления привычного ритма. На третьем — «перспективные» с растущим M, где удачно развивается частота. Эти аудитории устойчиво выделяются на матрице перетоков, что облегчает контроль результатов и корректировку бинов при перекалибровках.

Сегментация, построенная на четких окнах, прозрачном бининге и регулярной валидации, формирует управляемую карту базы. Она пригодна для воспроизводимых экспериментов и подсчета эффекта без переобучения. Для масштабирования процессов и контроля метрик в динамике можно использовать программы удержания с регулярными отчетами по RFM‑кластерам.

Построить отдел работы с базой →

Как RFM помог оживить «спящую» базу (часть 2)

Подготовка данных и критерии включения клиентов

Очистка, дедупликация, объединение каналов и офлайн/онлайн

Определения измерений R, F, M в модели

Окно давности и учет сезонности

Денежная ценность: чеки, возвраты, скидки

Бининг и шкалирование: квантильный vs пороговый подход

Выбор размерности матрицы (например, 5×5) и границы бинов

Построение матрицы сегментов и маркировка ключевых кластеров

«Спящие», «умирающие», «перспективные», «лояльные high‑value»

Проверка устойчивости сегментов во времени (стабильность, перетоки)

Гипотезы поведения и мотивации по каждому ключевому сегменту

Локальный вывод: какие сегменты приоритетны для реактивации

Связанные статьи