Концепция кластера в технологиях интеллектуального анализа данных | Школа финансового анализа и инвестиционной оценки Жданова Василия и Жданова Ивана

Кластеризация — один из ключевых типов закономерностей, выявляемых методами интеллектуального анализа данных. Кластеризацию в контексте интеллектуального анализа обычно понимают как разделение целого множества на некоторое количество подмножеств по заранее неизвестным признакам, причем объекты внутри каждого из кластеров должны быть близки между собой по одному или нескольким признакам, доступным для интерпретации.

Методы кластеризации могут оказаться полезными в самых разных отраслях экономики. В первую роль речь идет об областях массового обслуживания. Банки, операторы мобильной связи, страховые организации — лишь некоторые экономические объекты, для которых объективное разделение множества потенциальных клиентов на разумно определяемые группы может привести к существенному положительному результату. Объектами сегментации могут выступать и другие экономические объекты, например, товары, контрагенты, ценные бумаги, транзакции.

Простейшим методом кластеризации является визуализация. Однако она применима лишь тогда, когда число значимых для кластеризации факторов ограничено. Не составляет особого труда выделить кластеры на двухмерной диаграмме; иногда удается разглядеть кластеры на объемной трехмерной диаграмме. Но увеличение размерности пространства изучаемых образцов делает визуальные методы невозможными, что приводит к необходимости использования иных инструментов.

Целый ряд таких инструментов кластеризации был разработан в рамках концепции интеллектуального анализа данных. Так, в составе аналитической платформы Deductor Studio компании Basegroup Labs представлена кластеризация методами k —means, методами g -means, а также нейросетевыми методами на основе самоорганизующихся карт Кохонена.

Вместе с тем на практике инструменты многомерной кластеризации находят довольно ограниченное применение. Одна из причин в том, что разные методы кластеризации зачастую приводят к разным результатам на одних и тех же массивах данных. Это в некоторой мере подрывает авторитет технологий в глазах практиков, не всегда способных оценить результаты кластеризации с точки зрения качества разделения.

Возникает вопрос, почему разные инструменты приводят к разным результатам. Как нам кажется, это связано не только с особенностями, присущими каждому из алгоритмов, но и со спецификой самого понятия «кластер», заложенного в основу соответствующих технологий.

Чтобы проиллюстрировать сказанное, мы будем использовать условный массив данных, определенных на двух измерениях, которые мы для удобства назовем «возраст» и «доход». Таким образом, пример представляет собой гипотетическое распределение клиентов по возрасту и ежемесячному доходу, причем расположены они тремя большими группами (см. рис. 1).

Внутри каждой из групп образцы распределены равномерно. Визуально эти группы являются кластерами: образцы расположены в них кучно и на значительном расстоянии от других групп. Более того, эти группы являются кластерами по любому из единичных измерений благодаря существенным межгрупповым разрывам в значениях показателя, сравнимым или даже превышающим размеры группы. Мы, однако, будем называть эти группы «сегментами» в отличие от кластеров, которые будут выделены в результате применения инструментальных средств.

Особенности кластеризации разными инструментами были рассмотрены в ходе их применения на основе аналитической платформы Deductor Studio.

При использовании метода g-means количество кластеров определяется автоматически, причем их число зависит от выставленного уровня значимости.

При средних значениях уровня значимости угловые сегменты неизменно образовывали собственные кластеры, а центральный сегмент дробился на 7-8 прилегающих Друг к Другу кластеров. Увеличение уровня значимости привело к ожидаемому увеличению числа кластеров, причем дробиться продолжал центральный сегмент, а угловые оставались двумя самостоятельными отдельными кластерами. Чрезмерное увеличение кластеров заставило в конечном счете дробиться и угловые сегменты, однако этот случай нужно считать крайним.

Уменьшение значимости в алгоритме g-means привело к снижению числа кластеров. Центральный сегмент стал менее дробным, однако, как ни снижался уровень значимости, добиться сведения центрального сегмента в единый кластер не удалось. Даже при минимальной значимости он оставался раздробленным на пять сегментов.

Алгоритм k —means требует предварительного определения числа кластеров. При указании числа кластеров, равного трем, выделение оказалось вполне удачным — как угловые, так и центральный сегмент образовали собственные кластеры. Любое увеличение числа кластеров приводило к дроблению центрального сегмента.

Такие результаты были весьма ожидаемы. Если число кластерных центров задано заранее, то остается лишь разместить эти центры в пространстве образцов так, чтобы они действительно были расположены в центрах скопления образцов, а с этой задачей k -means справляется хорошо.

Самоорганизующиеся карты Кохонена, вне зависимости от топологии (использовались как «квадратные», так и «шестиугольные» сети) показали неоднозначные результаты. При автоматическом выделении числа кластеров картина весьма напоминала ту, что наблюдалась у алгоритма g-means: отдельные кластеры для угловых сегментов и дробление центрального сегмента, причем характер последнего был весьма различен: от четырех почти одинаковых по числу образцов и регулярно размещенных кластеров до выделения малочисленных угловых кластеров в направлении главной диагонали.

Однако наиболее интересные результаты показали сети Кохонена при установлении вручную числа кластеров, равного трем. Сегменты не соответствовали кластерам. Произошло дробление центрального сегмента на три кластера, а угловые сегменты вошли в состав двух различных кластеров.

Результаты кластеризации методами g-means, k-means и картами Кохонена схематично показаны соответственно на рисунках 2, 3 и 4.

Дробление крупного кластера алгоритмом g-means — ситуация, описанная в литературе. Не так очевидны результаты работы самоорганизующихся карт Кохонена. Разумеется, сеть Кохонена способна растягиваться на все пространство образцов, так что расстояние между соседними кластерными элементами может быть практически любым. Но отчего сеть, вопреки логике визуального восприятия, прибавляет к кластеру углового сегмента часть центрального? Ситуация становится понятной, если учесть расстояния между отдельными элементами сегментов. Так, на рисунке 5 хорошо видно, что точка А ближе к точке В, нежели к С.

Действительно, доход в 80 тыс. рублей более похож на 100 тыс. рублей, чем на 40 тыс. рублей. Поэтому, по логике карт Кохонена, точке А легче попасть в один кластер с В, нежели с С.

Мы можем видеть, что речь идет не просто о частных особенностях различных инструментов. В алгоритмах заложено неодинаковое понимание самого понятия «кластер». Алгоритмы k -means и g-means основаны на объединении кластера вокруг некоторого центра, положение которого определяется автоматически. Таким образом, в концепции этих алгоритмов кластер — это набор элементов, для каждого из которых расстояние до некого центра меньше, чем до центра других кластеров. Как было показано, в определенных случаях эта концепция оказывается наиболее удачной, но нельзя забывать, что речь шла о кластерах довольно регулярной формы.

Понимание кластера в концепции карт Кохонена несколько иное. Здесь важны расстояния не до центров, но до элементов соседних кластеров. Поэтому кластер понимается как совокупность элементов, которые более похожи друг на друга, нежели на элементы других кластеров. Иными словами, расстояние до других элементов своего кластера должно превышать расстояние до элементов другого кластера. Хотя в такой концепции есть заметные преимущества (например, карты Кохонена способны выделять кластеры сложной формы, а не только сферические и эллипсоидные), мы видим, что она не срабатывает в некоторых очевидных случаях.

Наконец, в визуальном представлении кластеры зачастую видятся пользователю по-иному. Для субъекта визуального анализа важно наличие межкластерных разрывов. Разумеется, все зависит от концепции анализа, опыта и точки зрения аналитика, так что нельзя однозначно сформулировать общее для всех мнение, но во многих случаях именно плотность расположения элементов в группе и наличие незаполненных или слабозаполненных пространств на границах этих групп служит визуальным признаком кластера.

Можно привести следующую аналогию. Общепринятыми «кластерами» размещения государств на поверхности Земли являются континенты, разделенные разного размера водными объектами. Вместе с тем, карты Кохонена, вероятно, не смогут выделить Северную Америку в единый кластер, поскольку Аляска значительно ближе к России, чем к Мексике. А алгоритмы k-means и g-means не справятся с неправильной формой континентов, отчего возникнут, например, проблемы с разделением Евразии и Африки.

Визуальное представление о кластерах требует учета смысла и значения показателей. Так, оба сегмента на рисунке 6 могут представляться кластерами. Но если вложить в диаграмму экономический смысл первой задачи, то мы увидим, что малый сегмент, действительно, представляет очевидный кластер (наиболее молодые и необеспеченные клиенты), в то время как в большой сегмент вошли как малообеспеченные клиенты старшего возраста, так и противоположная группа клиентов: молодые люди с наиболее высоким доходом.

Заметим, кстати, что при обработке данных приведенного примера все инструменты интеллектуального анализа неизменно дробят большой сегмент.

Отсутствие единого понимания сущности кластера во многом вызвано неоднозначным и зачастую расширенным его применением в различных науках (например, кластеры как элементы кластерной политики), а также в практике информационных технологий (кластеры как система компьютеров или как единица хранения данных в некоторых файловых системах). Разницу в подходах необходимо учитывать при использовании инструментов интеллектуального анализа данных, так как результат может отличаться от представлений пользователя.

Автор:
И. Демин, д.э.н., профессор кафедры информационных технологий, Финансовый университет при Правительстве Российской Федерации
Статья из журнала «РИСК: ресурсы, инфомация, снабжение, конкуренция», №1, 2012

Библиографический список:
1.Барсегян и др. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP — СПб. :БХВ-Петербург, 2007
2. Демин И. С. Кластеризация как инструмент интеллектуального анализа данных // Новые информационные технологии в образовании. Часть 1, — М.: 1 С-Паблишинг, 2011
3. Демин И. С. Кластеризация равномерно распределенных множеств методами нейронных сетей // Модели экономических систем и информационные технологии, -М.: Финансовая академия, 2007
4. Паклин Н. Алгоритмы кластеризации на службе Data Mining — http://www.basegroup. ru/library/analysis/clusterization/datamining/
5. Паклин H. Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+ CD): учеб. пособие. — 2-е изд., перераб. и доп.— СПб.: Питер, 2010