Кластерный анализ (или кластеризация) — задача разбиения заданной выборки объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. [http://www.machinelearning.ru]
Рис. 1 Общая методология кластеризации [Jain, Dubes. Algorithms for clustering data (Prentice-Hall, 1988)]
- Сбор данных: Получение «сырых» данных из различных источников.
- Первоначальный отбор: Подготовка данных к анализу, нормализация. Выявление данных, которые будут мешать дальнейшему анализу, например, незначащие характеристики, дубликаты, противоречия.
- Представление: Перевод данных в форму, пригодную для дальнейшего анализа.
- Тенденция кластеризации: Выявление неслучайной структуры в данных. Если данные не имеют тенденцию к кластеризации, то выбирается другая техника анализа данных.
- Стратегия кластеризации: Выбор соответствующего метода (иерархический\неиерархический) и затем алгоритма. Внимание должно быть уделено соответствию алгоритма конкретным данным.
- Валидация: Сравнение с данными, полученными «извне»; сравнение с данными, полученными при работе других алгоритмов.
- Интерпретация: Графическое представление результатов кластерного анализа.
Рис. 2 Этапы кластеризации [ACM Computing Surveys, Vol. 31, No. 3, September 1999]
- Выявление вектора характеристик: Выбор наиболее эффективных подмножеств характеристик или создание новых характеристик путем трансформации существующих.
- Выбор метрики: выбор меры расстояний для определения «близости» объектов. Выбор осуществляется в зависимости от пространства, в котором расположены объекты и неявных характеристик кластеров.
- Разбиение объектов на кластеры: Выполняется в соответствии с выбранным алгоритмом. Производится изменение метрики или вектора характеристик при неудовлетворительном результате разбиения.