Кластерный анализ (или кластеризация) — задача разбиения заданной выборки объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. [http://www.machinelearning.ru]
Рис. 1 Общая методология кластеризации [Jain, Dubes. Algorithms for clustering data (Prentice-Hall, 1988)]
- Сбор данных: Получение «сырых» данных из различных источников.
 - Первоначальный отбор: Подготовка данных к анализу, нормализация. Выявление данных, которые будут мешать дальнейшему анализу, например, незначащие характеристики, дубликаты, противоречия.
 - Представление: Перевод данных в форму, пригодную для дальнейшего анализа.
 - Тенденция кластеризации: Выявление неслучайной структуры в данных. Если данные не имеют тенденцию к кластеризации, то выбирается другая техника анализа данных.
 - Стратегия кластеризации: Выбор соответствующего метода (иерархический\неиерархический) и затем алгоритма. Внимание должно быть уделено соответствию алгоритма конкретным данным.
 - Валидация: Сравнение с данными, полученными «извне»; сравнение с данными, полученными при работе других алгоритмов.
 - Интерпретация: Графическое представление результатов кластерного анализа.
 
Рис. 2 Этапы кластеризации [ACM Computing Surveys, Vol. 31, No. 3, September 1999]
- Выявление вектора характеристик: Выбор наиболее эффективных подмножеств характеристик или создание новых характеристик путем трансформации существующих.
 - Выбор метрики: выбор меры расстояний для определения «близости» объектов. Выбор осуществляется в зависимости от пространства, в котором расположены объекты и неявных характеристик кластеров.
 - Разбиение объектов на кластеры: Выполняется в соответствии с выбранным алгоритмом. Производится изменение метрики или вектора характеристик при неудовлетворительном результате разбиения.
 

