Методология кластеризации

Кластерный анализ (или кластеризация) — задача разбиения заданной выборки объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. [http://www.machinelearning.ru]

 

methodology

Рис. 1 Общая методология кластеризации [Jain, Dubes. Algorithms for clustering data (Prentice-Hall, 1988)]

  1. Сбор данных: Получение «сырых» данных из различных источников.
  2. Первоначальный отбор: Подготовка данных к анализу, нормализация. Выявление данных, которые будут мешать дальнейшему анализу, например, незначащие характеристики, дубликаты, противоречия.
  3. Представление: Перевод данных в форму, пригодную для дальнейшего анализа.
  4. Тенденция кластеризации: Выявление неслучайной структуры в данных. Если данные не имеют тенденцию к кластеризации, то выбирается другая техника анализа данных.
  5. Стратегия кластеризации: Выбор соответствующего метода (иерархический\неиерархический) и затем алгоритма. Внимание должно быть уделено соответствию алгоритма конкретным данным.
  6. Валидация: Сравнение с данными, полученными «извне»; сравнение с данными, полученными при работе других алгоритмов.
  7. Интерпретация: Графическое представление результатов кластерного анализа.

 steps

  Рис. 2 Этапы кластеризации [ACM Computing Surveys, Vol. 31, No. 3, September 1999]

  1. Выявление вектора характеристик: Выбор наиболее эффективных подмножеств характеристик или создание новых характеристик путем трансформации существующих.
  2. Выбор метрики: выбор меры расстояний для определения «близости» объектов. Выбор осуществляется в зависимости от пространства, в котором расположены объекты и неявных характеристик кластеров.
  3. Разбиение объектов на кластеры: Выполняется в соответствии с выбранным  алгоритмом.  Производится изменение метрики или вектора характеристик при неудовлетворительном результате разбиения.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*