Метрики

Для определения сходства («близости») объектов используются различные метрики. От выбора метрики во многом зависит результат кластеризации. Выбор осуществляется в зависимости от пространства, в котором расположены объекты и неявных характеристик кластеров. Рассмотрим основные из метрик:

  1. Евклидово расстояние
    Наиболее распространенная мера расстояния. Представляет собой геометрическое расстояние в многомерном пространстве:
  2. Квадрат Евклидова расстояния
    Более отдаленные друг от друга объекты получают больший вес.
  3. Расстояние городских кварталов (манхэттенское расстояние)
    Это расстояние является средним разностей по координатам. В отличие от Евклидова расстояния в данной метрике уменьшено влияние выбросов.
  4. Расстояние Чебышева
    Используется для объектов, отличающихся каким-либо одним измерением.
  5. Степенное расстояние
    Для случаев, когда необходимо прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются                                                                                              ,                                                                                                      где r и p – параметры, определяемые пользователем. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра – r и p — равны двум, то это расстояние совпадает с расстоянием Евклида.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*