Для определения сходства («близости») объектов используются различные метрики. От выбора метрики во многом зависит результат кластеризации. Выбор осуществляется в зависимости от пространства, в котором расположены объекты и неявных характеристик кластеров. Рассмотрим основные из метрик:
- Евклидово расстояние
Наиболее распространенная мера расстояния. Представляет собой геометрическое расстояние в многомерном пространстве:
- Квадрат Евклидова расстояния
Более отдаленные друг от друга объекты получают больший вес.
- Расстояние городских кварталов (манхэттенское расстояние)
Это расстояние является средним разностей по координатам. В отличие от Евклидова расстояния в данной метрике уменьшено влияние выбросов.
- Расстояние Чебышева
Используется для объектов, отличающихся каким-либо одним измерением.
- Степенное расстояние
Для случаев, когда необходимо прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются , где r и p – параметры, определяемые пользователем. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра – r и p — равны двум, то это расстояние совпадает с расстоянием Евклида.