Основные методы кластеризации можно разделить
Основные методы кластеризации можно разделить на два основных типа: иерархические и неиерархические. Внутри каждого из них существует огромное количество различных подходов и алгоритмов.
Иерархическая кластеризация происходит последовательно либо путем объединения меньших кластеров в большие, либо путем разделения больших кластеров на меньшие. Методы кластеризации различаются правилами, которые используются для того, чтобы решить, какие из меньших кластеров будут объединены или какие из больших кластеров будут разделены. Конечным результатом этого алгоритма является дерево кластеров . дендрограмма, показывающая, каким образом кластеры соотносятся друг с другом. Когда два меньших кластера объединяются, в дендрограмме образуется более высокий уровень, и изображение объединенного кластера на новом уровне соединяется с изображениями кластеров на более низком уровне. Обрезав дендрограмму на нужном уровне, можно получить кластеризацию элементов данных по различным группам. Иерархические методы кластеризации являются наиболее наглядными и в примерах не нуждаются.
Неиерархическая кластеризация состоит в непосредственном разделении набора данных на множество отдельных кластеров. Цель этого алгоритма состоит в том, чтобы определить границы кластеров как самых плотных областей в пространстве данных, т.е. определить кластер там, где имеется большое количество сходных элементов данных. Другой возможный подход включает в себя минимизацию некоторой меры различия выборок внутри каждого кластера при максимизации различия выборок из разных кластеров.
В качестве примера неиерархической кластеризации рассмотрим наиболее распространенный метод K—средних. Чтобы выразить плотность входных векторов высокой размерности, используя меньшее число отобранных эталонных (reference) или модельных (model) векторов либо векторов «кодовой книжки» (code book vectors), производится минимизация средней ошибки квантования.
Разница между входными выборочными векторами и эталонными векторами определяется как ошибка. Сравнивая все входные векторы со всеми эталонными векторами, можно указать те эталонные векторы, для которых эта разница (ошибка) является наименьшей. Соответствующий вектор может быть назван вектором-победителем. На практике каждый кластер может быть представлен одним или несколькими эталонными векторами. Основная проблема кластеризации методом K -средних состоит в исключительной важности выбора числа кластеров K , так как вид кластеров в большой степени зависит от значения K . Хорошее начальное приближение модельных векторов также является здесь важным, так как некоторые кластеры могут оказаться пустыми, если начальные значения лежат далеко от области распределения данных.
Общей проблемой всех методов кластеризации является сложность интерпретации кластеров. В большинстве алгоритмов кластеризации предпочтение отдается определенной форме кластеров, причем алгоритмы стремятся поставить данные в соответствие кластерам именно выбранной формы, даже если в рассматриваемом массиве данных кластеров нет. Если целью исследования является не только сжатие размерности таблицы финансовых показателей, но и формирование суждения об их структуре, важно провести предварительный анализ на предмет того, имеют ли эти показатели в принципе тенденцию к кластеризации. Поэтому в общем случае использование кластерного анализа нуждаются в обосновании.
На практике существуют и иные методы, которые могут быть использованы для сокращения размерности векторов данных. Некоторые из них носят название проекционных. Цель применения проекционных методов состоит в том, чтобы отобразить входные данные в пространстве меньшей размерности таким образом, чтобы определенные свойства структуры этих данных были сохранены с максимальной возможной точностью. Проекции можно также использовать для визуального представления данных в пространстве меньшей размерности.
Содержание раздела