Лекция 12 Основы анализа данных_кластерный анализ.PPTX


Чтобы посмотреть презентацию с картинками, оформлением и слайдами, скачайте ее файл и откройте в PowerPoint на своем компьютере.
Текстовое содержимое слайдов презентации:

Количественные методы анализа информацииКластерный анализОсновы анализа данных.Лекция 12.06 июня 20161 2СекцииОсновная цельSergey MityaginФункции расстоянияМетоды кластеризацииК-среднихПример применения 3ОпределениеSergey MityaginКластерный анализ представляет собой класс методов, используемых для классификации объектов или событий в относительно однородные группы.Группы называют кластерами (clusters). Объекты в каждом кластере должны быть похожи между собой и отличаться от объектов в других кластерах. 4Типы входных данныхSergey Mityagin1. Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми. 2. Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки. *постановка задачи кластеризации по матрице расстояний является более общей 5Цели кластеризацииSergey MityaginПонимание данных путём выявления кластерной структуры. Сжатие данных.Обнаружение новизны 6Формальная постановка задачи кластеризацииSergey Mityagin𝑿 - множество объектов;𝒀 - множество номеров (имён, меток) кластеров;𝝆(𝒙𝒊,𝒙𝒋) - функция расстояния между объектами;𝑿𝒎=(𝒙𝟏,…,𝒙𝒎)⊂𝑿 – обучающая выборкаАлгоритм кластеризации:𝑎:𝑋→𝑌 кластеризация𝑎:𝑋|<𝑿𝒎, 𝒀>→𝑌 классификация  7Статистики, связанные с кластерным анализомSergey Mityagin1. План агломерации, объединения (agglomeration schedule). Дает информацию об объектах (событиях, случаях), которые должны быть объединены на каждой стадии процесса иерархической кластеризации.2. Кластерный центроид (cluster centroid). Среднее значение переменных для всех случаев или объектов в конкретном кластере,3. Кластерные центры (cluster centers). Исходные начальные точки в неиерархической кластеризации. Кластеры строят вокруг этих центров, или зерен кластеризации.4. Принадлежность кластеру (cluster membership). Указывает кластер, которому принадлежит каждый случай или объект.5. Древовидная диаграмма (дендрограмма) (dendrogram). Ее также называют древовидный граф— графическое средство для показа результатов кластеризации. 6. Расстояния между кластерными центрами (distances between cluster centres). Указывают, насколько разнесены отдельные пары кластеров, Кластеры, которые разнесены широко, ясно выражены и поэтому желательны.7. Сосульчатая диаграмма (icicle diagram), 8. Матрица сходства/матрица расстояний между объединяемыми объектами (similarity/distance coefficient matrix). Матрица сходства (расстояний) — это нижняя треугольная матрица, содержащая значения расстояния между парами объектов или случаев. 8Неоднозначность решения задачи кластеризацииSergey MityaginПричины неоднозначности: Не существует однозначно наилучшего критерия качества кластеризации. Число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. Результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом. 9Этапы выполнения кластерного анализаSergey Mityagin 1. формулировка проблемы 2. выбор меры расстояния 3. выбор метода кластеризации 4. принятие решения о количестве кластеров 5. интерпретация и профилирование кластеров 6. оценка достоверности кластеризации 10СекцииОсновная цельSergey MityaginФункции расстоянияМетоды кластеризацииК-среднихПример применения 1. Евклидово расстояние:2. Расстояние городских кварталов11Выбор способа измерения расстоянияSergey Mityagin𝑑𝑎,𝑏 =𝑖=1𝑛(𝑎𝑖−𝑏𝑖)2 𝑑𝑎,𝑏 =𝑖=1𝑛|𝑎𝑖−𝑏𝑖|  3. Расстояние Чебышева:4. Метрика Минковского12Выбор способа измерения расстоянияSergey Mityagin𝑑𝑎,𝑏 =max𝑖=1…𝑛|𝑎𝑖−𝑏𝑖| 𝑑𝑎,𝑏 =𝑖=1𝑛|𝑎𝑖−𝑏𝑖|𝑝1/𝑝  5. Взвешенная евклидова метрика:6. Расстояние Махланобиса13Выбор способа измерения расстоянияSergey Mityagin𝑑𝑎,𝑏 =𝑎−𝑏𝑇𝑆−1(𝑎−𝑏) 𝑑𝑎,𝑏 =𝑖=1𝑛𝑤∙(𝑎𝑖−𝑏𝑖)2  14СекцииОсновная цельSergey MityaginФункции расстоянияМетоды кластеризацииК-среднихПример применения 15Методы кластеризацииSergey MityaginИерархические методыНеиерархические методыАгломеративныеДивизивныеМетоды связиДисперсионные методыЦентроидные методеK-среднихПоследовательный пороговый методПараллельный пороговый методМетод оптимизирующего распределения 16Методы кластеризацииSergey Mityagin1. Метод ближайшего соседа и центроидный метод 17Методы кластеризацииSergey Mityagin2. Дисперсионный метод Варда. 18Принятие решения о количестве кластеровSergey MityaginВопрос о количестве кластеров – главный вопрос кластерного анализа.Рекомендации:При определении количества кластеров руководствуются теоретическими и практическими соображениями. В иерархической кластеризации в качестве критерия можно использовать расстояния, при которых объединяют кластеры.В неиерархической кластеризации чертят график зависимости отношения суммарной внутригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Относительные размеры кластеров должны быть достаточно выразительными. 19Интерпретация и профилирование кластеровSergey MityaginПроцедуры проверки качества кластерного анализа:Выполняйте кластерный анализ на основании одних и тех же данных, но с использованием различных способов измерения расстояния.. Используйте разные методы кластерного анализа и сравните полученные результаты.Разбейте данные на две равные части случайным образом. Выполните кластерный анализ отдельно для каждой половины. Случайным образом удалите некоторые переменные. Выполните кластерный анализ по сокращенному набору переменных.В неиерархической кластеризации решение может зависеть от порядка случаев в наборе данных. Выполните анализ несколько раз, меняя порядок случаев, до получения стабильного решения. 20Кластеризация переменныхSergey MityaginОбъект наблюденияПеременныеx1,…,xnНезависимая переменная YМетрика расстояния: коэффициент корреляцииЦель:идентификация характерных переменных или переменных, которые вносят уникальный вклад в данные;уменьшение числа переменны (замена переменных на кластерные компоненты). 21Задание на самостоятельную работуSergey MityaginРазбиться на группы по 1-3 человека.Подготовить доклад на одну из тем:Метод кластеризации ближайшего соседаКластеризация методом полной связиКластеризация методом средней связиНевзвешенныйВзвешенный Центроидный метод кластеризацииНевзвешенныйВзвешенный Кластеризация методов ВардаК-среднихПодготовить пример использования и реализации методаПодготовить презентацию.* Можно рассматривать один метод с разными метриками расстояний 22СекцииОсновная цельSergey MityaginФункции расстоянияМетоды кластеризацииК-среднихПример применения 23К-среднихSergey Mityagink-means (метод k-средних) — метод кластеризации, предполагающий минимизацию суммарное квадратичное отклонение точек кластеров от центров этих кластеров.𝑘 – количество кластеров;𝜇𝑖 - центры (масс) кластеров (также – «главные точки»);𝑆𝑖 - кластеры 𝑉=𝑖=1𝑘𝑥𝑗∈𝑆𝑖(𝑥𝑗−𝜇𝑖)2  24К-среднихSergey MityaginАлгоритм:Выбор центров масс кластеров (на первой итерации случайный).Прикрепление точек к кластерам, центр которого ближе других.Вычисление новых центров масс кластеровВозврат на шаг 1 или конец, если центр масс более не меняется. 25Проблемы К-среднихSergey MityaginНе гарантируется достижение глобального минимума суммарного квадратичного отклонения V, а только одного из локальных минимумов.Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.Число кластеров надо знать заранее. 26Пример неправильного применения К-среднихSergey Mityagin 27СекцииОсновная цельSergey MityaginФункции расстоянияМетоды кластеризацииК-среднихПример применения 28Пример применения K-среднихSergey MityaginИсходный файл данных содержит следующую информацию об автомобилях и их владельцах: марка автомобиля – первая переменная; стоимость автомобиля – вторая переменная; возраст водителя – третья переменная; стаж водителя – четвертая переменная; возраст автомобиля – пятая переменная; Целью данного анализа является разбиение автомобилей и их владельцев на классы, каждый из которых соответствует определенной рисковой группе. Наблюдения, попавшие в одну группу, характеризуются одинаковой вероятностью наступления страхового случая, которая впоследствии оценивается страховщиком. 29Пример применения K-среднихSergey MityaginФрагмент исходных данных 30Пример применения K-среднихSergey MityaginШаг 1. Масштаб измерений.Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать - каждая переменная должна иметь среднее 0 и стандартное отклонение 1. 31Пример применения Иерархического алгоритмаSergey MityaginШаг 2. Иерархическая классификация .В качестве правила объединения отметим Метод полной связи, в качестве меры близости – Евклидово расстояние. 32Пример применения K-среднихSergey MityaginШаг 3. Кластеризация методом К средних. 33Пример применения K-среднихSergey MityaginШаг 3. Кластеризация методом К средних.Первый кластер:Второй кластер: 34Пример применения K-среднихSergey MityaginШаг 3. Кластеризация методом К средних.Третий кластер:Четвертый кластер: 35Пример применения K-среднихSergey MityaginШаг 4. Описательный статистики кластеров.Ниже приведены таблицы описательных статистик для каждого из показателей: Цена: 36Пример применения K-среднихSergey MityaginШаг 4. Описательный статистики кластеров.Ниже приведены таблицы описательных статистик для каждого из показателей: Возраст: 37Пример применения K-среднихSergey MityaginШаг 4. Описательный статистики кластеров.Ниже приведены таблицы описательных статистик для каждого из показателей: Опыт: 38Пример применения K-среднихSergey MityaginШаг 4. Описательный статистики кластеров.Ниже приведены таблицы описательных статистик для каждого из показателей: Возраст автомобиля: 39Пример применения K-среднихSergey MityaginШаг 5*. Дисперсионный анализ.для определения значимости различия между полученными кластерами. Итак, значение р<0.05, что говорит о значимом различии. 40ВопросыSergey Mityagin1. Определение кластерного анализа. Цели кластеризации.2. Типы входных данных. Подготовка исходных данных для кластеризации. 3. Причины неоднозначности решения задачи кластеризации.4. Этапы кластерного анализа.5. Функции расстояния в кластерном анализе: евклидово, взвешенное евклидово, расстояние Минковского.6. Функции расстояния в кластерном анализе: расстояние городских кварталов, расстояние Чебышева, расстояние Махланобиса.7. Методы кластеризации.8. Метод кластеризации K-средних.

Приложенные файлы

  • pptx 8821682
    Размер файла: 675 kB Загрузок: 0

Добавить комментарий