Проекционные методы.Основные понятия и примеры


The Presentation inside:

Slide 0

Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна


Slide 1

План лекции Ведение Немного истории Природа многомерна Пример - многомерный статистический контроль процессов Два подхода к анализу данных 2. Идеи, заложенные в проекционном подходе Данные – какие они бывают Классы решаемых задач 3. Метод главных компонент, основные понятия и примеры


Slide 2

Метод наименьших квадратов (простейший случай)


Slide 3

Многомерные данные


Slide 4

Контроль производственного процесса


Slide 5

Контроль производственного процесса


Slide 6

Контроль производственного процесса


Slide 7

Контроль производственного процесса


Slide 8

Контроль производственного процесса On


Slide 9

Контроль производственного процесса Точки съема Моделирование производилось на основе анализа измерений и внутренних связей присущих этому набору данных Не применялись содержательные физико-химические модели


Slide 10

Моделирование многомерных данных (процессов или явлений)


Slide 11

Содержательная составляющая задачи. Никакие многомерные методы не помогут, если данные не содержат полезной информации об изучаемом свойстве


Slide 12

Данные Количественные и качественные Управляемые и неуправляемые Прямые измерения и косвенные


Slide 13

Данные


Slide 14

Два класса решаемых задач


Slide 15

Проекционные методы


Slide 16

Проекционные методы Данные без структуры Данные со скрытой структурой


Slide 17

Проекция на подпространство


Slide 18

Метод главных компонент (PCA)


Slide 19

Метод главных компонент t=Xp ? max|Xp|2 при условии |p|=1 ? XtXp = ?p ; tTt=l Karl Pearson, 1901 X - матрица данных, E - матрица ошибок, обе (n ? p) T - матрица счетов: (n ? k), P - матрица нагрузок: (k ? p) k - число главных компонент (k<<p)


Slide 20

Матрица счетов T (scores)


Slide 21

Матрица нагрузок P (loadings) PT- матрица перехода из пространства X в пространство главных компонент


Slide 22

Остатки E матрица E имеет ту же структуру что и X ei - определяет расстояние от исходного объекта до подпространства главных компонент совокупная ошибка для всех объектов E0 , E1 , … E0 – ошибка при 0-м ГК, т.е. центрированная матрица X


Slide 23

Математическое обеспечение


Slide 24

Пример. Демографические данные Количество объектов (n) = 32 Количество переменных (m) = 12


Slide 25

Предварительная обработка данных Цель – преобразование исходных данных в форму, наиболее удобную для анализа.


Slide 26

График счетов (ГК1-ГК2)


Slide 27

Графики счетов «карты образцов»


Slide 28

График нагрузок (ГК1-ГК2) «карта переменных»


Slide 29

ГК1-ГК2 счета и нагрузки


Slide 30

График ошибок Способ определения правильного количества ГК


Slide 31

Цели и «инструменты» Основные цели МГК Представление объектов в пространстве, отражающем внутреннюю структуру изучаемых данных Понижение размерности системы, отделение содержательной части от шума Основные «инструменты» Графики счетов – «карты образцов» Графики нагрузок – «карты переменных» Графики остатков – способ выбора количества ГК


Slide 32

Что может быть не так? Данные не содержат необходимой информации Использовано недостаточное количество ГК Использовано излишние количество ГК Не удалены выбросы Удалены точки (псевдовыбросы) содержащие важную информацию Недостаточный анализ графиков счетов/нагрузок Использована только стандартная (машинная) диагностика, без содержательного анализа. Использованы неверные методы предварительной обработки данных


Slide 33

Анализ смеси


Slide 34

Разделение пиков


Slide 35

Продолжение - за компьютером


×

HTML:





Ссылка: