Untitled

МОДЕЛИРОВАНИЕ СЛУЧАЙНЫХ ВЕКТОРОВ ИЛИ СЛУЧАЙНЫХ ПРОЦЕССОВ (ЛЕКЦИЯ 16.04)
В силу дискретизации данных на ЦВМ генерация случайного вектора и N реализаций на заданном интервале [0, T] случайного процесса принципиально не отличается.
В отличие от независимой повторной выборки случайных величин элементы вектора (и реализация случайного процесса) являются зависимыми.
Моделирование стационарных СП с распространенными одномерными законами распределения.
Пример для случайного процесса: показателем распределения может быть записан рекуррентной функцией (см доску). n - последовательность независимых случайных величин с параметрами [0, 1]. То есть необходимо сгенерировать N случайных величин, распределенных по стандартному нормальному закону, после чего обеспечить зависимость реализаций кси(ti) на основе формулы *. В силу того, что формула * получена на основе экспериментальных данных полученная реализация оказывается очень неточным приближением случайного процесса с показателем распределения. Кроме того, эмпирические формулы существуют не для всех тиов случайного процесса, либо они вычислительно сложны. Основным недостатком метода Неймана является искусственное ограничение области определения, аргументов заданной плотности распределения. Для большинства распределений погрешность метода оказывается не столь существенной.
Кластеризация
Пусть х1,... xn - множество объектов, y1,..., yn - множества векторов (название кластера). Каждый объект выборки x может характеризоваться набором координат. Необходимо разбить исходную выборку х на непересекающиеся подмножества, называемые кластерами. Кластер состоит из объектов, близких по некоторой метрике d, выбранной исследователем. При этом объекты разных кластеров существенно отличаются. Предположим что имеется конечная обучающая выборка объектов, на основе которой устанавливаются условия вхождения вновь прибывшего объекта в кластер. Алгоритм кластеризации - функция поиска соответствия элемента множеств X и Y.Количество кластеров может быть предварительно задано либо изменяться в процессе кластеризации. Как правило, если количество кластеров задано и они интерпретированы, то говорят о задаче классификации (обучение с учителем). Во всех остальных случаях говорят об обучении без учителя или о кластеризации.Кластеризация дает принципиально неоднозначное решение так как:
1)Не существует однозначно лучшего критерия качества кластеризации (сформулирован ряд эврестических критериев, основанный на результатах классификации аналогов)
2)Различия в стандартизации переменных
3)Число кластеров устанавливается исследователем субъективно
4)Результат кластеризации зависит от метрики
Кластер имеет следующие математические характеристики:
-Центр (среднее геометрическое место точек в пространстве переменных)
-Радиус (максимальное расстояние от точки до центра кластера с учетом выбранной метрики)
-Среднее квадратическое отклонение от центра кластера (СКО вычисляется на основе евклидова расстояния между точкой и центром и определяется
-Размер кластера (определяется либо по радиусу кластера, либо определяется величиной, превышающей СКО)
По результатам кластеризации можно получить две группы с перекрытием. Объекты, являющиеся пересечением двух кластеров, называются спорными, но должны быть отнесены к одному из кластеров однозначно. Критерием по определению схожести и различия кластеров является сравнение с количественной мерой, которая как правило вычисляется евклидовой метрикой.
Иерархические, неиерархические методы кластеризации
Так как расстояние между объектами отражает меру сходства между объектами, то выбранная метрика должна удовлетворять следующим условиям:
1)dij >= 0
2)dij = dji
3)правило треугольника
4)если dij!=0, то i!=j
5)если dij=0, то i=j
В ряде случаев вводят условие тождественности объектов.
Оценка качества кластеризации.
1)Ручная проверка
2)Установление контрольных точек и проверка на полученных кластерах
3)Определение стабильности кластеризации путем добавления в статистику новых данных
4)Создание и сравнение кластеров с использованием разных способов кластеризации
На практике для больших объемов данных используется последний подход, при малом объеме данных, как правило, первый, второй подход.
От каждой точки выборки исчисляется расстояние до центра кластера. И выбираются точки, близкие к первому, второму, третьему центру соответственно. Точки распределяются по кластерам. Пересчитываем центры кластеров. Процедура повторяется до тех пор, пока точки не стабилизируются в кластерах на протяжении трех последних итераций.