WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:   || 2 |

«МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ВЫПОЛНЕНИЮ ПРАКТИЧЕСКИХ РАБОТ по курсу МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ для студентов дневного отделения специальности 080116 Математические методы в экономике IV ...»

-- [ Страница 1 ] --

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ

ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ЭКОНОМИКИ И ФИНАНСОВ»

КАФЕДРА ЭКОНОМИЧЕСКОЙ КИБЕРНЕТИКИ

И ЭКОНОМИКО-МАТЕМАТИЧЕСКИХ МЕТОДОВ

МЕТОДИЧЕСКИЕ УКАЗАНИЯ

К ВЫПОЛНЕНИЮ ПРАКТИЧЕСКИХ РАБОТ

по курсу

«МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ»

для студентов дневного отделения специальности 080116 «Математические методы в экономике»

IV курс

ИЗДАТЕЛЬСТВО

САНКТ-ПЕТЕРБУРГСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

ЭКОНОМИКИ И ФИНАНСОВ

Рекомендовано научно-методическим советом университета Методические указания к выполнению практических работ по курсу «Многомерные статистические методы» для студентов дневного отделения специальности 080116 «Математические методы в экономике». IV курс. – СПб. : Изд-во СПбГУЭФ, 2012. – 124 с.

Методические указания включают 3 части: «Методы оценивания и принятия решений», «Методы анализа и прогнозирования», «Методы описания» и 14 практических занятий. Рассматриваются практические реализации следующих методов: точечного и интервального оценивания, проверки статистических гипотез, корреляционного анализа, регрессионного анализа, дисперсионного анализа, кластерного и дискриминантного анализа, главных компонент, факторного анализа и канонических корреляций. В качестве инструментария статистических вычислений используется ППП Statgraphics».

Предназначены для студентов дневного отделения специальности 080116 «Математические методы в экономике» (IV курс).

Составители: канд. техн. наук, профессор Е.Е. Иванов канд. техн. наук, доцент Д.А. Шустов канд. экон. наук, доцент Ю.Н. Эйсснер Рецензенты: д-р техн. наук, профессор Г.В. Савинов канд. экон. наук, доцент В.Г. Макшанов Редактор М.В. Манерова Подписано в печать 28.08.12. Формат 60х84 1/16.

Усл. печ. л. 7,75. Тираж 50 экз. Заказ 401. РТП изд-ва СПбГУЭФ.





Издательство СПбГУЭФ. 191023, Санкт-Петербург, Cадовая ул., д. 21.

© СПбГУЭФ,

ОБЩИЕ СВЕДЕНИЯ

МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ являются инструментарием, предназначенным для моделирования (исследования) объектов (процессов) вероятностной природы, характеризующихся наличием большого количества контролируемых и регистрируемых показателей. Методы позволяют среди множества альтернативных моделей выбрать наилучшую в статистическом смысле.

В многомерном статистическом анализе изучаются генеральные совокупности нескольких (двух и более) признаков. Это множество признаков может быть представлено вектором X = (x1, x2,..., xk)т, где x1, x2,..., xk – компоненты вектора;

т – знак транспонирования.

Таким образом, объектом исследования в многомерном статистическом анализе является система k случайных величин или k-мерный случайный вектор.

Если все компоненты вектора X непрерывные случайные величины, то говорят о непрерывной k-мерной случайной величине. Если все компоненты вектора X – дискретные случайные величины, то говорят о дискретной k-мерной случайной величине. Если среди компонент присутствуют как дискретные, так и непрерывные случайные величины, то говорят о смешанной k-мерной случайной величине.

Описание поведения k-мерной случайной величины означает указание способа вычисления вероятностей получения заданных значений дискретных компонент и вероятностей попадания в заданные интервалы значений непрерывных компонент. В многомерном статистическом анализе наиболее распространенными способами описания являются аналитический и параметрический (графический или табличный затруднен вследствие многомерности). Как и в одномерных статистических методах, в многомерных используются две функции: F(X) – функция распределения k-мерной случайной величины и f(X) – функция плотности вероятностей k-мерной случайной величины.

Функция распределения k-мерной случайной величины определяется следующим образом:

где A = (a1, a2,..., ak)т – k-мерный вектор заданных действительных чисел.

По аналогии F(B) = P{x1b1, x2b2,..., xkbk} = P(XB), следовательно, если AB, то:

P{a1x1b1, a2x2b2,..., akxkbk} = P(AXB) = F(B) - F(A) удовлетворяет формуле вычисления вероятности попадания значения k-мерной случайной величины в k-мерный параллелепипед с плоскостями, параллельными координатным осям.

Функция распределения случайного k-мерного вектора является детерминированной, неотрицательной и обладает свойствами:

F(X) = 0, если хотя бы одна компонента вектора X равна -;

F(X) = 1, если все компоненты вектора X равны Функция распределения F(X) непрерывной k-мерной случайной величины является непрерывной по определению. Непрерывная k-мерная случайная величина имеет плотность распределения вероятностей f(X) = f(x1, x2,..., xk) 0, удовлетворяющую условию:

Плотность распределения вероятностей обладает свойствами:

Плотности вероятностей подсистемы m случайных величин (1 m k) называют частными или маргинальными распределениями. Условными распределениями случайного вектора X называются распределения подсистемы m его компонент (1 m k) при условии, что остальные k - m компоненты являются фиксированными. Эти компоненты от нефиксируемых отделяются косой чертой. Например, пусть m=2, а k=5, тогда функция вероятности условного распределения компонент x2 и x5 записывается следующим образом:





F(x2,x5/x1,x3,x4), а соответственно функция плотности вероятности f(x2,x5/x1,x3,x4).

Подсистема из m компонент и дополнительная подсистема m - k компонент вектора X называются независимыми, если справедливо равенство:

F(x1, x2,..., xk) = F(xi1, xi2,..., xim) * F(xim+1, xim+2,..., xik) В частности компоненты X называются независимыми, если:

При параметрическом описании поведение случайной величины определяется значениями специальных характеристик – параметров или моментов случайной величины. Напомним основные параметры описания одномерной случайной величины.

Основной характеристикой является первый начальный момент, который называется МАТЕМАТИЧЕСКИМ ОЖИДАНИЕМ СЛУЧАЙНОЙ ВЕЛИЧИНЫ (МО):

где Mx – значение математического ожидания случайной величины x;

A, B – пределы интегрирования (A – минус бесконечность, B – плюс бесконечность);

f(x) – функция плотности вероятности случайной величины x.

Для дискретной случайной величины интеграл превращается в сумму.

Математическое ожидание характеризует центр, относительно которого группируются значения случайной величины.

Другими параметрами случайной величины являются ЦЕНТРАЛЬНЫЕ МОМЕНТЫ. Центральным моментом порядка k называется математическое ожидание отклонения значений случайной величины от центра в степени k:

Доказано, что если функция плотности распределения случайной величины имеет одну вершину (функция унимодальна), то для полного описания поведения этой случайной величины достаточно указать МО и центральные моменты второго, третьего и четвертого порядка. Последние три характеристики имеют специальные названия.

Второй центральный момент называется ДИСПЕРСИЕЙ:

Dx = M[(x-Mx) ]. Дисперсия характеризует разброс значений случайной величины относительно МО. Обратите внимание, дисперсия всегда больше нуля.

Третий центральный момент называется АСИММЕТРИЕЙ:

Ax = M[(x-Mx) ]. Асимметрия характеризует «косость» графика функции плотности вероятности случайной величины. При Ax = 0 абсцисса вершины графика функции f(x) совпадает с МО (график симметричен). Если Ax 0, то вершина этого графика расположена левее МО, при Ax 0 вершина расположена правее МО.

Четвертый центральный момент называется ЭКСЦЕССОМ:

Ex = M[(x-Mx) ]. Этот момент характеризует «островершинность» графика f(x), и его значение всегда больше нуля.

Наиболее распространенным в природе, а следовательно, и наиболее часто применяемым для описания вероятностных процессов, является нормальный закон распределения. Для полного параметрического описания поведения случайной величины при нормальном законе распределения достаточно задания только двух параметров: математического ожидания и дисперсии.

Асимметрия и эксцесс при нормальном законе распределения определяются через эти два параметра.

Пусть имеется случайный вектор X = (x1,x2,..., xk)т, тогда математическое ожидание вектора MX = (Mx1,Mx2,..., Mxk)т. Центральным смешанным моментом второго порядка i-й и j-й компонент случайного вектора X называется ковариацией Многомерным аналогом ковариации является ковариационная матрица случайного вектора COV = M[(X - MX)(X - MX)т], которая имеет вид:

cov(x2,x1) D(x2)... cov(x2,xj)... cov(x2,xk) cov(xi,x1) cov(xi,x1)... D(xi)... cov(xi,xk) cov(xk,x1) cov(xk,x2)... cov(xk,xj)... D(xk) Матрица симметрическая и неотрицательно определена.

Напоминание. Квадратная матрица A называется положительно определенной, если для любого ненулевого вектора X 0, XтAX 0. Аналогично определяются отрицательно (XтAX 0), неотрицательно (XтAX 0) и неположительно (XтAX 0) определенные матрицы.

Если элементы матрицы COV нормировать, то получится корреляционная матрица R:

где (xi,xj) = cov(xi,x1)/[D(xi)*D(xj)]1/2 – коэффициент корреляции i-й и j-й компонент вектора X.

Очевидно, что матрица R так же как и матрица COV симметрическая и неотрицательно определена. Однако эти матрицы при значениях k 2 не позволяют полностью описать связи между компонентами вектора X. Зависимость между компонентом xi и остальными компонентами x1, x2,...xi-1, xi+1,..., xk можно представить в виде:

xi = zi(x1, x2,...xi-1, xi+1,..., xk) + ei(x1, x2,...xi,..., xk), где zi(x1, x2,...xi-1, xi+1,..., xk) – некоторая функция k-1 компонент вектора X, ei(x1, x2,...xi,..., xk) – остаточные отклонения.

Функция zi(x1, x2,...xi-1, xi+1,..., xk) называется регрессией компонента xi на компоненты x1, x2,...xi-1, xi+1,..., xk. В большинстве исследований в качестве регрессии выбирают функцию минимизирующую математическое ожидание квадрата отклонений M[(xi - ei)2]. Можно показать, что минимум достигается, когда zi(x1, x2,...xi-1, xi+1,..., xk) равно условному математическому ожиданию M(xi/x1, x2,...xi-1, xi+1,..., xk).

Показателем, характеризующим рассеяние случайной величины xi при фиксированных x1,x2,...,xi-1, xi+1,..., xk является условная дисперсия D(xi/x1, x2,...xi-1, xi+1,..., xk)=M[xi - M(xi/x1, x2,...xi-1, xi+1,..., xk)] Эта дисперсия называется остаточной Dост i. Тогда отношение этой дисперсии к дисперсии компоненты i называется корреляционным отношением:

или Корреляционное отношение показывает, какая доля общего рассеяния случайных величин x1,..., xk обусловлена рассеянием случайной величины xi.

Показателем меры линейной зависимости xi от x1, x2,...xi-1, xi+1,..., xk служит множественный коэффициент корреляции Ri0 :

где |R| – определитель корреляционной матрицы;

|Rii| – определитель минора матрицы R, получаемого вычеркиванием i-й строки и i-го столбца.

Если зависимость xi от x1, x2,...xi-1, xi+1,..., xk линейна, то справедливо равенство:

Представленные параметры позволяют описать поведение случайного вектора X, если компоненты вектора распределены по нормальному закону.

Непрерывная k-мерная случайная величина распределена нормально, если плотность распределения имеет вид:

f(X)=[ (2)k |COV| ]-1/2 exp[ -(X-MX)т(COV)-1(X-MX)/2 ], где MX = (Mx1,Mx2,..., Mxk)т – математическое ожидание вектора X;

(COV)-1 – матрица, обратная ковариационной матрице COV;

|COV| – определитель ковариационной матрицы.

При k=2, введем обозначения:

D(x1)=12, D(x2)=22, Mx1=µ1, Mx2=µ2, (x1,x2)= Тогда функция плотности вероятности двумерного нормального распределения имеет вид:

где Q(x1,x2)=[(x1-µ1)2/12 - 2(x1-µ1)2(x2-µ2)2/(12) + (x2-µ2)2/22] Таким образом, в скалярных параметрах двумерное нормальное распределение требует для своего описания пять параметров: два математических ожидания (µ1, µ2), две дисперсии: (12, 22) и коэффициент корреляции.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ №

ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ

МНОГОМЕРНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН

Основным методом оценивания параметров многомерных случайных величин является метод выборочного анализа. Согласно этому методу из генеральной совокупности наблюдаемого случайного вектора извлекается выборка, которая анализируется и результаты анализа распространяются на всю генеральную совокупность.

Выборку объема n из k-мерной генеральной совокупности можно представить в виде матрицы данных:

Точечные оценки математических ожиданий X компонент вектора X вычисляются по формулам:

где xj – точечная оценка математического ожидания j-й компоненты вектора X, j = 1,..., k, i = 1,..., n.

Оценка ковариационной матрицы COV (обозначим матрицу оценок ковариаций C) имеет вид:

где c(xi,xj) = i[(xij - xi)*(xij - xj)]/(n - 1), i = 1,..., n, j = 1,..., k.

Очевидно, что c(xj,xj) является оценкой дисперсии j-го компонента вектора X.

Оценка корреляционной матрицы R имеет вид:

где r(xi,xj) = c(xi,xj)/[c(xi,xi)*c(xj,xj)]1/ Точечные оценки параметров случайных величин являются необходимыми, но недостаточными. Так, оценка параметра непрерывной случайной величины совпадает с истинным значением параметра с вероятностью равной нулю (не совпадает никогда). Поэтому для полного описания оценки параметра необходима интервальная оценка. Для одномерной случайной величины это – доверительный интервал, для многомерной (случайного вектора) – доверительная область.

Пусть имеется вектор параметров. Доверительной областью вектора параметров называется область, определяемая результатами наблюдений, которая с доверительной вероятностью P содержит значение вектора.

Очевидно, что построение области, ее вид, зависит от распределения вектора статистик-оценок параметров. Рассмотрим построение доверительной области для математического ожидания k-мерного вектора X в предположении, что распределение компонентов X подчинено нормальному закону распределения:

X€Nk(,COV). Здесь = MX – математическое ожидание вектора X, COV – ковариационная матрица вектора X. Пусть найден вектор точечных оценок математического ожидания (вектор средних) X и матрица оценок ковариаций C.

При k=1 для построения доверительного интервала для математического ожидания используют статистику t = (x - µ)*(n)1/2/s, которая имеет t-распределение с числом степеней свободы = n-1 (s – оценка дисперсии). Данное соотношение эквивалентно представлению Статистика t2 имеет распределение 2 с числом степеней свободы =n-1.

Для k больше единицы при построении доверительной области используется статистика T2 (статистика Хотеллинга):

где µ – вектор математических ожиданий k-мерного случайного вектора X;

X – вектор средних значений (точечных оценок) математических ожиданий k-мерного случайного вектора X;

C-1 – матрица, обратная матрице оценок ковариаций.

При заданной доверительной вероятности P, известных значениях k и n статистика T2 связана со статистикой F:

Учитывая это соотношение, доверительная область математического ожидания k-мерного случайного вектора X с доверительной вероятностью P описывается следующим уравнением поверхности:

(X - µ)т*(C-1)*(X - µ) = [k*(n - 1)/(n*(n - k))]*F1-P, где F1-P – значение F соответствующее уровню значимости = 1 - P при числах степеней свободы 1 = k и 2 = n - k.

Доверительная область определяет k-мерный эллипсоид (при k=2 эллипс) с центром X, так как (X - µ)т*(C-1)*(X - µ) представляет собой положительно определенную квадратичную форму.

Необходимо понимать, что определение доверительной области без учета ковариаций является более грубым. Это хорошо видно при k = 2. В этом случае без учета ковариаций доверительная область будет представлять собой прямоугольник с координатами вершин:

Здесь x1, x2 – компоненты оценки вектора математического ожидания X.

Ниже на рисунке представлено различие между доверительными областями определенными с учетом и без учета ковариаций.

Из рисунка видно значительное различие, которое зависит от степени взаимной зависимости компонент вектора X.

Рассмотрим пример для случая k=2 и n=10. Пусть вектор X содержит x1 – доходы предприятия и x2 – цены на производимую продукцию:

10,5 5, 10,7 5, 11,5 5, 11,8 5, 12,3 5, 12,5 5, 12,5 5, 13,1 5, Необходимо построить доверительную область математического ожидания вектора X для доверительной вероятности P = 0,95.

Оценки математических ожиданий дохода x1 = 11,72 и цены x2 = 5,33.

Ковариационная матрица C имеет вид:

Обратная матрица C-1 имеет вид:

Статистика Хотеллинга имеет вид:

T2 = (x - µ)т*(C-1)*(x - µ) = [k*(n - 1)/(n*(n - k))]*F1-P Значение F1-P = 4,46 при 1 = k = 2 и 2 = n - k = 8 (значение F выбрано из таблицы) T2 = [k*(n - 1)/(n*(n - k))]*F0,95 = [2*(9-1)/(10*(10-2)]*4,46 = 16*4,46/80 = 0, Тогда доверительная область описывается эллипсом:

(11,72 - µ1, 5,33 - µ2)*(C-1)*(11,72 - µ1, 5,33 - µ2)т = 0, Обратите внимание, что вектор математического ожидания есть векторстолбец. Поэтому знак транспонирования присутствует у правой составляющей последнего выражения. Тогда =( [1,07*(11,72 - µ1)+1,82*(5,33 - µ2)],[1,82*(11,72 - µ1)+23,48*(5,33 - µ2)] ).

Теперь полученный вектор-строку умножаем на вектор столбец (11,72 - µ1, 5,33 - µ2)т получим:

[1,07*(11,72 - µ1)+1,82*(5,33 - µ2)]*(11,72 - µ1)+ +[1,82*(11,72 - µ1)+23,48*(5,33 - µ2)](5,33 - µ2)= =(1,07*11,72 - 1,07*µ1 + 1,82*5,33 - 1,82*µ2)*(11,72 - µ1)+ +(1,82*11,72 - 1,82*µ1 + 23,48*5,33 - 23,48*µ2)*(5,33 - µ2)= =(22,24 - 1,07*µ1 - 1,82*µ2)*(11,72 - µ1)+(146,48 - 1,82*µ1 - 23,48*µ2)*(5,33 - µ2)= =22,24*11,72 - 22,24*µ1 - 11,72*1,07*µ1 + 1,07*(µ1)2 - 11,72*1,82*µ2+1,82*µ1*µ2 + +146,48*5,33 - 146,48*µ2 -5,33*1,82*µ1 +1,82*µ1*µ2 - 23,48*5,33*µ2 +23,48*(µ2)2 = =1041,39 + 1,07*(µ1)2 + 23,48*(µ2)2 - 44,48*µ1 - 292,96*µ2 + 3,64*µ1*µ2.

Таким образом, доверительная область при значении доверительной вероятности равном 0,95 описывается уравнением:

1,07*(µ1)2 + 23,48*(µ2)2 - 44,48*µ1 - 292,96*µ2 + 3,64*µ1*µ2 + 1040,5 = В таблице 1.1 представлены сводка доходов фирмы, цена на продукцию фирмы и цены на аналогичную продукцию двух фирм-конкурентов.

Необходимо построить точечный и интервальный прогноз дохода и цен на следующую неделю в предположении постоянства их математических ожиданий (выполнения условия стационарности). Вероятность ошибки прогноза не более 0,05.

Для выполнения задания используем пакет прикладных программ «Statgraphics Plus» Запуск пакета осуществляется следующим образом:

ПУСК/Программы/ Statgraphics На экран выводится рабочее окно пакета, похожее на рабочий лист электронной таблицы. Ниже заголовка окна расположено полосковое меню. При включенной опции «Toolbar» пункта «View» этого меню отображается панель кнопок, а при включенной опции «Status Bar» строка состояния (рис. 1.1).

Перед вводом данных целесообразно настроить столбцы таблицы. Для этого необходимо выделить соответствующий столбец щелчком левой кнопкой мыши по заголовку столбца, затем правой кнопкой мыши по выделенной области. На экран будет выведено окно «Modify Column». В поле «Name» необходимо ввести наименование переменной (разрешена только латиница). В нашем примере наименование первой переменной будет «Weeks». Далее необходимо указать тип переменной (в нашем случае Numeric) и размер (поле «Width»), затем щелкнуть кнопку «OK» (рис. 1.2).

Аналогично настраиваются другие столбцы (рис. 1.3).

Вводим данные (рис. 1.4).

Для сохранения данных на устройстве внешней памяти необходимо выбрать пункт меню «File»/«Save As»/«Save Data File As». На экран выводится окно «Save Data File As». В поле «Имя файла» необходимо ввести имя сохраняемого файла и щелкнуть кнопку «Сохранить» (рис. 1.5).

Далее выбираем пункт меню «Describe»/»Numeric Data»/«Multiple-Variable Analysis»

На экран выводится соответствующее окно. В левом списке окна необходимо выделить все переменные и щелкнуть кнопку «Data» (выделенные переменные перемещаются в правый список). После этого необходимо щелкнуть кнопку «OK» (рис. 1.6).

Внутри основного окна раскрывается окно результата. В левом верхнем углу окна имеются следующие кнопки: «Input dialog» – открывает окно задания обрабатываемых переменных (подобное показанному выше), «Tabular options» – открывает окно задания обработки данных, «Graphics options» – открывает окно задания графических отображений результатов, «Save options» – открывает окно диалога записи в рабочую таблицу промежуточных и конечных результатов (рис. 1.7).

Для вычисления точечных и интервальных оценок математических ожиданий необходимо щелкнуть кнопку «Tabular options», в появившемся окне включить опцию «Confidence Intervals» и щелкнуть кнопку «OK» (рис. 1.8).

Во внутреннем окне отобразится таблица (рис. 1.9) доверительных интервалов вычисленных при доверительной вероятности равной 0,95 (95%).

В таблице заголовки столбцов имеют следующий смысл: «Mean» – оценка математического ожидания, «Stnd. Error» – стандартная ошибка (корень квадратный из оценки дисперсии), «Lower limit» – нижняя граница доверительного интервала, «Upper limit» – верхняя граница доверительного интервала.

Следует отметить, что округлять значения оценок совсем необязательно. Ведь любые оценки всегда случайные величины.

Если необходимо задать другое значение доверительной вероятности в процентах, то следует в поле внутреннего окна щелкнуть правой кнопкой мыши и в появившемся меню выбрать пункт «Pane Options». На экран будет выведено окно «Confidence Intervals Options». Значение доверительной вероятности вводится в поле «Confidence Level», после чего необходимо щелкнуть кнопку «OK» (рис. 1.10).

Вычислить точечные и интервальные оценки дохода и цен для данных, представленных в таблице 1.2.

Недели Доход Цена фирмы Цена конкурента 1 Цена конкурента Результаты свести в таблицу, содержащую точечные оценки и границы доверительных интервалов математических ожиданий для доверительной вероятности равной 0,95 (95%).

ПРАКТИЧЕСКОЕ ЗАНЯТ ИЕ №

ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ.

ОБЩИЕ СВЕДЕНИЯ

НАПОМИНАНИЕ: СТАТИСТИЧЕСКОЙ ГИПОТЕЗОЙ называют некоторое утверждение относительно значения (или значений) какого-либо параметра случайной величины. Например, утверждение: Mx=5 (гипотеза о равенстве МО пяти) или утверждение: Dx=Dy (гипотеза о равенстве двух дисперсий). Под процедурой проверки статистических гипотез понимают последовательность действий, позволяющих с той или иной степенью достоверности подтвердить или опровергнуть утверждение гипотезы. Все статистические выводы являются следствием проверки одной или комплекса гипотез.

В основе проверки любой гипотезы лежит ПРИНЦИП ПРАКТИЧЕСКОЙ НЕВОЗМОЖНОСТИ.

Этот принцип гласит: СОБЫТИЯ С МАЛЫМИ ВЕРОЯТНОСТЯМИ

ПРАКТИЧЕСКИ НЕВОЗМОЖНЫ.

УРОВНЕМ ЗНАЧИМОСТИ называется максимальное значение вероятности, при котором событие можно считать еще практически невозможным. Уровень значимости обозначается греческой буквой. В практике статистических вычислений приняты следующие стандартные значения : 0,05, 0,02 и 0,01 (5%, 2% и 1%).

Событие, вероятность которого превышает, называется ЗНАЧИМЫМ, а событие, вероятность которого не превышает, называется НЕЗНАЧИМЫМ.

При проверке статистической гипотезы исследователь сам назначает уровень значимости. Суть проверки гипотезы сводится к следующему.

Исследователь предполагает, что гипотеза верна. Исходя из этого, исследователь делит будущие результаты на две группы. Первая группа – результаты, вероятность получить которые при справедливости гипотезы превосходит. Вторая – результаты, вероятность получить которые не превосходит. Затем извлекается выборка (или реализуется эксперимент) и определяется к какой группе относится результат. Если результат относится к первой группе, то нет оснований отвергать гипотезу (это вполне вероятный результат). Если результат принадлежит второй группе, то есть основания для отвержения гипотезы (это маловероятный результат).

Рассмотрим процедуру проверки статистической гипотезы для значений параметра нормально распределенного k-мерного случайного вектора. В качестве примера используем проверку гипотезы о равенстве математического ожидания µ случайного вектора X некоторому вектору µ0. Ковариационная матрица COV вектора X должна удовлетворять условию |COV| 0.

Если имеется выборка объема n из генеральной совокупности векторов X, то, как указывалось ранее, статистика Хотеллинга T2 = n*(X - µ0)т*(C-1)*(X - µ0) при заданной доверительной вероятности P соответствует значению [k*(n - 1)/(n - k)]*F1-P. Здесь X – оценка математического ожидания вектора X, C-1 – обратная матрица оценок ковариаций. Отсюда следует, что при заданном уровне значимости критическое значение T2кр будет соответствовать T2кр= [k*(n - 1)/(n*(n - k))]*F при числах степеней свободы числителя 1 = k и знаменателя 2 = n - k. Поэтому, если расчетное по результатам выборки T2расч превосходит T2кр, то данные противоречат гипотезе, если нет, то данные не противоречат гипотезе.

Рассмотрим пример для случая k=2 и n=10. Пусть вектор X содержит x1 – доходы предприятия и x2 – цены на производимую продукцию:

10,5 5, 10,7 5, 11,5 5, 11,8 5, 12,3 5, 12,5 5, 12,5 5, 13,1 5, Необходимо проверить гипотезу H0: µ0 = (11,5, 5,2)т при = 0,05.

Оценки математических ожиданий дохода x1 = 11,72 и цены x2 = 5,33.

Ковариационная матрица C имеет вид:

Обратная матрица C-1 имеет вид:

Вычисляем статистику Хотеллинга:

T2расч = n*(x - µ0)т*(C-1)*(x - µ0) = 10*(0,22, 0,13)*С-1*(0,22, 0,13)т = 0, Определяем критическое значение статистики Хотеллинга при = 0,05.

Значение F = 4,46 при 1 = k = 2 и 2 = n - k = 8 (значение F выбрано из таблицы) T2кр = [k*(n - 1)/(n*(n - k))]*F = [2*(9-1)/(10*(10-2)]*4,46 = 16*4,46/80 = 0, По результатам вычислений T2расч T2кр, следовательно, данные не противоречат гипотезе о равенстве математического ожидания вектора X вектору (11,5, 5,2)т.

Используя исходные данные, представленные в таблице 1.1 практического занятия № 1 необходимо проверить гипотезу о равенстве математических ожиданий цен одному значению: 5,2.

Для выполнения работы используем пакет прикладных программ «Statgraphics Plus» Запуск пакета осуществляется следующим образом:

ПУСК/Программы/ Statgraphics Далее выбирается пункт меню:

«File»/»Open»/»Open Data File»

На экран выводится окно «Open Data File». Необходимо выбрать нужную папку, в ней файл, выделить его и щелкнуть кнопку «Открыть» (рис. 2.1).

Другой вариант запуска «Statgraphics» с открытием файла – открыв соответствующую папку, выполнить двойной щелчок по значку файла (рис. 2.2).

Для проверки гипотезы необходимо выбрать пункт меню «Describe»/»Numeric Data»/»One-Variable Analysis». На экран выводится окно «One-Variable Analysis». В левом списке окна выделяем переменную «Cost», щелкаем кнопку «Data», а затем кнопку «OK» (рис. 2.3).

Выводится внутреннее окно «Analysis Summary». Далее необходимо щелкнуть кнопку «Tabular Options» в левом верхнем углу внутреннего окна и в появившемся окне (рис. 2.4) включить пункт «Hypothesis Tests» (предварительно выключив пункт «Analysis Summary»).

Для задания значения величин математического ожидания и уровня значимости необходимо в поле внутреннего окна щелкнуть правой кнопкой и в появившемся меню выбрать пункт «Pane Options». Будет выведено окно задания вида гипотезы (неравно, больше чем, меньше чем), значения математического ожидания и уровня значимости в процентах (рис. 2.5).

Во внутреннем окне выводится результат проверки гипотезы (рис. 2.6).

Обратите внимание на последнюю фразу – гипотеза не отвергается при альфа = 0,05. Это некорректно. Правильно – данные не противоречат гипотезе при альфа = 0,05.

Для проверки гипотез о равенстве математических ожиданий переменных «Cost1» и «Cost2» 5,2 при том же значении уровня значимости необходимо щелкнуть кнопку «Input Dialog», а затем в появившемся окне в списке выбрать соответствующую переменную и нажать кнопку «OK».

В большинстве пакетов прикладных программ статистической обработки данных при проверке статистических гипотез вычисляется значение p-Value (значимость). Это значение можно интерпретировать как минимальное значение вероятности получения данного результата при справедливости сформулированной гипотезы. Таким образом, если p-Value меньше или равно уровня значимости, заданного исследователем, то данные противоречат сформулированной гипотезе. Если p-Value больше уровня значимости, то данные не противоречат гипотезе. В нашем случае p-Value = 0,343437. Это означает, что данные будут противоречить гипотезе при = 0,35 и не противоречить при = 0,34.

Используя данные, представленные в таблице 1.2, проверить гипотезы о равенстве математических ожиданий цен фирмы и конкурентов 9 (девяти).

Результат свести в таблицу, содержащую заключение исследователя о противоречивости (непротиворечивости) данных сформулированной гипотезе.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ №

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

МНОГОМЕРНОЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ

Корреляционный анализ многомерной генеральной совокупности предполагает многомерный нормальный закон распределения этой совокупности.

Данное предположение обусловлено тем, что только при нормальном законе распределения отсутствие корреляции свидетельствует об отсутствии зависимости между компонентами случайного вектора X. Основная задача корреляционного анализа состоит в оценке k*(k + 3)/2 параметров, определяющих нормальный закон распределения k-мерного случайного вектора X. Этими параметрами являются k математических ожиданий µ1,..., µk и k дисперсий Dx1,..., Dxk компонентов вектора, а также k*(k-1)/2 парных коэффициентов корреляции.

При этом корреляционная матрица R симметрична и положительно определена. В множественном корреляционном анализе используется понятие параметров связи некоторого порядка. Частным коэффициентом корреляции m-го порядка является коэффициент корреляции между двумя компонентами при фиксированных m компонентов из k-2 оставшихся. Компоненты, для которых указывается коэффициент корреляции, называются первичными, фиксируемые компоненты – вторичными. Они указываются в индексе коэффициента, разделенные символом «/». Например, 12/45 – коэффициент корреляции второго порядка, 12 – нулевого порядка, 12/456 – третьего порядка.

Частный коэффициент корреляции между xi и xj по отношению к величинам x1, x2,...xi-1, xi+1,..., xj-1, xj+1,..., xk (порядок k - 2) где Rij – алгебраическое дополнение к элементу ij корреляционной матрицы R;

Rii – алгебраическое дополнение к элементу ii корреляционной матрицы R;

Rjj – алгебраическое дополнение к элементу jj корреляционной матрицы R.

x1, x2,...xi-1, xi+1,..., xk вычисляется по формуле:

Иногда используется квадрат множественного коэффициента корреляции R i0, который называется коэффициентом детерминации. Коэффициенты детерминации обладают свойством:

Данная цепочка неравенств указывает на то, что коэффициент множественной детерминации не уменьшается при прибавлении компонентов, относительно которых вычисляется коэффициент.

Проверка значимости частных коэффициентов корреляции различных порядков осуществляется по тому же критерию (таблице критических значений rкр), по которому проверяется значимость частного коэффициента корреляции нулевого порядка. Однако число степеней свободы в этом случае равно = n - m - 2, где n – объем выборки, m – порядок связи.

Проверка значимости коэффициента детерминации (следовательно, и множественного коэффициента корреляции) осуществляется с помощью F – статистики при числах степеней свободы 1 = m, 2 = n - m - 1:

где r2g – оценка множественного коэффициента корреляции.

Рассмотрим пример. Пусть вектор X содержит x1 – доходы предприятия, x2 – цены на производимую продукцию и x3, x4 – цены на аналогичную продукцию конкурирующих фирм:

Корреляционная матрица парных оценок нулевого порядка имеет вид:

Корреляционная матрица частных оценок второго порядка имеет вид:

Обратите внимание на различие в оценках.

Используя исходные данные, представленные в практическом занятии № (таблица 1.1), необходимо выполнить корреляционный анализ переменных «Weeks», «Profit», «Cost», «Cost1», «Cost2».

Для выполнения работы используем пакет прикладных программ «Statgraphics». После запуска пакета и открытия файла с исходными данными необходимо выбрать пункт меню «Describe»/»NumericData»/»Multiple-Variable Analysis»

В левом списке открывшегося окна выделяем необходимые для анализа переменные, например «Cost», «Cost1» и «Cost2», затем щелкнуть кнопки «Data» и «OK». В появившемся внутреннем окне (рис. 3.1) щелкнуть кнопку «Tabular Options» и в окне «Tabular Options» включить пункт «Correlations»

(предварительно выключив пункт «Analysis Summary»).

Во внутреннее окно выводится корреляционная матрица, имеющая клеточную структуру (рис. 3.2). В каждой клетке представлены три значения в трех строках. В верхней – точечная оценка коэффициента корреляции соответствующих переменных, значение в скобках – объем выборки (количество совместных наблюдений переменных), в нижней – значение p-Value (значимость).

Значение p-Value вычисляется в предположении справедливости утверждения (гипотезы) о равенстве нулю коэффициента корреляции для любой пары переменных.

Анализ матрицы показывает, что при = 0,05 данные противоречат гипотезе о равенстве нулю коэффициента корреляции переменных «Cost» и «Cost1».

Это означает, что мы можем утверждать о наличии корреляции между этими переменными. При этом вероятность ошибки не превосходит 0,05.

Используя данные представленные в таблице 1.2, выполнить корреляционный анализ.

Результат свести в таблицу, содержащую заключение исследователя о наличии коррелированности между переменными при = 0,05.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ №

ОДНОМЕРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Одномерный регрессионный анализ предполагает, что каждое наблюдение yi случайной величины y можно представить в виде: yi = f(xi)+ei, где yi, xi – значения переменных; ei – возмущающее воздействие вероятностной природы (рис. 4.1).

Корректное применение метода регрессионного анализа (одномерного, множественного и многомерного) предполагает выполнение ряда предпосылок, нарушение которых может привести к существенному искажению результатов и получению неработоспособной модели. Перечислим эти предпосылки (условия):

1. В каждом наблюдении ei имеет нормальное распределение с нулевым МО и конечной дисперсией 2. Это часто записывается кратко так: eiЄN( 0,2 ).

2. Для любого i дисперсия ei является величиной постоянной (2 = const). Это означает, что 2 не зависит от значений x.

3. Для любого i не равного j COV(ei,ej) = 0. Это в соответствии с пунктом 1 означает, что ei и ej должны быть независимыми случайными величинами.

В соответствии с перечисленными предпосылками M(yi) = f(xi) или My=f(x). Функциональная зависимость My=f(x), или проще y=f(x), называется уравнением регрессии.

Одним из самых простых уравнений является уравнение ЛИНЕЙНОЙ РЕГРЕСИИ: y = a+b*x. В этом уравнении исследователю необходимо по выборочным данным x и y вычислить оценки неизвестных КОЭФФИЦИЦИЕНТОВ РЕГРЕСИИ a и b.

Существует несколько методов вычисления оценок коэффициентов регресии. Наибольшее распространение получил МЕТОД НАИМЕНЬШИХ КВАДРАТОВ (МНК). Рассмотрим метод на примере вычисления оценок коэффициентов линейной модели. Согласно методу искомыми оценками являются такие, которые минимизируют сумму квадратов отклонений выборочных значений переменных x и y от модели:

где n – число совместных наблюдений x и y. Минимум L(a,b) достигается при значениях a и b обеспечивающих равенство нулю частных производных dL/da и dL/db. Взяв производные, приравняв их нулю и перенеся составляющие с yi в левую часть, получим систему уравнений:

Эта система называется СИСТЕМОЙ НОРМАЛЬНЫХ УРАВНЕНИЙ.

Решение системы нормальных уравнений дает значения оценок (их называют МНК-оценками) коэффициентов регрессии a и b. Если исследователь предварительно вычислил оценку коэффициента корреляции между y и x, то оценки коэффициентов линейной регрессии bоц и aоц можно получить из следующих зависимостей:

Одномерные регрессионные модели могут быть различны по своей структуре. В ППП по статистической обработке данных кроме линейной в качестве стандартных предлагаются экспоненциальная y=a*exp(b*x), показательная y=a*xb, обратная y=1/(a+b*x) и другие модели. Характерной особенностью этих простейших моделей является наличие в их структуре только двух коэффициентов регрессии. Часто необходимо оценить большее число коэффициентов в моделях полиномиального вида: y=a+b*x+c*x2+d*x3+.... Это увеличивает порядок системы нормальных уравнений, решение которой уже не мыслимо без применения средств вычислительной техники.

При построении регрессионных моделей после оценивания коэффициентов регрессии НЕОБХОДИМО ПРОВЕРИТЬ ДЛЯ КАЖДОГО КОЭФФИЦИЕНТА ГИПОТЕЗУ О РАВЕНСТВЕ ЕГО НУЛЮ. Если данные противоречат гипотезе о равенстве нулю коэффициента, то этот коэффициент называется ЗНАЧИМЫМ КОЭФФИЦИЕНТОМ. В противном случае коэффициент называется НЕЗНАЧИМЫМ КОЭФФИЦИЕНТОМ. Из модели должны быть удалены все составляющие с незначимыми коэффициентами. ПОСЛЕ ЭТОГО, за исключением особых случаев, ОБЯЗАТЕЛЕН ПЕРЕСЧЕТ ОСТАЛЬНЫХ ОЦЕНОК КОЭФФИЦИЕНТОВ. Это связано с тем, оценки коэффициентов как случайные величины (они вычислены по выборочным данным) не являются независимыми.

ОДНОМЕРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ.

ПРОГНОЗНЫЕ СВОЙСТВА МОДЕЛЕЙ

Прогнозные свойства регрессионной модели лучше всего рассматривать на примере линейной модели. Во многих пакетах прикладных программ (ППП) по статистической обработке данных на экран монитора выводятся точечная диаграмма и линия регрессии, линии точностных и прогнозных характеристик.

Линии точностных характеристик образуют так называемый КОРИДОР ОШИБОК. Этот коридор строится по задаваемой пользователем доверительной вероятности. Истинная линия регрессии с доверительной вероятностью находится внутри коридора ошибок. Стандартными являются доверительные вероятности 0,95, 0,98, 0,99. Линии прогнозных характеристик называются ДОВЕРИТЕЛЬНЫМ ИНТЕРВАЛОМ ПРОГНОЗА. Доверительная вероятность задается исследователем (рис. 4.2).

Использование модели для прогноза имеет особенности. Вы должны четко представлять, что ТОЧЕЧНЫЙ ПРОГНОЗ, например y(a) совпадает с ИСТИННЫМ ЗНАЧЕНИЕМ С ВЕРОЯТНОСТЬЮ, РАВНОЙ НУЛЮ (по свойству непрерывных случайных величин). ИНТЕРВАЛЬНАЯ ОЦЕНКА ПРОГНОЗА (на рисунке [y1,y2] при x = a) задает интервал, внутри которого истинное значение лежит с доверительной вероятностью.

По данным, представленным в таблице 1.1, необходимо построить регрессионные модели, связывающие доход фирмы с ценами на продукцию.

После запуска ППП “Statgraphics” и открытия файла с данными входим в пункты меню “Relate”/”Simple Regression…”. Появляется окно “Simple Regression” (рис. 4.3).

Выделяя переменные в правом окне и щелкая соответствующие кнопки, заполняем поля Y и X (рис. 4.4).

Далее, щелкаем кнопку “OK”. На экран выводится результат оценивания коэффициентов линейной регрессии Profit = a + b*Cost2 (рис. 4.5).

В таблице результатов столбцы имеют следующий смысл. В столбце “Parameter” указываются параметры модели. “Intersept” – коэффициент a, “Slope” – коэффициент b. В столбце “Estimate” приведены значения оценок этих коэффициентов, “Standard Error” – значения стандартных ошибок оценок коэффициентов (корень квадратный из оценок дисперсий оценок коэффициентов). Столбец “T Statistic” содержит значения t-статистик, используемых для табличной проверки гипотез о равенстве нулю истинных значений коэффициентов. В столбце “p – Value” – вычисленные величины значимости оценок коэффициентов. Если значение p-Value не превосходит заданного уровня значимости, то данные противоречат гипотезе о равенстве нулю соответствующего коэффициента (коэффициент значим). Если значение p-Value превосходит заданный уровень значимости, то данные не противоречат гипотезе о равенстве нулю соответствующего коэффициента (коэффициент незначим). Незначимые коэффициенты приравниваются нулю (соответствующая составляющая удаляется из модели). В нашем случае при =0,05 оба коэффициента значимы, следовательно, искомая модель регрессии имеет вид:

Прогнозные свойства модели можно получить как таблично, так и в виде графика. Для получения табличного представления прогноза необходимо щелкнуть кнопку “Tabular options”, в одноименном окне выбрать пункт “Forecast” и щелкнуть кнопку “OK” (рис. 4.6).

На экран будет выведена таблица (рис. 4.7), содержащая точечные оценки прогноза (“Predicted Y”), доверительного интервала прогноза (“Prediction Limits”) и интервала коридора ошибок (“Confidence Limits”).

Чтобы изменить доверительную вероятность и (или) вычислить прогнозные характеристики для любого значения X, необходимо в поле внутреннего окна щелкнуть правой кнопкой мыши, в появившемся меню щелкнуть пункт “Pane Options…” и, заполнив соответствующие поля в окне “Forecasts Options”, щелкнуть кнопку “OK” (рис. 4.8).

Графическое представление прогнозных свойств модели можно получить, щелкнув кнопку “Graphics options” внутреннего окна. На экран выводится окно “Graphics options”. Необходимо выбрать пункт “Plot of Fitted Model” и щелкнуть кнопку “OK” (рис. 4.9).

На экран будет выведен график (рис. 4.10).

Для построения регрессии Profit = a + b*Cost необходимо щелкнуть кнопку “Input dialog”, затем ввести в поле X переменную “Cost”, щелкнуть кнопку “OK”. Во внутреннем окне появится результат (рис. 4.11).

Результат регрессионного анализа показывает, коэффициент b незначим (p-Value больше =0,05). Модель имеет вид:

Однако оценка коэффициента a должна быть пересчитана. В этом случае она совпадает с оценкой математического ожидания переменной “Profit”, следовательно:

Можно предположить, что модель нелинейна. В ППП “Statgraphics” предлагаются для оценивания некоторые “стандартные” нелинейные модели.

Для вызова списка моделей необходимо в поле внутреннего окна щелкнуть правой кнопкой мыши и выбрать пункт “Analysis Options”. На экран выводится окно “Simple Regression Options” (рис. 4.12).

Кроме того, можно сравнить по эффективности эти модели. Для этого необходимо щелкнуть кнопку “Tabular options” и в появившемся окне “Tabular Options” выбрать пункт “Comparison of Alternative Models” (рис. 4.13).

На экран выводится таблица (рис. 4.14) – список моделей с указанием значений оценок коэффициента корреляции и коэффициента множественной корреляции R2.

Из таблицы видно, что ни одна из предлагаемых нелинейных моделей не является более эффективной, чем найденная.

Результаты регрессионного анализа Profit = a + b*Cost1 аналогичны предыдущему:

Используя данные, представленные в таблице 1.2, построить регрессионные модели зависимости дохода от времени (номера недели) и цен.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ №

МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

В множественном регрессионном анализе исследуется зависимость математического ожидания одной случайной величины от значений множества неслучайных величин.

В этом анализе совокупность наблюдений выходной случайной величины y можно представить в виде:

где X – матрица n*k значений входных переменных Y – вектор-столбец n значений выходной переменной B – вектор-столбец k коэффициентов регрессии E – вектор-столбец n значений приведенных к выходу возмущений

НАПОМИНАЕМ ПРЕДПОСЫЛКИ РЕГРЕССИОННОГО АНАЛИЗА:

1. В каждом наблюдении ei имеет нормальное распределение с нулевым МО и конечной дисперсией.

2. Для любого i дисперсия ei является величиной постоянной.

3. Для любого i не равного j COV(ei,ej)=0. Это в соответствии с пунктом означает, что ei и ej должны быть независимыми случайными величинами.

Решение системы нормальных уравнений доставляющее оценки коэффициентов множественной регрессии имеет вид:

где Bоц – вектор-столбец МНК-оценок коэффициентов множественной регрессии;

Xт – транспонированная матрица X;

(Xт*X)-1 – матрица, обратная матрице Xт* X.

Несмещенной оценкой дисперсии возмущений является величина:

где k – число оцениваемых коэффициентов в уравнении регрессии.

ПОЛУЧИВ МНК-ОЦЕНКИ Bоц КОЭФФИЦИЕНТОВ УРАВНЕНИЯ

РЕГРЕССИИ НЕОБХОДИМО ПРОВЕРИТЬ ДЛЯ КАЖДОЙ ОЦЕНКИ ГИПОТЕЗУ О РАВЕНСТВЕ НУЛЮ ИСТИННОГО ЗНАЧЕНИЯ: Ho:bj=0.

Проверка гипотезы осуществляется сравнением вычисленной T-статистики с критическим значением при заданном уровне значимости и числе степеней свободы (ЧСС) равном n - k:

где Rj0 – коэффициент множественной корреляции j-й входной переменной с остальными.

Если TjTкр, то данные противоречат гипотезе о равенстве нулю истинного значения коэффициента bj (КОЭФФИЦИЕНТ ЗНАЧИМ), если нет, то bj следует считать нулевым (КОЭФФИЦИЕНТ НЕЗНАЧИМ).

По результатам проверки гипотез о равенстве нулю истинных значений коэффициентов множественной регрессии, составляющие с незначимыми коэффициентами должны быть исключены из модели. При этом, в общем случае оценки коэффициентов, оставшиеся в модели должны быть пересчитаны! Это обусловлено коррелированностью входных переменных (матрица Xт*X – недиагональна). Только в случае отсутствия взаимной корреляции входных переменных (матрица Xт*X – диагональна) нет необходимости вновь вычислять оценки коэффициентов регрессии. Однако этого можно добиться лишь при реализации методов активного съема информации (АКТИВНОГО ЭКСПЕРИМЕНТА) с исследуемого объекта.

Пусть оцениваются коэффициенты модели:

Результаты представлены в таблице 5.1.

Переменная Оценки к-тов Ст. ошибка T-статистика Значимость Число наблюдений n=15, следовательно, число степеней свободы T-статистики составляет n – k = 15 – 4 = 11. При = 0,05 Tкр = 2.20. Из таблицы видно, что отличными от нуля следует считать b0 и b1, т.к. для них значение T-статистики превышает Tкр. В правом столбце таблицы приведена значимость (p-Value) – вероятность получения такой оценки и больше (по абсолютной величине) при равенстве нулю истинного значения. Иногда, не совсем корректно, говорят, что это вероятность равенства нулю истинного значения коэффициента. Если значимость не превосходит заданного, то соответствующий коэффициент значим. После удаления из модели составляющих с незначимыми коэффициентами (переменных x2 и x3) и перерасчета оценок имеем:

Переменная Оценки к-тов Ст. ошибка T-статистика Значимость При = 0,05 и числе степеней свободы n – k =15 – 2 = 13 критическое значение T-статистики Tкр = 2,16. Таким образом, при = 0,05 оба коэффициента значимы. Это же подтверждается величинами значимости в правом столбце таблице. Следовательно, на следующем этапе исследования необходимо рассматривать модель: y = b0+b1*x По данным, представленным в таблице 1.1, необходимо построить модель множественной регрессии, связывающую доход фирмы с временем (номером недели) и ценами на продукцию:

Profit = b0 + b1*weeks + b2*Cost + b3*Cost1 + b4*Cost После запуска ППП “Statgraphics” и открытия файла с данными входим в пункты меню “Relate”/”Multiple Regression…”. Появляется окно “Multiple Regression” (рис. 5.2).

Выделяя переменные из списка, заполняем поля “Depended Variable” (Зависимая переменная) и “Independed Variables” (независимые переменные).

Щелкаем кнопку “OK”. На экран выводится результат (рис. 5.4).

Из приведенной таблицы результатов видно, что значимыми являются оценки коэффициентов b0, b1, и b4. Таким образом, модель должна иметь вид:

Щелкнув кнопку “Input dialog” в открывшемся окне “ Multiple Regression” из поля “Depended Variables” удаляем переменные “Cost”, “Cost1” и щелкнув кнопку “OK” получаем пересчитанные оценки значимых коэффициентов b0, b1, b4 (рис. 5.5).

Очевидно, что для всех коэффициентов данные противоречат гипотезе равенстве их нулю. Следовательно, модель имеет вид:

На этом исследование можно было бы закончить. Однако имеют право на существование две другие альтернативные модели. Вот результаты построения модели Profit = b1*weeks + b2*Cost (рис. 5.6).

Имеет право на существование модель:

А вот результаты построения модели Profit = b1*weeks + b2*Cost (рис. 5.7).

Следовательно, имеет право на существование модель:

Таким образом, возникла неопределенность. Источником этой неопределенности является значительная корреляция входных переменных “Cost” и “Cost1” (оценка коэффициента корреляции была определена в практическом занятии № 3 и равна 0,89). Для снятия неопределенности такого рода используются различные методы: главных компонент, пошаговой регрессии и гребневой регрессии.

Используя данные представленные в таблице 1.2 построить модели множественной регрессии зависимости дохода от времени (номера недели) и цен.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ №

МЕТОД ГРЕБНЕВОЙ РЕГРЕССИИ

В условиях высокой коррелированности входных переменных МНКоценки коэффициентов регрессии проявляют неустойчивость. Это обусловлено тем, что дисперсия оценок увеличивается при увеличении взаимной корреляции входных переменных:

где D(bjоц) – дисперсия j-й оценки коэффициента регрессии;

2e – дисперсия возмущений;

Rj0 – коэффициент множественной корреляции входной переменной Xj с остальными X1, X2,..., Xj-1, Xj+1,...,Xk.;

n – число наблюдений.

При увеличении тесноты связи между входными переменными Rj0 стремится к 1, что приводит к вырожденности матрицы Xт*X ( D(bjоц) стремится к бесконечности).

В этих условиях предпочтительны оценки смещенные, но имеющие меньшую дисперсию, чем несмещенные МНК-оценки. Выбор таких оценок может быть сделан из условия минимума СКО оценок:

где D(Bоц) – дисперсия оценок коэффициентов регрессии Bоц ;

M(Bоц-B) – смещение оценок коэффициентов регрессии Bоц.

Метод, использующий в качестве критерия выбора оптимальных оценок коэффициентов регрессии минимум СКО этих оценок, получил название метода гребневой регрессии.

Для вычисления смещенных оценок в методе гребневой регрессии искусственно вводится параметр k, добавляемый к диагональным элементам матрицы XT*X. Таким образом, рассматривается матрица (XT*X + k*I), где I – единичная матрица, k – параметр смещения (0k1). На рисунке 6-1 показано качественное уменьшение дисперсии оценок коэффициентов (кривая 1), увеличение смещения оценок (кривая 2) при изменении параметра смещения k.

Из рисунка видно, что при некотором значении k существует минимум СКО (кривая 3). Оценки Bоц, вычисленные при этом значении k обладают минимальным отличием от истинных значений B, что является важным свойством подобранной таким образом регрессионной модели. Обратите внимание, что обычные МНК-оценки коэффициентов регрессии соответствуют значению k=0.

Таким образом, оценки гребневой регрессии вычисляются как В практических процедурах оценивания исходным для принятия решения о методах получения оценок коэффициентов регрессии является график изменения оценок от изменения параметра смещения k. Удобство графика состоит в том, что оценки коэффициентов указываются для нормированных (стандартизированных) переменных. Это позволяет сравнивать влияние входных переменных на выходной контролируемый параметр. Например, пусть оцениваются коэффициенты уравнения регрессии Из приведенного на рисунке 6.2 графика видно, что оценка b2оц при увеличении k изменяет знак и приобретает наиболее высокое значение. Такое изменение, как указывалось, обусловлено высокой взаимной коррелированностью x1, x2 и x3. Оптимальное значение k определяется по графику оценок коэффициентов как значение, начинающее область малого изменения оценок.

Часто это значение лежит в пределах от 0,2 до 0,4.

Обращаем Ваше внимание на то, что метод гребневой регрессии эффективнее обычного МНК лишь при наличии значительных корреляций входных переменных (когда при изменении k оценки коэффициентов либо меняют знак, либо изменяется значимость коэффициентов).

По данным, представленным в таблице 1.1, необходимо построить модель методом гребневой регрессии, связывающую доход фирмы с временем (номером недели) и ценами на продукцию:

Profit = b0 + b1*weeks + b2*Cost + b3*Cost1 + b4*Cost После запуска ППП “Statgraphics” и открытия файла с данными входим в пункты меню “Special”/”Advanced Regression…”/”Ridge Regression…”. Появляется окно “Ridge Regression” Выделяя переменные из списка, заполняем поля “Depended Variable” (зависимая переменная) и “Independed Variables” (независимые переменные).

Щелкаем кнопку “OK”. На экран выводится результат (рис. 6.5).

Представленные в окне оценки соответствуют значению параметра гребневой регрессии k = 0. Это означает, что данные оценки совпадают с обычными несмещенными МНК-оценками. Для определения оптимального значения параметра k следует получить значения оценок при различных k в диапазоне от до 1. Необходимо щелкнуть правой кнопкой мыши и в появившемся меню выбрать пункт “Analysis Options…”. В окне “Ridge Regression Options” в поле “Maximum” необходимо ввести 1, в поле “Number of Divisions” количество значений k в заданном интервале и щелкнуть кнопку “OK” (рис. 6.6).

Для определения оптимального значения параметра k оценки коэффициентов должны быть стандартизированы. В этом случае они не зависят от масштабов выходной и входных переменных, что позволяет по абсолютным значениям оценок определить вклад той или иной входной переменной в изменения выходной. Щелкнув кнопку “Tabular options”, необходимо в появившемся окне (рис. 6.7) выбрать пункт “Standardized Regression Coefficients”, затем щелкнуть кнопку “OK”. На экран будут выведены значения стандартизированных оценок коэффициентов для различных значений k (рис. 6.8).

График изменения оценок можно получить, щелкнув кнопку “Graphics options”, выбрав в появившемся окне (рис. 6.9) “Graphical Options” пункт “Ridge Trace”, щелкнув кнопку “OK”.

На экран выводится график изменения оценок от значений параметра гребневой регрессии (рис. 6.10).

Обратите внимание, что оценки коэффициентов при “Cost” и “Cost1” при увеличении k не превосходят 0,07. Это свидетельствует о крайне малом вкладе этих переменных в изменение переменной “Profit”. Обратите также внимание, что оценка коэффициента при “Cost” с увеличением k изменяет знак. Из графика видно, что оптимальное значение k приблизительно равно 0,3, что соответствует следующей модели в стандартизованных переменных:

Profit = 0,42 – 0.03*Cost – 0,05*Cost1 + 0,47*Cost Очевидно, что переменные “Cost” и “Cost1” должны быть исключены из модели. Для получения модели в нестандартизированных (естественных) переменных необходимо щелкнув кнопку “Tabular options” в появившемся окне включить опцию “Standardized Regression Coefficients” и получить изменения нестандартизированных оценок коэффициентов (рис. 6.11).

Таким образом, окончательно модель имеет вид:

Оценки коэффициентов этой модели смещены, но в статистическом смысле “ближе” к истинным значениям коэффициентов модели (минимально СКО оценок коэффициентов).

Используя данные, представленные в таблице 1.2, построить модель гребневой регрессии зависимости дохода от времени (номера недели) и цен.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ №

ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ

Однофакторный дисперсионный анализ применяется для проверки гипотезы о равенстве математических ожиданий нескольких генеральных совокупностей. Такого рода задачи возникают, когда необходимо выяснить оказывает ли на выходную зависимую переменную y влияние входная x, принимающая дискретные значения. Например, оказывает ли влияние на y сорт сырья (высший, I, II,.. и т.д.), можно ли считать цены конкурирующих фирм одинаковыми в статистическом смысле или подвержены ли цены сезонным изменениям и т.п.

Таким образом, в этой модели входная переменная x принимает дискретные значения, а выходная переменная y является непрерывной случайной величиной, вероятностная природа которой обусловлена наличием аддитивной помехи e.

ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ БАЗИРУЕТСЯ НА

СЛЕДУЮЩИХ ПРЕДПОСЫЛКАХ:

1. В каждом наблюдении ei имеет нормальное распределение с нулевым МО и конечной дисперсией.

2. Для любого i дисперсия ei является величиной постоянной.

Рассмотрим вычислительную процедуру однофакторного дисперсионного анализа. Пусть x принимает k различных значений или, как говорят, фактор x имеет k уровней. Пусть на каждом из уровней имеется n наблюдений выходной величины y. Тогда результаты можно представить в виде таблицы (столбцы – уровни фактора x, строки – наблюдения y).

Если уровни фактора x не оказывают влияние на математическое ожидание y, то все наблюдения представляют собой выборку из одной генеральной совокупности (при условии выполнения приведенных выше предпосылок). Тогда, дисперсию генеральной совокупности можно оценить двумя независимыми оценками: через средние значения y для каждого из уровней x или как среднее арифметическое оценок дисперсий y для каждого из уровней x. Первая оценка называется оценкой дисперсии уровней S2ур, вторая – оценкой дисперсии ошибки S2ош.

где y.j – среднее по j-му уровню, y.. – общее среднее.

Если влияние уровней фактора x на математическое ожидание отсутствует, то отношение подчинено закону распределения Фишера. Характеристики этого распределения зависят от числа степеней свободы оценок S2ур и S2ош (числа степеней свободы числителя 1 = (k - 1) и знаменателя 2 = k*(n - 1)). Для любого заданного уровня значимости всегда существует критическое значение Fкр, превысить которое F при отсутствии влияния уровней x может с вероятностью не более.

Это означает, что если в результате обработки данных расчетное значение Fстатистики превысит соответствующее Fкр, то данные противоречат гипотезе о равенстве математических ожиданий y для всех уровней x. Если F Fкр, то данные не противоречат этой гипотезе, и следует считать, что уровни x не оказывают влияние на математическое ожидание y. Например, пусть фактор x имеет 4 уровня (k=4)и на каждом уровне проведено 5 наблюдений. В результате расчетов получены оценки:

Ниже приведен фрагмент таблицы критических значений Fкр для = 0,05. Строки таблицы – числа степеней свободы знаменателя 2, столбцы – числителя 1. Значение Fкр находится на пересечении столбца и строки, соответствующих числам степеней свободы. В примере (1 = (4 - 1) = 3,2 = 4*(5 -1) = 16), Fкр = 3,24, следовательно данные противоречат гипотезе о равенстве математических ожиданий. Иногда при вычислении F приводится его ЗНАЧИМОСТЬ (pValue). Если эта величина меньше заданного, то данные противоречат гипотезе о равенстве математических ожиданий.

По данным, представленным в таблице 1.1, необходимо проверить гипотезу о равенстве цен “Cost”, “Cost1” и “Cost2” (цен на производимую продукцию).

В нашей задаче фактор один – цена. Этот фактор имеет три уровня – три различных производителя. Поэтому в нашей задаче k = 3, а n = 10.

После запуска ППП “Statgraphics” и открытия файла с данными входим в пункты меню “Compare”/”Multiple Samples…. Появляется окно “Multiple Sample Comparison”. В поле “Samples” из списка переменных необходимо ввести переменные “Cost”, “Cost1” и “Cost2” и щелкнуть кнопку “OK” (рис. 7.2).

Затем необходимо щелкнуть кнопку “Tabular options”, включить опцию “ANOVA Table” и щелкнуть кнопку “OK” (рис. 7.3).

На экран выводится результат однофакторного дисперсионного анализа (рис. 7.4).

В таблице приведены источники рассеяния “Between groups” (между группами – характеризует различие между уровнями фактора), “Within groups” (внутри групп – характеризует усредненное различие внутри уровня).

Df (degrees of freedom) – число степеней свободы, “Mean Square” – оценки S2ур и S2ош, F-ratio – значение F = S2ур/S2ош, p-Value – значимость. Если = 0,05, то данные не противоречат гипотезе о равенстве математических ожиданий цен “Cost”, “Cost1” и “Cost2” (p-Value = 0,31 0,05).

Результат однофакторного дисперсионного анализа можно представить графически. Для этого необходимо щелкнуть кнопку “Graphics options…”, в появившемся окне включить пункт “Means Plot” и нажать кнопку “OK”. На экран выводится график точечных и интервальных оценок математических ожиданий цен различных производителей – различных уровней входного фактора (рис. 7.5).

Используя данные, представленные в таблице 1.2, проверить гипотезу о равенстве математических ожиданий цен производителей. Результат представить в виде аргументированного заключения.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ №

ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ

В двухфакторном дисперсионном анализе проверяется гипотеза о равенстве математических ожиданий выходного контролируемого параметра y при различных уровнях двух факторов. Например, производится выпуск одинаковых изделий различными предприятиями, использующих различных поставщиков. Здесь два фактора: предприятия и поставщики. Необходимо проверить гипотезу о равенстве математических ожиданий выходного контролируемого параметра (например, качества изделия) при различных уровнях (предприятиях) первого и различных уровнях (поставщиках) второго факторов. Модель исследуемого объекта имеет вид:

В этой модели входные переменные x1 и x2 принимают дискретные значения, а выходная переменная y является непрерывной случайной величиной, вероятностная природа которой обусловлена наличием аддитивной помехи e.

ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ БАЗИРУЕТСЯ НА

СЛЕДУЮЩИХ ПРЕДПОСЫЛКАХ:

1. В каждом наблюдении ei имеет нормальное распределение с нулевым МО и конечной дисперсией.

2. Для любого i дисперсия ei является величиной постоянной.

Рассмотрим вычислительную процедуру двухфакторного дисперсионного анализа. Пусть x1 принимает k различных значений или фактор x1 имеет k уровней, x2 принимает m различных значений или фактор x2 имеет m уровней.

Пусть на каждом из сочетаний уровней имеется n наблюдений выходной величины y. Тогда результаты можно представить в виде таблицы:

Если уровни факторов x1 и x2 не оказывают влияние на математическое ожидание y, то все наблюдения представляют собой выборку из одной генеральной совокупности (при условии выполнения приведенных выше предпосылок). Тогда дисперсию генеральной совокупности можно оценить следующими независимыми оценками: через средние значения y для каждого из уровней факторов x1 или x2 или как среднее арифметическое оценок дисперсий y для каждого из уровней x1 или x2. Как и в однофакторном дисперсионном анализе, первая оценка называется оценкой дисперсии уровней S2ур, вторая – оценкой дисперсии ошибки S2ош.

Для первого и второго факторов имеем:

где где y.j. – среднее по j-му уровню первого фактора, yi.. – среднее по j-му уровню второго фактора, y... – общее среднее.

Оценка дисперсии ошибки вычисляется по формуле:

где yij. – среднее значение y при j-м уровне первого фактора и i-м уровне второго фактора. Наличие двух факторов позволяет использовать еще одну оценку дисперсии – взаимодействия:

Если влияние уровней факторов x1 и на x2 математическое ожидание отсутствует, то отношения F1 = S2ур1/S2ош, F2 = S2ур2/S2ош и Fвз = S2вз/S2ош подчинены закону распределения Фишера. Характеристики этого распределения зависят от числа степеней свободы оценок S2ур1, S2ур2, S2вз и S2ош (числа степеней свободы числителя 1 = (k - 1), 2 = (m - 1), вз = (m - 1)*(k - 1) и знаменателя ош = m*k*(n - 1) ). Для любого заданного уровня значимости всегда существует критическое значение Fкр. При отсутствии влияния уровней факторов x1, x и их взаимодействия x1*x2 вычисленное значение F может превысить Fкр с вероятностью не более. Это означает, что если в результате обработки данных расчетное значение F-статистики превысит соответствующее Fкр, то данные противоречат гипотезе о равенстве математических ожиданий y для всех уровней факторов x1, x2 и их взаимодействия x1*x2. Если F Fкр, то данные не противоречат этой гипотезе, и следует считать, что уровни факторов или их взаимодействие не оказывают влияние на математическое ожидание y.

По данным, представленным в таблице 1.1, используя метод двухфакторного дисперсионного анализа, необходимо проверить гипотезу о равенстве цен “Cost”, “Cost1” и “Cost2” (цен на производимую продукцию), о постоянстве цен и наличии взаимодействия между этими факторами.

В нашей задаче два фактора: цена и время. Первый фактор имеет три уровня – три различных производителя (k = 3), второй фактор будет иметь два уровня (m = 2). Один уровень – значения цен с 1 по 5 недели, другой – с 6 по 10 неделю. Таким образом, n = 5.

После запуска ППП “Statgraphics” и открытия файла с данными необходимо произвести структурное преобразование этих данных. Для этого образуем столбцы с именами “Costs” (цены), “Producer” (производитель) и “Time” (время). Все столбцы должны иметь тип “Numeric”. В столбец “Costs” копируем последовательно значения из столбцов “Cost”, “Cost1” и “Cost2” (столбец “Costs” должен содержать 30 значений). В столбец “Producer” последовательно вводим в первые десять строк 1, во вторые 2 и в третьи 3. Это уровни первого фактора.

В столбец “Time” вводим чередованием по пять значения 1 и 2. Это уровни второго фактора. Результат представлен на рисунке 8.2.

После структурного преобразования данных входим в пункты меню “Compare”/”Analysis of Variance/Multifactor ANOVA…”. Появляется окно “Multifactor ANOVA”. В поле “Depended Variable” из списка переменных необходимо ввести переменную “Costs”, в поле “Factors” переменные “Producer” и “Time” и щелкнуть кнопку “OK” (рис. 8.3).

Для того, что бы был оценен фактор взаимодействия, необходимо установить его порядок равный двум. Это можно осуществить щелчком правой кнопки в поле внутреннего окна и в появившемся меню выбором пункта “Analysis options…”. На экран выводится окно ”Multifactor ANOVA Options” (рис.

8.4). В поле “Maximum Order Interaction” необходимо ввести 2, затем щелкнуть кнопку “OK”.

Для получения результатов двухфакторного анализа необходимо щелкнуть кнопку “Tabular options”, включить пункт “ANOVA Table” и нажать кнопку “OK”. На экран выводится таблица результатов (рис. 8.5).

Результат анализа показывает, что данные не противоречат гипотезам о влиянии обоих факторов и их взаимодействия математическое ожидание цен при уровне значимости = 0,05. Однако, следует отметить, p-Value взаимодействия равен 0,0645. Это указывает на то, что взаимодействие присутствует с вероятностью более 0,93. Следовательно, если назначить = 0,07, то данные не будут противоречить гипотезе о влиянии взаимодействия на математическое ожидания цен. Это обусловлено зависимостью цен второго поставщика от времени, что можно видеть из графика на рисунке 8.6.

Используя данные, представленные в таблице 1.2, проверить гипотезу о равенстве математических ожиданий цен производителей, о постоянстве цен и наличии взаимодействия между этими факторами. Результат представить в виде аргументированного заключения.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ №

ИЕРАРХИЧЕСКИЙ КЛАСТЕРНЫЙ АНАЛИЗ

КЛАСТЕРНЫЙ АНАЛИЗ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков. ЦЕЛЬЮ КЛАСТЕРНОГО АНАЛИЗА является образование групп схожих между собой объектов, которые называются кластерами.

Методы кластерного анализа позволяют решать следующие задачи:

проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов;

проверка выдвигаемых предположений о наличии некоторой структурной связи совокупности изучаемых объектов;

построение новых классификаций для слабоизученных объектов.

Методы кластерного анализа делятся на следующие группы: агломеративные (объединяющие), дивизимные (разделяющие) и итеративные.

Агломеративные методы последовательно объединяют отдельные объекты в группы (кластеры).

Дивизимные методы расчленяют группы на отдельные объекты.

Итеративные методы – кластеры формируются исходя из задаваемых условий разбиения, которые могут быть изменены пользователем для достижения желаемого качества. Эти методы могут привести к образованию пересекающихся кластеров, когда один объект может одновременно принадлежать нескольким кластерам.

Существует три различных подхода к проблеме кластерного анализа: эвристический, экстремальный и статистический.

Эвристический подход характеризуется отсутствием формальной модели изучаемой модели и критерия для сравнения различных решений. Его основой является алгоритм, построенный исходя из интуитивных соображений.

При экстремальном подходе также не формулируется исходная модель, а задается критерий, определяющий качество разбиения на кластеры. Такой подход особенно полезен, если цель исследования четко определена. В этом случае качество разбиения может измеряться эффективностью выполнения цели.

Основой статистического подхода является вероятностная модель исследуемого процесса, что дает возможность ставить задачи, связанные с воспроизводимостью результатов.

В задачах кластерного анализа обычной формой представления исходных данных служит прямоугольная таблица, каждая строка которой представляет результат измерения k признаков на одном из n обследованных объектов:

Таким образом, это матрица X. В конкретных случаях может представлять интерес, как группировка объектов, так и группировка признаков.

Числовые значения элементов матрицы X могут соответствовать переменным трех типов: количественным, ранговым и качественным. Количественные переменные обладают свойством упорядоченности и над ними можно производить арифметические операции. Значения ранговых переменных тоже упорядочены, и им в соответствие можно поставить натуральные числа. Однако использование этих чисел в арифметических операциях будет некорректным.

Качественными называются переменные, принимающие два или более значений. Этим значениям также можно поставить в соответствие некоторые числа, но без свойств упорядоченности. Исключение составляют дихотомные переменные, два значения которых (как правило, они обозначаются числами 0 и 1) можно считать упорядоченными.

Желательно, чтобы таблица исходных данных соответствовала одному типу переменных. В противном случае разные типы переменных стараются свести к какому-то одному типу переменных. Например, все переменные можно свести к дихотомным, используя следующую процедуру. Количественные переменные переводят в ранговые, разбивая области значений количественной переменной на интервалы, которые затем нумеруются числами натурального ряда. Ранговые переменные автоматически становятся качественными, если не учитывать упорядоченности их значений. Что касается качественных переменных, то каждому из возможных ее значений приходится сопоставлять дихотомную переменную, которая будет равна 1, если качественная переменная приняла заданное значение, и 0 – в противном случае.

Для проведения классификации необходимо ввести понятие сходства или близости объектов по наблюдаемым переменным. В каждый кластер должны попасть объекты, имеющие сходные характеристики.

В кластерном анализе для количественной оценки близости вводится понятие метрики. Сходство и различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается k признаками, то он может быть представлен как точка в k-мерном пространстве. Сходство с другими объектами будет определяться как соответствующее расстояние. В кластерном анализе используют различные меры расстояния между объектами.

Евклидово расстояние – наиболее общий тип расстояния. Является геометрическим расстоянием между точками в многомерном пространстве:

где Xi, Xj – координаты i-го и j-го объектов в k-мерном пространстве;

xil - xjl – величина l-й компоненты у i-го (j-го) объекта (l=1,2,...,k; i,j=1,2,...,n).

Квадрат евклидова расстояния – используется, чтобы придать большие веса более отдаленным друг от друга объектам:

где Xi, Xj – координаты i-го и j-го объектов в k-мерном пространстве;

xil - xjl – величина l-й компоненты у i-го (j-го) объекта (l=1,2,...,k; i,j=1,2,...,n).

Взвешенное евклидово расстояние – используется при задании произвольных весов для тех или иных признаков:

где Xi, Xj – координаты i-го и j-го объектов в k-мерном пространстве;

xil - xjl – величина l-й компоненты у i-го (j-го) объекта (l=1,2,...,k; i,j=1,2,...,n);

wl – весовой коэффициент l-го признака.

Расстояние city-block (городских кварталов) или манхэттенское расстояние – по сравнению с евклидовым расстоянием влияние отдельных больших разностей (выбросов) уменьшается, так как они не возводятся в квадрат:

где Xi, Xj – координаты i-го и j-го объектов в k-мерном пространстве;

xil - xjl – величина l-й компоненты у i-го (j-го) объекта (l=1,2,...,k; i,j=1,2,...,n).

Расстояние Махаланобиса – применяют в случае зависимых компонент x1, x2,..., xk вектора наблюдений и их различной значимости в решении вопроса классификации:

где Xi, Xj – координаты i-го и j-го объектов в k-мерном пространстве;

C-1 – ковариационная матрица генеральной совокупности.

Оценка сходства между объектами сильно зависит от абсолютного значения признака и от степени его вариации в совокупности. Чтобы устранить подобное влияние на процедуру классификации, можно значения исходных переменных нормировать:

где xil – значение l-го признака i-го объекта;

xl – среднее арифметическое значение l-го признака;

Sl =( i( xil - xl)2/(n-1) )1/2 – стандартное отклонение l-го признака.

Выбор меры расстояния и весов для классифицирующих переменных – очень важный этап кластерного анализа, так как от этих процедур зависят состав и количество формируемых кластеров, а также степень сходства объектов внутри кластеров.

На первом этапе кластерного анализа n объектов в распоряжении исследователя имеется симметричная матрица расстояний (матрица сходства) размерностью n*n. Эта матрица используется в процедурах иерархического агломеративного кластерного анализа.

Из всех методов кластерного анализа, указанных ранее, самыми распространенными являются иерархические агломеративные методы. Сущность этих методов заключается в том, что на первом шаге каждый объект рассматривается как отдельный кластер. Процесс объединения кластеров происходит последовательно: на основании матрицы расстояний или матрицы сходства объединяются наиболее близкие объекты. Если матрица сходства первоначально имеет размерность nn, то полностью процесс кластеризации завершается за n шагов, в итоге все объекты будут объединены в один кластер.

Множество методов иерархического кластерного анализа различается не только используемыми мерами близости, но и алгоритмами классификации.

Различают алгоритмы включения нового объекта в существующий кластер и алгоритмы объединения кластеров. По сути это различные способы вычисления близости. В общем виде алгоритм иерархического кластерного анализа можно представить в виде последовательности процедур:

1. Значения исходных переменных нормируются.

2. Рассчитывается матрица расстояний или матрица мер близости.

3. Находится пара самых близких кластеров. По выбранному алгоритму объединяются эти два кластера. Новому кластеру присваивается меньший из номеров объединяемых кластеров.

4. Пункты 2, 3 и 4 повторяются до тех пор, пока все объекты не будут объединены в один кластер или до достижения заданного "порога" близости.

Для включения нового объекта в существующий кластер применяются следующие алгоритмы:

Метод одиночной связи. На основании матрицы расстояний определяются два наиболее близких объекта, они и образуют первый кластер. Далее выбирается объект, который будет включен в этот кластер. Таким объектом будет тот, который имеет наименьшее расстояние хотя бы с одним из объектов, уже включенных в кластер. На следующем шаге аналогично включается в кластер следующий объект и так далее до образования единственного кластера.

Метод полных связей. Включение нового объекта в кластер происходит только в том случае, если расстояние между объектами не меньше некоторого заданного уровня.

Метод средней связи. Для решения вопроса о включении нового объекта в уже существующий кластер вычисляется среднее значение меры близости, которое затем сравнивается с заданным пороговым уровнем (как в предыдущем методе).

Метод Уорда. Данный метод предполагает, что первоначально каждый кластер состоит из одного объекта. Сначала объединяются два ближайших кластера. Для них определяются средние значения каждого признака, и рассчитывается сумма квадратов отклонений:

где l – номер кластера;

i – номер объекта (i = 1,2,..., nl);

nl – количество объектов в l-м кластере;

j – номер признака (j = 1,2,..., k);

k – количество признаков, характеризующих каждый объект.

В дальнейшем объединяются те объекты или кластеры, которые дают наименьшее приращение величины Vl.

Для объединения двух кластеров применяются следующие алгоритмы:

Метод ближайшего соседа. Степень близости оценивается между наиболее близкими объектами этих кластеров.

Метод дальнего соседа. Степень близости оценивается по степени близости между наиболее отдаленными объектами кластеров.

Метод средней связи. Степень близости оценивается как средняя величина степеней близости между объектами кластеров.

Метод медианной связи. Расстояние между любым кластером S и новым кластером, который получился в результате объединения кластеров P и Q, определяется как расстояние от центра кластера S до середины отрезка, соединяющего центры кластеров P и Q.



Pages:   || 2 |
 
Похожие работы:

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И ФИНАНСОВ КАФЕДРА ЭКОНОМИКИ ПРЕДПРИЯТИЯ И ПРОИЗВОДСТВЕННОГО МЕНЕДЖМЕНТА РАБОЧАЯ ПРОГРАММА И МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ИЗУЧЕНИЮ УЧЕБНОЙ ДИСЦИПЛИНЫ И ВЫПОЛНЕНИЮ КОНТРОЛЬНЫХ РАБОТ СТУДЕНТАМИ ЗАОЧНОГО ФАКУЛЬТЕТА ПО КУРСУ ЭКОНОМИКА И ОРГАНИЗАЦИЯ МАЛОГО ПРЕДПРИНИМАТЕЛЬСТВА Специальность 080507 Менеджмент...»

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И ФИНАНСОВ КАФЕДРА СИСТЕМ ТЕХНОЛОГИЙ И ТОВАРОВЕДЕНИЯ КОНЦЕПЦИИ СОВРЕМЕННОГО ЕСТЕСТВОЗНАНИЯ РАБОЧАЯ ПРОГРАММА, ТЕМЫ КОНТРОЛЬНЫХ РАБОТ И МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ИХ ВЫПОЛНЕНИЮ (для студентов заочной формы обучения) ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА...»

«Министерство образования Российской Федерации Югорский государственный университет Кафедра общей и теоретической экологии ПРОИЗВОДСТВЕННАЯ ПРАКТИКА Методические указания для студентов факультета природопользования специальность 013400 Природопользование Ханты-Мансийск 2003 Методические указания рекомендованы студентам 3 курса дневного отделения факультета природопользования, обучающимся по специальности 013400 Природопользование. Составители: доцент Н.В.Кокорина ст.преподаватель С.Б. Кузнецова...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ УО ПОЛОЦКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Материалы для самопроверки по дисциплине Анализ хозяйственной деятельности для студентов заочной формы обучения специальности 1-25 01 08 Новополоцк 2013 2 УДК 657.22 Материалы для самопроверки составлены на основе учебной программы для экономических специальностей высших учебных заведений, утв. 22.02.2010 г. Рег. № УД – 56/10//баз и Образовательных стандартов РБ ОСРБ 1 – 25 01 08, 08- 2008 УДК 657.22 Одобрены и...»

«Министерство образования и науки Российской Федерации Федеральное агентство по образованию РФ Владивостокский государственный университет экономики и сервиса _ Т.А. ГУБЕНКО МЕЖДУНАРОДНЫЕ КОНВЕНЦИИ И СОГЛАШЕНИЯ ПО ТОРГОВЛЕ Учебная программа курса по специальности 080401 (351100) Товароведение и экспертиза товаров (по областям применения) Владивосток Издательство ВГУЭС 2008 ББК 67.932.11-32 Учебная программа по дисциплине Международные конвенции и соглашения по торговле составлена в соответствии...»

«Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ НИЗКОТЕМПЕРАТУРНЫХ И ПИЩЕВЫХ ТЕХНОЛОГИЙ Кафедра экономической теории и экономической политики Н.А. Шапиро МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО КУРСУ МИКРОЭКОНОМИКИ Рабочая программа, варианты контрольных работ и пояснения к выполнению, темы курсовых и правила оформления, обязательная литература) для самостоятельной работы студентов факультета...»

«1 Федеральное агентство по образованию Сочинский государственный университет туризма и курортного дела Филиал Сочинского государственного университета туризма и курортного дела в г. Н.Новгород Кафедра экономики Е.П. КУЛАГИН ЭФФЕКТИВНЫЙ МЕНЕДЖМЕНТ И ИСПОЛЬЗОВАНИЕ ЧЕЛОВЕЧЕСКОГО РЕСУРСА Учебное пособие для студентов специальности 080507 Менеджмент организации Нижний Новгород 2010 ББК 65.050.9 (2) К Кулагин, Е.П. Эффективный менеджмент и использование человеческого ресурса: учебное пособие / сост....»

«СЫКТЫВКАРСКИЙ ЛЕСНОЙ ИНСТИТУТ Кафедра экономики отраслевых производств ЭКОНОМИКА ОРГАНИЗАЦИЙ (ПРЕДПРИЯТИЙ) СЫКТЫВКАР 2004 МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ СЫКТЫВКАРСКИЙ ЛЕСНОЙ ИНСТИТУТ (ФИЛИАЛ) ГОСУДАРСТВЕННОГО ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САНКТ-ПЕТЕРБУРГСКАЯ ГОСУДАРСТВЕННАЯ ЛЕСОТЕХНИЧЕСКАЯ АКАДЕМИЯ ИМ. С. М. КИРОВА Кафедра экономики отраслевых производств ЭКОНОМИКА ОРГАНИЗАЦИЙ (ПРЕДПРИЯТИЙ) Методические указания по выполнению курсовой работы...»

«Учреждение образования БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ ЭКОНОМИКА ПРЕДПРИЯТИЯ ОТРАСЛИ Учебно-методическое пособие для студентов специальностей 1-25 01 08 Бухгалтерский учет, анализ и аудит, 1-26 02 02 Менеджмент, 1-26 02 03 Маркетинг Минск 2006 ЭКОНОМИКА ПРЕДПРИЯТИЯ ОТРАСЛИ Учебно-методическое пособие для студентов специальностей 1-25 01 08 Бухгалтерский учет, анализ и аудит, 1-26 02 02 Менеджмент, 1-26 02 03 Маркетинг Минск БГТУ УДК 658:66(075.8) ББК 65.9я Э Рассмотрено...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ГОУ ВПО УРАЛЬСКИЙ ГОСУДАРСТВЕННЫЙ ЛЕСОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ Кафедра экономики и организации лесного комплекса Ю.И. Деминцев И.Н. Будкова М.В. Кузьмина РАЗРАБОТКА ПЛАНА ОРГАНИЗАЦИИ ЛЕСОЗАГОТОВИТЕЛЬНОГО ПРОИЗВОДСТВА Методические указания для курсовой работы студентов факультета экономики и управления специальности 080502 – экономика и управление на предприятии (очной, очно-заочной и заочной форм обучения) Екатеринбург Печатается по решению...»

«АНАЛИЗ КОММЕРЧЕСКО-ФИНАНСОВОЙ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ (автомобильного транспорта) Министерство образования Российской Федерации Сибирская государственная автомобильно-дорожная академия (СибАДИ) Кафедра менеджмента и маркетинга АНАЛИЗ КОММЕРЧЕСКО-ФИНАНСОВОЙ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ (автомобильного транспорта) Методические указания по выполнению курсовой работы для студентов специальностей 060800 Экономика и управление на предприятии (автомобильный транспорт) и 240100 Организация перевозок и...»

«Новые книги, поступившие в библиотеку МГТУ МАМИ в сентябре-ноябре 2011 г. 1. Общий отдел Наука. Информация Большая Российская энциклопедия: в 30-ти т. Т. 17: Лас-ТунасЛомонос / пред. науч.- ред. совета Ю.С. Осипов. – М.: Большая Российская энциклопедия, 2010. – 784 с.: ил. 1 экз. 03 Б-799 Большая Российская энциклопедия : в 30-ти т. Т. 18 : Ломоносов - Манизер / пред. науч.- ред. совета Ю. С. Осипов. - М.: Большая Российская энциклопедия, 2011. - 768 с. : ил. 2 экз. 03 Б-799 Ясницкий Л.Н....»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И ФИНАНСОВ КАФЕДРА КОММЕРЦИИ И ЛОГИСТИКИ МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ИЗУЧЕНИЮ УЧЕБНОЙ ДИСЦИПЛИНЫ АВТОМАТИЗАЦИЯ БИЗНЕС-ПРОЦЕССОВ В ЛОГИСТИКЕ для студентов пятого курса специальности 08.05.06 Логистика и управление цепями поставок ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО ГОСУДАРСТВЕННОГО...»

«Учреждение образования БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ Кафедра менеджмента и экономики природопользования ЭКОНОМИКА ЛЕСНОГО ХОЗЯЙСТВА. ЭКОНОМИЧЕСКОЕ ОБОСНОВАНИЕ ДИПЛОМНЫХ ПРОЕКТОВ Методические указания для студентов специальности 1-75 01 01 Лесное хозяйство Минск 2012 УДК 630*6(075.8) + 378.147.091.313:630*6(075.8) ББК 65.9(2)34я73 Э40 Рассмотрены и рекомендованы к изданию редакционно-издательским советом университета Составители: М. М. Санкович, Е. А. Дашкевич, Д. Г....»

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И ФИНАНСОВ КАФЕДРА КОММЕРЦИИ И ЛОГИСТИКИ МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ИЗУЧЕНИЮ УЧЕБНОЙ ДИСЦИПЛИНЫ ИНТЕГРИРОВАННОЕ ПЛАНИРОВАНИЕ ЦЕПЕЙ ПОСТАВОК для студентов 4 курса специальности Логистика и управление цепями поставок ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА ЭКОНОМИКИ И...»

«ЧАСТНОЕ УЧРЕЖДЕНИЕ ОБРАЗОВАНИЯ МИНСКИЙ ИНСТИТУТ УПРАВЛЕНИЯ Н.Л. БОНДАРЕНКО Е.В. ЕРМОЛЕНКО Гражданское право особенная часть Учебно-методический комплекс Минск Изд-во МИУ PDF created with pdfFactory Pro trial version www.pdffactory.com Разрыв страницы УДК ББК Т Рецензенты: Телятицкая Т.В., заведующий кафедрой экономического права Минского института управления, кандидат юридических наук, доцент; Манкевич И.П., доцент кафедры гражданско-правовых дисциплин БГЭУ, кандидат юридических наук....»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И ФИНАНСОВ КАФЕДРА ЭКОНОМИКИ ПРЕДПРИЯТИЯ И ПРОИЗВОДСТВЕННОГО МЕНЕДЖМЕНТА ОРГАНИЗАЦИЯ И ПЛАНИРОВАНИЕ ПРОИЗВОДСТВА Для студентов специальности 080507 Менеджмент организации, бакалавров по направлению Менеджмент всех форм обучения Учебное пособие Под редакцией д-ра экон. наук,...»

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И ФИНАНСОВ ФАКУЛЬТЕТ КОММЕРЦИИ И МАРКЕТИНГА КАФЕДРА КОММЕРЦИИ И ЛОГИСТИКИ МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ПРОГРАММА ПРОИЗВОДСТВЕННОЙ ПРАКТИКИ Направление 522000 – Коммерция ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА ЭКОНОМИКИ И ФИНАНСОВ Рекомендовано научно-методическим советом университета...»

«НАЧАЛЬНОЕ И СРЕДНЕЕ ПРОФЕССИОНАЛЬНОЕ ОБРАЗОВАНИЕ М.И. БАСАКОВ ДОКУМЕНТАЦИОННОЕ ОБЕСПЕЧЕНИЕ УПРАВЛЕНИЯ (с основами архивоведения) Рекомендовано ФГБОУ ВПО Государственный университет управления в качестве учебного пособия для студентов СПО и НПО, обучающихся по профессии 034700.01 Секретарь, специальности 034702 Документационное обеспечение управления и архивоведение Регистрационный номер рецензии № 688 от 21.12.2012 ФГАУ ФИРО КНОРУС • МОСКВА • 2013 УДК 651(075.32) ББК 65.291.212.8я723 Б27...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И ФИНАНСОВ КАФЕДРА БУХГАЛТЕРСКОГО УЧЕТА И АУДИТА МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ПРАКТИЧЕСКИЕ ЗАДАНИЯ для самостоятельной работы студентов по курсу БУХГАЛТЕРСКИЙ УЧЕТ В ТОРГОВЛЕ для студентов 5 курса специальности 080109 Бухгалтерский учет, анализ и аудит дневного и вечернего отделений...»






 
© 2013 www.diss.seluk.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Методички, учебные программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.