Матрица парной корреляции. Коэффициент парной корреляции в Excel

Матрица парных коэффициентов корреляции

Y X1 X2 X3 X4 X5
Y
X1 0,732705
X2 0,785156 0,706287
X3 0,179211 -0,29849 0,208514
X4 0,667343 0,924333 0,70069 0,299583
X5 0,709204 0,940488 0,691809 0,326602 0,992945

В узлах матрицы находятся парные коэффициенты корреляции, характеризующие тесноту взаимосвязи между факторными признаками. Анализируя эти коэффициенты, отметим, что чем больше их абсолютная величина, тем большее влияние оказывает соответствующий факторный признак на результативный. Анализ полученной матрицы осуществляется в два этапа:

1. Если в первом столбце матрицы есть коэффициенты корреляции, для которых /r / < 0,5, то соответствующие признаки из модели исключаются. В данном случае в первом столбце матрицы коэффициентов корреляции исключается фактор или коэффициент роста уровня инфляции. Данный фактор оказывает меньшее влияние на результативный признак, нежели оставшиеся четыре признака.

2. Анализируя парные коэффициенты корреляции факторных признаков друг с другом, (r XiXj), характеризующие тесноту их взаимосвязи, необходимо оценить их независимость друг от друга, поскольку это необходимое условие для дальнейшего проведения регрессионного анализа. В виду того, что в экономике абсолютно независимых признаков нет, необходимо выделить, по возможности, максимально независимые. Факторные признаки, находящиеся в тесной корреляционной зависимости друг с другом, называются мультиколлинеарными. Включение в модель мультиколлинеарных признаков делает невозможным экономическую интерпретацию регрессионной модели, так как изменение одного фактора влечет за собой изменение факторов с ним связанных, что может привести к «поломке» модели в целом.

Критерий мультиколлениарности факторов выглядит следующим образом:

/r XiXj / > 0,8

В полученной матрице парных коэффициентов корреляции этому критерию отвечают два показателя, находящиеся на пересечении строк и . Из каждой пары этих признаков в модели необходимо оставить один, он должен оказывать большее влияние на результативный признак. В итоге из модели исключаются факторы и , т.е. коэффициент роста себестоимости реализованной продукции и коэффициент роста объёма её реализации.

Итак, в регрессионную модель вводим факторы Х1 и Х2.

Далее осуществляется регрессионный анализ (сервис, анализ данных, регрессия). Вновь составляет таблица исходных данных с факторами Х1 и Х2. Регрессия в целом используется для анализа воздействия на отдельную зависимую переменную значений независимых переменных (факторов) и позволяет корреляционную связь между признаками представить в виде некоторой функциональной зависимости называемой уравнением регрессии или корреляционно-регрессионной моделью.

В результате регрессионного анализа получаем результаты расчета многомерной регрессии. Проанализируем полученные результаты.

Все коэффициенты регрессии значимы по критерию Стьюдента. Коэффициент множественной корреляции R составил 0,925, квадрат этой величины (коэффициент детерминации) означает, что вариация результативного признака в среднем на 85,5% объясняется за счет вариации факторных признаков, включенных в модель. Коэффициент детерминированности характеризует тесноту взаимосвязи между совокупностью факторных признаков и результативным показателем. Чем ближе значение R-квадрат к 1, тем теснее взаимосвязь. В нашем случае показатель, равный 0,855, указывает на правильный подбор факторов и на наличие взаимосвязи факторов с результативным показателем.

Рассматриваемая модель адекватна, поскольку расчетное значение F-критерия Фишера существенно превышает его табличное значение (F набл =52,401; F табл =1,53).

В качестве общего результата проведенного корреляционно-регрессионного анализа выступает множественное уравнение регрессии, которое имеет вид:

Полученное уравнение регрессии отвечает цели корреляционно-регрессионного анализа и является линейной моделью зависимости балансовой прибыли предприятия от двух факторов: коэффициента роста производительности труда и коэффициента имущества производственного назначения.

На основании полученной модели можно сделать вывод о том, что при увеличении уровня производительности труда на 1% к уровню предыдущего периода величина балансовой прибыли возрастет на 0,95 п.п.; увеличение же коэффициента имущества производственного назначения на 1% приведет к росту результативного показателя на 27,9 п.п. Слелдовательно, доминирующее влияние на рост балансовой прибыли оказывает увеличение стоимости имущества производственного назначения (обновление и рост основных средств предприятия).

По множественной регрессионной модели выполняется многофакторный прогноз результативного признака. Пусть известно, что Х1 = 3,0, а Х3 = 0,7. Подставим значения факторных признаков в модель, получим Упр = 0,95*3,0 + 27,9*0,7 – 19,4 = 2,98. Таким образом, при увеличении производительности труда и модернизации основных средств на предприятии балансовая прибыль в 1 квартале 2005 г. по отношению к предыдущему периоду (IV квартал 2004 г.) возрастет на 2,98%.

1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х ; оценить статистическую значимость коэффициентов корреляции r (Y , X i); выбрать наиболее информативный фактор.

2. Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.

3. Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F – критерия Фишера (принять уровень значимости α=0,05).

4. С доверительной вероятностью γ=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 6). Представить графически фактические и модельные значения Y , результаты прогнозирования.

5. Методом включения построить двухфакторные модели, сохраняя в них наиболее информативный фактор; построить трехфакторную модель с полным перечнем факторов.

6. Выбрать лучшую из построенных множественных моделей. Дать экономическую интерпретацию ее коэффициентов.

7. Проверить значимость коэффициентов множественной регрессии с помощью t –критерия Стьюдента (принять уровень значимости α=0,05). Улучшилось ли качество множественной модели по сравнению с парной?

8. Дать оценку влияния факторов на результат с помощью коэффициентов эластичности, бета– и дельта– коэффициентов.

Задача 2. Моделирование одномерного временного ряда

В Приложении 7 приведены временные ряды Y(t) социально-экономических показателей по Алтайскому краю за период с 2000 г. по 2011 г. Требуется исследовать динамику показателя, соответствующего варианту задания.

Вариант Обозначение, наименование, единица измерения показателя
Y1 Потребительские расходы в среднем на душу населения (в месяц), руб.
Y2 Выбросы загрязняющих веществ в атмосферный воздух, тыс. тонн
Y3 Средние цены на вторичном рынке жилья (на конец года, за квадратный метр общей площади), руб
Y4 Объем платных услуг на душу населения, руб
Y5 Среднегодовая численность занятых в экономике, тыс. человек
Y6 Число собственных легковых автомобилей на 1000 человек населения (на конец года), штук
Y7 Среднедушевые денежные доходы (в месяц), руб
Y8 Индекс потребительских цен (декабрь к декабрю предыдущего года), %
Y9 Инвестиции в основной капитал (в фактически действовавших ценах), млн. руб
Y10 Оборот розничной торговли на душу населения (в фактически действовавших ценах), руб


Порядок выполнения работы

1. Построить линейную модель временного ряда , параметры которой оценить МНК. Пояснить смысл коэффициента регрессии.

2. Оценить адекватность построенной модели, используя свойства случайности, независимости и соответствия остаточной компоненты нормальному закону распределения.

3. Оценить точность модели на основе использования средней относительной ошибки аппроксимации.

4. Осуществить прогнозирование рассматриваемого показателя на год вперед (прогнозный интервал рассчитать при доверительной вероятности 70%).

5. Представить графически фактические значения показателя, результаты моделирования и прогнозирования.

6. Провести расчет параметров логарифмического, полиномиального (полином 2-й степени), степенного, экспоненциального и гиперболического трендов. На основании графического изображения и значения индекса детерминации выбрать наиболее подходящий вид тренда.

7. С помощью лучшей нелинейной модели осуществить точечное прогнозирование рассматриваемого показателя на год вперед. Сопоставить полученный результат с доверительным прогнозным интервалом, построенным при использовании линейной модели.

ПРИМЕР

Выполнения контрольной работы

Задача 1

Фирма занимается реализацией подержанных автомобилей. Наименования показателей и исходные данные для эконометрического моделирования представлены в таблице:

Цена реализации, тыс.у.е. (Y ) Цена нового авт., тыс.у.е. (Х1 ) Срок эксплуатации, годы (Х2 ) Левый руль - 1, правый руль - 0, (Х3 )
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

Требуется:

1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, X i); выбрать наиболее информативный фактор.

Используем Excel (Данные / Анализ данных / КОРРЕЛЯЦИЯ):

Получим матрицу коэффициентов парной корреляции между всеми имеющимися переменными:

У Х1 Х2 Х3
У
Х1 0,910987
Х2 -0,4156 -0,2603
Х3 0,190785 0,221927 -0,30308

Проанализируем коэффициенты корреляции между результирующим признаком Y и каждым из факторов X j:

> 0, следовательно, между переменными Y и Х 1 наблюдается прямая корреляционная зависимость: чем выше цена нового автомобиля, тем выше цена реализации.

> 0,7 – эта зависимость является тесной.

< 0, значит, между переменными Y и Х 2 наблюдается

обратная корреляционная зависимость: цена реализации ниже для авто-

мобилей с большим сроком эксплуатации.

– эта зависимость умеренная, ближе к слабой.

> 0, значит, между переменными Y и Х 3 наблюдается прямая корреляционная зависимость: цена реализации выше для автомобилей с левым рулем.

< 0,4 – эта зависимость слабая.

Для проверки значимости найденных коэффициентов корреляции используем критерий Стьюдента.

Для каждого коэффициента корреляции вычислим t -статистику по формуле и занесем результаты расчетов в дополнительный столбец корреляционной таблицы:

У Х1 Х2 Х3 t-статистики
У
Х1 0,910987 7,651524603
Х2 -0,4156 -0,2603 1,582847988
Х3 0,190785 0,221927 -0,30308 0,673265587

По таблице критических точек распределения Стъюдента при уровне значимости и числе степеней свободы определим критическое значение (Приложение 1, или функция СТЬЮДРАСПОБР).Y и сроком эксплуатации Х 2 достоверна.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Y и расположением руля Х 3 достоверна.

Таким образом, наиболее тесная и значимая зависимость наблюдается между ценой реализации Y и ценой нового автомобиля Х 1 ; фактор Х 1 является наиболее информативным.

Множественная регрессия не является результатом преобразования уравнения:

-
;

-
.

Линеаризация подразумевает процедуру …

- приведения уравнения множественной регрессии к парной;

+ приведения нелинейного уравнения к линейному виду;

- приведения линейного уравнения к нелинейному виду;

- приведения нелинейного уравнения относительно параметров к уравнению, линейному относительно результата.

Остатки не изменяются;

Уменьшается количество наблюдений

В стандартизованном уравнении множественной регрессии переменными являются:

Исходные переменные;

Стандартизованные параметры;

Средние значения исходных переменных;

Стандартизованные переменные.

Одним из методов присвоения числовых значений фиктивным переменным является. . .

+– ранжирование;

Выравнивание числовых значений по возрастанию;

Выравнивание числовых значений по убыванию;

Нахождение среднего значения.

В матрице парных коэффициентов корреляции отображены значения парных коэффициентов линейной корреляции между. . . .

Переменными;

Параметрами;

Параметрами и переменными;

Переменными и случайными факторами.

Метод оценки параметров моделей с гетероскедастичными остатками называется ____________ методом наименьших квадратов:

Обычным;

Косвенным;

Обобщенным;

Минимальным.

Дано уравнение регрессии . Определите спецификацию модели.

Полиномиальное уравнение парной регрессии;

Линейное уравнение простой регрессии;

Полиномиальное уравнение множественной регрессии;

Линейное уравнение множественной регрессии.

В стандартизованном уравнении свободный член ….

Равен 1;

Равен коэффициенту множественной детерминации;

Равен коэффициенту множественной корреляции;

Отсутствует.

В качестве фиктивных переменных в модель множественной регрессии включаются факторы,

Имеющие вероятностные значения;

Имеющие количественные значения;

Не имеющие качественных значений;

Не имеющие количественных значений.

Факторы эконометрической модели являются коллинеарными, если коэффициент …

Корреляции между ними по модулю больше 0,7;

Детерминации между ними по модулю больше 0,7;

Детерминации между ними по модулю меньше 0,7;

Обобщенный метод наименьших квадратов отличается от обычного МНК тем, что при применении ОМНК …

Преобразуются исходные уровни переменных;

Остатки не изменяются;

Остатки приравниваются к нулю;

Уменьшается количество наблюдений.

Объем выборки определяется …

Числовыми значением переменных, отбираемых в выборку;

Объемом генеральной совокупности;

Числом параметров при независимых переменных;

Числом результативных переменных.

11. Множественная регрессия не является результатом преобразования уравнения:

+-
;

-
;

-
.

Исходные значения фиктивных переменных предполагают значения …

Качественные;

Количественно измеримые;

Одинаковые;

Значения.

Обобщенный метод наименьших квадратов подразумевает …

Преобразование переменных;

Переход от множественной регрессии к парной;

Линеаризацию уравнения регрессии;

Двухэтапное применение метода наименьших квадратов.

Линейное уравнение множественной регрессии имеет вид . Определите какой из факторовили:

+- , так как 3,7>2,5;

Оказывают одинаковое влияние;

- , так как 2,5>-3,7;

По этому уравнению нельзя ответить на поставленный вопрос, так как коэффициенты регрессии несравнимы между собой.

Включение фактора в модель целесообразно, если коэффициент регрессии при этом факторе является …

Нулевым;

Незначимым;

Существенным;

Несущественным.

Что преобразуется при применении обобщенного метода наименьших квадратов?

Стандартизованные коэффициенты регрессии;

Дисперсия результативного признака;

Исходные уровни переменных;

Дисперсия факторного признака.

Проводится исследование зависимости выработки работника предприятия от ряда факторов. Примером фиктивной переменной в данной модели будет являться ______ работника.

Возраст;

Уровень образования;

Заработная плата.

Переход от точечного оценивания к интервальному возможен, если оценки являются:

Эффективными и несостоятельными;

Неэффективными и состоятельными;

Эффективными и несмещенными;

Состоятельными и смещенными.

Матрица парных коэффициентов корреляции строится для выявления коллинеарных и мультиколлинеарных …

Параметров;

Случайных факторов;

Существенных факторов;

Результатов.

На основании преобразования переменных при помощи обобщенного метода наименьших квадратов получаем новое уравнение регрессии, которое представляет собой:

Взвешенную регрессию, в которой переменные взяты с весами
;

;

Нелинейную регрессию, в которой переменные взяты с весами
;

Взвешенную регрессию, в которой переменные взяты с весами .

Если расчетное значение критерия Фишера меньше табличного значения, то гипотеза о статистической незначимости уравнения …

Отвергается;

Незначима;

Принимается;

Несущественна.

Если факторы входят в модель как произведение, то модель называется:

Суммарной;

Производной;

Аддитивной;

Мультипликативной.

Уравнение регрессии, которое связывает результирующий признак с одним из факторов при зафиксированных на среднем уровне значении других переменных, называется:

Множественным;

Существенным;

Частным;

Несущественным.

Относительно количества факторов, включенных в уравнение регрессии, различают …

Линейную и нелинейную регрессии;

Непосредственную и косвенную регрессии;

Простую и множественную регрессию;

Множественную и многофакторную регрессию.

Требованием к уравнениям регрессии, параметры которых можно найти при помощи МНК является:

Равенство нулю значений факторного признака4

Нелинейность параметров;

Равенство нулю средних значений результативной переменной;

Линейность параметров.

Метод наименьших квадратов не применим для …

Линейных уравнений парной регрессии;

Полиномиальных уравнений множественной регрессии;

Уравнений, нелинейных по оцениваемым параметрам;

Линейных уравнений множественной регрессии.

При включении фиктивных переменных в модель им присваиваются …

Нулевые значения;

Числовые метки;

Одинаковые значения;

Качественные метки.

Если между экономическими показателями существует нелинейная связь, то …

Нецелесообразно использовать спецификацию нелинейного уравнения регрессии;

Целесообразно использовать спецификацию нелинейного уравнения регрессии;

Целесообразно использовать спецификацию линейного уравнение парной регрессии;

Необходимо включить в модель другие факторы и использовать линейное уравнение множественной регрессии.

Результатом линеаризации полиномиальных уравнений является …

Нелинейные уравнения парной регрессии;

Линейные уравнения парной регрессии;

Нелинейные уравнения множественной регрессии;

Линейные уравнения множественной регрессии.

В стандартизованном уравнении множественной регрессии
0,3;
-2,1. Определите, какой из факторовилиоказывает более сильное влияние на:

+- , так как 2,1>0,3;

По этому уравнению нельзя ответить на поставленный вопрос, так как неизвестны значения «чистых» коэффициентов регрессии;

- , так как 0,3>-2,1;

По этому уравнению нельзя ответить на поставленный вопрос, так как стандартизированные коэффициенты несравнимы между собой.

Факторные переменные уравнения множественной регрессии, преобразованные из качественных в количественные называются …

Аномальными;

Множественными;

Парными;

Фиктивными.

Оценки параметров линейного уравнения множественной регрессии можно найти при помощи метода:

Средних квадратов;

Наибольших квадратов;

Нормальных квадратов;

Наименьших квадратов.

Основным требованием к факторам, включаемым в модель множественной регрессии, является:

Отсутствие взаимосвязи между результатом и фактором;

Отсутствие взаимосвязи между факторами;

Отсутствие линейной взаимосвязи между факторами;

Наличие тесной взаимосвязи между факторами.

Фиктивные переменные включаются в уравнение множественной регрессии для учета действия на результат признаков …

Качественного характера;

Количественного характера;

Несущественного характера;

Случайного характера.

Из пары коллинеарных факторов в эконометрическую модель включается тот фактор,

Который при достаточно тесной связи с результатом имеет наибольшую связь с другими факторами;

Который при отсутствии связи с результатом имеет максимальную связь с другими факторами;

Который при отсутствии связи с результатом имеет наименьшую связь с другими факторами;

Который при достаточно тесной связи с результатом имеет меньшую связь с другими факторами.

Гетероскедастичность подразумевает …

Постоянство дисперсии остатков независимо от значения фактора;

Зависимость математического ожидания остатков от значения фактора;

Зависимость дисперсии остатков от значения фактора;

Независимость математического ожидания остатков от значения фактора.

Величина остаточной дисперсии при включении существенного фактора в модель:

Не изменится;

Будет увеличиваться;

Будет равно нулю;

Будет уменьшаться.

Если спецификация модели отображает нелинейную форму зависимости между экономическими показателями, то нелинейно уравнение …

Регрессии;

Детерминации;

Корреляции;

Аппроксимации.

Исследуется зависимость, которая характеризуется линейным уравнением множественной регрессии. Для уравнения рассчитано значение тесноты связи результативной переменной с набором факторов. В качестве этого показателя был использован множественный коэффициент

Корреляции;

Эластичности;

Регрессии;

Детерминации.

Строится модель зависимости спроса от ряда факторов. Фиктивной переменной в данном уравнении множественной регрессии не является _________потребителя.

Семейное положение;

Уровень образования;

Для существенного параметра расчетное значение критерия Стьюдента …

Больше табличного значения критерия;

Равно нулю;

Не больше табличного значения критерия Стьюдента;

Меньше табличного значения критерия.

Систему МНК, построенную для оценки параметров линейного уравнения множественной регрессии можно решить …

Методом скользящего среднего;

Методом определителей;

Методом первых разностей;

Симплекс-методом.

Показатель, характеризующий на сколько сигм изменится в среднем результат при изменении соответствующего фактора на одну сигму, при неизменном уровне других факторов, называется ____________коэффициентом регрессии

Стандартизованным;

Нормализованным;

Выровненным;

Центрированным.

Мультиколлинеарность факторов эконометрической модели подразумевает …

Наличие нелинейной зависимости между двумя факторами;

Наличие линейной зависимости между более чем двумя факторами;

Отсутствие зависимости между факторами;

Наличие линейной зависимости между двумя факторами.

Обобщенный метод наименьших квадратов не используется для моделей с _______ остатками.

Автокоррелированными и гетероскедастичными;

Гомоскедастичными;

Гетероскедастичными;

Автокоррелированными.

Методом присвоения числовых значений фиктивным переменным не является:

Ранжирование;

Присвоение цифровых меток;

Нахождения среднего значения;

Присвоение количественных значений.

Нормально распределенных остатков;

Гомоскедастичных остатков;

Автокорреляции остатков;

Автокорреляции результативного признака.

Отбор факторов в модель множественной регрессии при помощи метода включения основан на сравнении значений …

Общей дисперсии до и после включения фактора в модель;

Остаточной дисперсии до и после включения случайных факторов в модель;

Дисперсии до и после включения результата в модель;

Остаточной дисперсии до и после включения фактора модель.

Обобщенный метод наименьших квадратов используется для корректировки …

Параметров нелинейного уравнения регрессии;

Точности определения коэффициента множественной корреляции;

Автокорреляции между независимыми переменными;

Гетероскедастичности остатков в уравнении регрессии.

После применения обобщенного метода наименьших квадратов удается избежать_________ остатков

Гетероскедастичности;

Нормального распределения;

Равенства нулю суммы;

Случайного характера.

Фиктивные переменные включаются в уравнения ____________регрессии

Случайной;

Парной;

Косвенной;

Множественной.

Взаимодействие факторов эконометрической модели означает, что …

Влияние факторов на результирующий признак зависит от значений другого неколлинеарного им фактора;

Влияние факторов на результирующий признак усиливается, начиная с определенного уровня значений факторов;

Факторы дублируют влияние друг друга на результат;

Влияние одного из факторов на результирующий признак не зависит от значений другого фактора.

Тема Множественная регрессия (Задачи)

Уравнение регрессии, построенное по 15 наблюдениям, имеет вид:

Пропущенные значения, а также доверительный интервал для

с вероятностью 0,99 равны:

Уравнение регрессии, построенное по 20 наблюдениям, имеет вид:

с вероятностью 0,9 равны:

Уравнение регрессии, построенное по 16 наблюдениям, имеет вид:

Пропущенные значения, а также доверительный интервал для с вероятностью 0,99 равны:

Уравнение регрессии в стандартизированном виде имеет вид:

Частные коэффициенты эластичности равны:

Стандартизованное уравнение регрессии имеет вид:

Частные коэффициенты эластичности равны:

Стандартизованное уравнение регрессии имеет вид:

Частные коэффициенты эластичности равны:

Стандартизованное уравнение регрессии имеет вид:

Частные коэффициенты эластичности равны:

Стандартизованное уравнение регрессии имеет вид:

Частные коэффициенты эластичности равны:

По 18 наблюдениям получены следующие данные:

;
;
;
;

равны:

По 17 наблюдениям получены следующие данные:

;
;
;
;

Значения скорректированного коэффициента детерминации, частных коэффициентов эластичности и параметра равны:

По 22 наблюдениям получены следующие данные:

;
;
;
;

Значения скорректированного коэффициента детерминации, частных коэффициентов эластичности и параметра равны:

По 25 наблюдениям получены следующие данные:

;
;
;
;

Значения скорректированного коэффициента детерминации, частных коэффициентов эластичности и параметра равны:

По 24 наблюдениям получены следующие данные:

;
;
;
;

Значения скорректированного коэффициента детерминации, частных коэффициентов эластичности и параметра равны:

По 28 наблюдениям получены следующие данные:

;
;
;
;

Значения скорректированного коэффициента детерминации, частных коэффициентов эластичности и параметра равны:

По 26 наблюдениям получены следующие данные:

;
;
;
;

Значения скорректированного коэффициента детерминации, частных коэффициентов эластичности и параметра равны:

В уравнении регрессии:

Восстановить пропущенные характеристики; построить доверительный интервал для с вероятностью 0,95, еслиn=12

Для определения степени зависимости между несколькими показателями применяется множественные коэффициенты корреляции. Их затем сводят в отдельную таблицу, которая имеет название корреляционной матрицы. Наименованиями строк и столбцов такой матрицы являются названия параметров, зависимость которых друг от друга устанавливается. На пересечении строк и столбцов располагаются соответствующие коэффициенты корреляции. Давайте выясним, как можно провести подобный расчет с помощью инструментов Excel.

Принято следующим образом определять уровень взаимосвязи между различными показателями, в зависимости от коэффициента корреляции:

  • 0 – 0,3 – связь отсутствует;
  • 0,3 – 0,5 – связь слабая;
  • 0,5 – 0,7 – средняя связь;
  • 0,7 – 0,9 – высокая;
  • 0,9 – 1 – очень сильная.

Если корреляционный коэффициент отрицательный, то это значит, что связь параметров обратная.

Для того, чтобы составить корреляционную матрицу в Экселе, используется один инструмент, входящий в пакет «Анализ данных» . Он так и называется – «Корреляция» . Давайте узнаем, как с помощью него можно вычислить показатели множественной корреляции.

Этап 1: активация пакета анализа

Сразу нужно сказать, что по умолчанию пакет «Анализ данных» отключен. Поэтому, прежде чем приступить к процедуре непосредственного вычисления коэффициентов корреляции, нужно его активировать. К сожалению, далеко не каждый пользователь знает, как это делать. Поэтому мы остановимся на данном вопросе.


После указанного действия пакет инструментов «Анализ данных» будет активирован.

Этап 2: расчет коэффициента

Теперь можно переходить непосредственно к расчету множественного коэффициента корреляции. Давайте на примере представленной ниже таблицы показателей производительности труда, фондовооруженности и энерговооруженности на различных предприятиях рассчитаем множественный коэффициент корреляции указанных факторов.


Этап 3: анализ полученного результата

Теперь давайте разберемся, как понимать тот результат, который мы получили в процессе обработки данных инструментом «Корреляция» в программе Excel.

Как видим из таблицы, коэффициент корреляции фондовооруженности (Столбец 2 ) и энерговооруженности (Столбец 1 ) составляет 0,92, что соответствует очень сильной взаимосвязи. Между производительностью труда (Столбец 3 ) и энерговооруженностью (Столбец 1 ) данный показатель равен 0,72, что является высокой степенью зависимости. Коэффициент корреляции между производительностью труда (Столбец 3 ) и фондовооруженностью (Столбец 2 ) равен 0,88, что тоже соответствует высокой степени зависимости. Таким образом, можно сказать, что зависимость между всеми изучаемыми факторами прослеживается довольно сильная.

Как видим, пакет «Анализ данных» в Экселе представляет собой очень удобный и довольно легкий в обращении инструмент для определения множественного коэффициента корреляции. С его же помощью можно производить расчет и обычной корреляции между двумя факторами.

Первоначально в модель у включают все главные компоненты (в скобках указаны расчетные значения t -критерия):

Качество модели характеризуют: множественный коэффициент детерминации r = 0,517, средняя относительная ошибка аппроксимации = 10,4%, остаточная дисперсия s 2 = 1,79 и F набл = 121. Ввиду того что F набл > F кр =2,85 при α = 0,05, v 1 = 6, v 2 = 14, уравнение регрессии значимо и хотя бы один из коэффициентов регрессии - β 1 , β 2 , β 3 , β 4 - не равен нулю.

Если значимость уравнения регрессии (гипотеза Н 0: β 1 = β 2 = β 3 = β 4 = 0проверялась при α = 0,05, то значимость коэффициентов регрессии, т.е. гипотезы H 0: β j = 0 (j = 1, 2, 3, 4), следует проверять при уровне значимости, большем, чем 0,05, например при α = 0,1. Тогда при α = 0,1, v = 14 величина t кр = 1,76, и значимыми, как следует из уравнения (53.41), являются коэффициенты регрессии β 1 , β 2 , β 3 .

Учитывая, что главные компоненты не коррелированы между собой, можно сразу исключить из уравнения все незначимые коэффициенты, и уравнение примет вид

(53.42)

Сравнив уравнения (53.41) и (53.42), видим, что исключение незначимых главных компонент f 4 и f 5 , не отразилось на значениях коэффициентов уравнения b 0 = 9,52, b 1 = 0,93, b 2 = 0,66 и соответствующих t j (j = 0, 1, 2, 3).

Это обусловлено некоррелированностью главных компонент. Здесь интересна параллель уравнений регрессии по исходным показателям (53.22), (53.23) и главным компонентам (53.41), (53.42).

Уравнение (53.42) значимо, поскольку F набл = 194 > F кр = 3,01, найденного при α = 0,05, v 1 = 4, v 2 = 16. Значимы и коэффициенты уравнения, так как t j > t кр . = 1,746, соответствующего α = 0,01, v = 16 для j = 0, 1, 2, 3. Коэффициент детерминации r = 0,486 свидетельствует о том, что 48,6% вариации у обусловлено влияниемтрех первых главных компонент.

Уравнение (53.42) характеризуется средней относительной ошибкой аппроксимации = 9,99% и остаточной дисперсией s 2 = 1,91.

Уравнение регрессии на главных компонентах (53.42) обладает несколько лучшими аппроксимирующими свойствами по сравнению с регрессионной моделью (53.23) по исходным показателям: r = 0,486 > r = 0,469; = 9,99% < (х ) = 10,5% и s 2 (f) = 1,91 < s 2 (x) = 1,97. Кроме того, в уравнении (53.42) главные компоненты являются линейными функциями всех исходных показателей, в то время как в уравнение (53.23) входят только две переменные (x 1 и х 4 ). В ряде случаев приходится учитывать, что модель (53.42) трудноинтерпретируема, так как в нее входит третья главная компонента f 3 , которая нами не интерпретирована и вклад которой в суммарную дисперсию исходных показателей (x 1 , ..., х 5) составляет всего 8,6%. Однако исключение f 3 из уравнения (53.42) значительно ухудшает аппроксимирующие свойства модели: r = 0,349; = 12,4% и s 2 (f ) = 2,41. Тогда в качестве регрессионной модели урожайности целесообразно выбрать уравнение (53.23).

Кластерный анализ

В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому и основой всей дальнейшей работы с собранной информацией.

Традиционно эта задача решается следующим образом. Из множества признаков, описывающих объект, отбирается один, наиболее информативный, с точки зрения исследователя, и производится группировка данных в соответствии со значениями этого признака. Если требуется провести классификацию по нескольким признакам, ранжированным между собой по степени важности, то сначала осуществляется классификация по первому признаку, затем каждый из полученных классов разбивается на подклассы по второму признаку и т.д. Подобным образом строится большинство комбинационных статистических группировок.

В тех случаях, когда не представляется возможным упорядочить классификационные признаки, применяется наиболее простой метод многомерной группировки - создание интегрального показателя (индекса), функционально зависящего от исходных признаков, с последующей классификацией по этому показателю.

Развитием этого подхода является вариант классификации по нескольким обобщающим показателям (главным компонентам), полученным с помощью методов факторного или компонентного анализа.

При наличии нескольких признаков (исходных или обобщенных) задача классификации может быть решена методами кластерного анализа, которые отличаются от других методов многомерной классификации отсутствием обучающих выборок, т.е. априорной информации о распределении генеральной совокупности.

Различия между схемами решения задачи по классификации во многом определяются тем, что понимают под понятиями «сходство» и «степень сходства».

После того как сформулирована цель работы, естественно попытаться определить критерии качества, целевую функцию, значения которой позволят сопоставить различные схемы классификации.

В экономических исследованиях целевая функция, как правило, должна минимизировать некоторый параметр, определенный на множестве объектов (например, целью классификации оборудования может явиться группировка, минимизирующая совокупность затрат времени и средств на ремонтные работы).

В случаях когда формализовать цель задачи не удается, критерием качества классификации может служить возможность содержательной интерпретации найденных групп.

Рассмотрим следующую задачу. Пусть исследуется совокупность п объектов, каждый из которых характеризуется k измеренными признаками. Требуется разбить эту совокупность на однородные в некотором смысле группы (классы). При этом практически отсутствует априорная информация о характере распределения k -мерного вектора Х внутри классов.

Полученные в результате разбиения группы обычно называются кластерами* (таксонами**, образами), методы их нахождения - кластер-анализом (соответственно численной таксономией или распознаванием образов с самообучением).

* Clаster (англ.) - группа элементов, характеризуемых каким-либо общимсвойством.

**Тахоп (англ.) - систематизированная группа любой категории.

Необходимо с самого начала четко представлять, какая из двух задач классификации подлежит решению. Если решается обычная задача типизации, то совокупность наблюдений разбивают на сравнительно небольшое число областей группирования (например, интервальный вариационный ряд в случае одномерных наблюдений) так, чтобы элементы одной такой области находились друг от друга по возможности на небольшом расстоянии.

Решение другой задачи заключается в определении естественного расслоения результатов наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии.

Если первая задача типизации всегда имеет решение, то во втором случае может оказаться, что множество наблюдений не обнаруживает естественного расслоения на кластеры, т.е. образует один кластер.

Хотя многие методы кластерного анализа довольно элементарны, основная часть работ, в которых они были предложены, относится к последнему десятилетию. Это объясняется тем, что эффективное решение задач поиска кластеров, требующее выполнения большого числа арифметических и логических операций, стало возможным только с возникновением и развитием вычислительной техники.

Обычной формой представления исходных данных в задачах кластерного анализа служит матрица

каждая строка которой представляет результаты измерений k рассматриваемых признаков у одного из обследованных объектов. В конкретных ситуациях может представлять интерес как группировка объектов, так и группировка признаков. В тех случаях, когда разница между двумя этими задачами не существенна, например при описании некоторых алгоритмов, мы будем пользоваться только термином «объект», включая в это понятие и термин «признак».

Матрица Х не является единственным способом представления данных в задачах кластерного анализа. Иногда исходная информация задана в виде квадратной матрицы

элемент r ij которой определяет степень близости i -го объекта к j -му.

Большинство алгоритмов кластерного анализа полностью исходит из матрицы расстояний (или близостей) либо требует вычисления отдельных ее элементов, поэтому если данные представлены в форме X, то первым этапом решения задачи поиска кластеров будет выбор способа вычисления расстояний, или близости, между объектами или признаками.

Несколько проще решается вопрос об определении близости между признаками. Как правило, кластерный анализ признаков преследует те же цели, что и факторный анализ: выделение групп связанных между собой признаков, отражающих определенную сторону изучаемых объектов. Мерой близости в этом случае служат различные статистические коэффициенты связи.


Похожая информация.




Похожие статьи

© 2024 parki48.ru. Строим каркасный дом. Ландшафтный дизайн. Строительство. Фундамент.