Учебное пособие: Корреляционно-регрессионный анализ
Тема 6. Корреляционно-регрессионный анализ
Цель: изучение видов взаимосвязей явлений (функциональная, корреляционная); видов корреляционной зависимости; способов определения тесноты связи; усвоение смысла показателей регрессии.
После изучения вы сможете: определять силу тесноты связи между социально – экономическими показателями, давать интерпретацию параметров управления регрессии.
Информационные источники:
1. Курс теории статистики: Учебник/Под ред. В.Н. Салина, Э.Ю. Чурикова. – М.: Финансы и Статистика, 2006.
2. Годин А.М. Статистика: Учебник. – М.: Дашков и К’, 2008.
3. Статистика: Учебник/Под ред. И.И. Елисеевой. – М.: Крокус, 2008
4. Теория статистики: Учебник/Под ред. Г.П. Громыко. – М.: ИНФРА-М, 2000.
5. Галкина В.А. Статистика: Учебное пособие: М.: РГАЗУ,2002.
Содержание темы: исследование объективно существующих связей; количественные оценки тесноты связи; регрессионный анализ; показатели тесноты связи (параметрические, ранговые).
Корреляционно–регрессионный анализ
При статистических исследованиях корреляционных связей одной из главных задач является определение формы корреляционной связи, т.е. построение модели связи.
Для аналитических целей корреляционную связь представляют при помощи математических функций, т.е. придают ей функциональную форму. Под формой связи понимают тенденцию, которая проявляется в изменении результативного признака в связи с изменением признака-фактора.
Построение и анализ корреляционной модели связи осуществляются с помощью корреляционно-регрессионного анализа, который состоит из следующих этапов:
¾ предварительного априорного анализа;
¾ сбора информации и ее первичной обработки;
¾ построения модели (уравнения регрессии);
¾ оценки и анализа модели.
Все этапы связаны между собой, границы их часто переплетаются и носят условный характер.
Форма корреляционной связи может быть выражена различными математическими функциями. Выбор формы связи решается на основе теоретического анализа существа изучаемых явлений и исследования эмпирических данных.
Эмпирическое исследование формы связи включает построение графиков корреляционных полей, эмпирических линий регрессии, а также анализ параллельных рядов. Изучение эмпирического материала дает возможность установить направление и форму связи.
Для определения видов функции необходимо применять комплекс приемов: экономический, логический, графический и математический.
Линейная форма связи может быть выражена уравнением прямой:
yх=a0+a1х (1.8.1)
Нелинейная форма связи показана:
1) уравнением параболы второго порядка
ух=a0+a1х+а2 х2(1.8.2)
2) уравнением гиперболы
yх=a0+ (1.8.3)
3) показательной функцией
yх=a0+a1х (1.8.4)
4) степенной функцией
yх=a0× (1.8.5)
и другими функциями.
Главной проблемой при построении модели связи является определение вида аналитической функции, которая отразит механизм связи между факторным и результативным признаками и даст количественную оценку этой связи.
Наиболее часто для определения формы корреляционной связи используют уравнение прямой
yх=a0+a1х
где ух - теоретические значения результативного признака;
х - факторный признак;
а0 и а1, - параметры уравнения связи.
Уравнением связи называется уравнение регрессии, а анализ, производимый с помощью уравнения регрессии, называется регрессионным анализом.
После установления вида функции для модели связи определяются параметры уравнения регрессии а0 и а1. Параметры уравнения регрессии определяются методом наименьших квадратов, суть которого состоит в том, что теоретическая линия регрессии должна быть проведена так, чтобы сумма квадратов отклонений эмпирических данных от теоретических была величиной минимальной. Исчисляя первые производные по а0 и а1 от функции Σ(у -а0 –а1х)2 —> min и приравнивая их к нулю, получаем систему нормальных уравнений вида:
|
Решая систему нормальных уравнений, определяем параметры а0 и а1 :
Параметр а1 называется коэффициентом регрессии и показывает изменения результативного признака при изменении факторного признака на единицу. Параметр а0 не имеет экономического содержания, так как может принимать отрицательные значения.
Очень часто исследуемые признаки имеют разные единицы измерения, поэтому для оценки влияния факторного признака на результативный применяется коэффициент эластичности. Он вычисляется для каждой точки и в среднем для всей совокупности.
Теоретический коэффициент эластичности вычисляют по формуле:
(1.8.7)
где - первая производная уравнения регрессии ух
Средний коэффициент эластичности для уравнения прямой вычисляется так:
Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак при изменении факторного признака на один процент.
Рассмотрим расчет параметров уравнения прямой в табл. 1.8.1.
корреляционный регрессионный дисперсия
Таблица 1.8.1
Основные фонды и выпуск продукции 44 предприятий
Исходные данные | Расчетные данные | |||||||
Номер предприятия |
Среднегодовая стоимость основных производственных фондов (х), м |
Выпуск продукции (у), тыс. т |
ху |
х2 |
ух |
(у-ух)2 |
(у-)2 |
(х-)2 |
1 | 11,6 | 1,4 | 16,24 | 134,56 | 3,24 | 3,39 | 24,01 | 630,01 |
2 | 23,3 | 3,6 | 83,88 | 542,89 | 4,65 | 1,1 | 7,29 | 179,56 |
… | … | … | … | … | … | … | … | … |
44 | 30,0 | 8,0 | 240,0 | 64,0 | 5,44 | 6,55 | 2,89 | 44,89 |
Итого | 1615 | 277 | 11792 | 72675 | 277 | 251,2 | 449,16 | 13337,1 |
В среднем | 36,7 | 6,3 | 5,66 | 10,2 | 303,11 |
Предположим, что форму связи между размером фондов и объемом произведенной продукции можно выразить в виде уравнения прямой:
yх=a0+a1х
где ух - выпуск продукции;
х - основные фонды.
Для определения параметров уравнения регрессии построим систему нормальных уравнений (1.8.6). Для решения системы вычислим значения Σу, Σх, Σх2, Σ ух (см. табл. 1.8.1).
Система нормальных уравнений имеет вид:
277 - 44ао +1615а1;
11792 - 1615ао + 72675а1.
Решая систему нормальных уравнений, определим значения а0 и а1:
а0 = 1,84; а1 = 0,12.
Уравнение регрессии, характеризующее зависимость произведенной продукции от основных фондов, имеет вид:
ух = 1,84+ 0,12 х.
Параметр а1 = 0,12 показывает, что с ростом основных фондов на 1 тыс. руб. объем произведенной продукции увеличится на 0,12 т.
Вычислим коэффициент эластичности (по формуле 1.8.8):
Э=0,12´(36,7 / 6,3) = 0,7
Коэффициент эластичности показывает, что с ростом основных фондов на 1% объем произведенной продукции увеличится на 0,7%.
Подставляя в уравнение регрессии значения факторного признака, найдем теоретические значения объема произведенной продукции ух (см. табл. 1.8.1).
Уравнение регрессии имеет практическое значение. Сравнивая фактический объем продукции у отдельных предприятий с теоретическим, мы получаем возможность его оценки с точки зрения средних условий существующих в данной совокупности предприятий. Регрессионную модель можно использовать для прогноза выпуска продукции в зависимости от изменения основных фондов тогда, когда не изменяются условия формирования уровней исследуемого признака.
Измерение тесноты корреляционной связи. Важное место в анализе регрессионной модели занимает оценка тесноты корреляционной связи между изучаемыми признаками.
Для измерения тесноты корреляционной связи между признаками при линейной форме связи применяется линейный коэффициент корреляции:
(1.8.9)
Он изменяется в пределах от -1 до +1 и показывает тесноту и направление корреляционной связи. Чем ближе коэффициент корреляции к 1 (по модулю), тем связь теснее. Отрицательное значение свидетельствует об обратной связи между признаками. Коэффициент корреляции можно вычислять и по формулам:
(1.8.10
(1.8.11)
При любой форме связи для измерения тесноты корреляционной связи применяются теоретическое корреляционное отношение и индекс корреляции. Теоретическое корреляционное отношение определяется по формуле:
(1.8.12)
,где ή - теоретическое корреляционное отношение.
Факторная дисперсия, характеризующая вариацию результативного признака под влиянием вариации признака-фактора определяется по следующей формуле:
Общая дисперсия, характеризующая вариацию результативно- го признака под влиянием всех факторов, вызывающих эту вариацию, определяется по формуле
Представим индекс корреляции:
(9.13)
Остаточная дисперсия, характеризующая вариацию результативного признака под влиянием прочих неучтенных факторов, определяется по формуле
Индекс корреляции и теоретическое корреляционное отношение изменяются от 0 до 1 и показывают не только тесноту связи, но и степень пригодности подобранных функций связи.
ή, R - называются коэффициентами детерминации, которые показывают долю вариации результативного признака под влиянием вариации признака-фактора. Коэффициент детерминации используют в качестве критерия оценки подбора наилучшей модели связи.
Показатели тесноты корреляционной связи используются не только для оценки уже построенной модели связи (уравнения регрессии), но и для выбора оптимального варианта формы связи. Если теоретический анализ не дает возможности дать однозначный ответ о форме связи, то необходимо строить уравнения регрессии с различными формами связи - линейные и нелинейные. Оценка пригодности модели связи осуществляется путем анализа коэффициента детерминации или индекса корреляции. Наилучшей считается модель с наибольшими значениями этих показателей.
При линейной форме связи теоретическое корреляционное отношение и линейный коэффициент корреляции равны.
Измерим тесноту корреляционной связи между основными фондами и выпуском продукции линейным коэффициентом и индексом корреляции (формулы (1.8.11), (1.8.13)).
Необходимые для расчета этих показателей данные представлены в табл. 1.8.1.
а1, =0,12;
=10,2;
σу = = 3,19;
=5,66;
r=0.12×(17,41 / 3,19) = 0,66
Все исчисленные показатели показывают тесную корреляционную связь между основными фондами и выпуском продукции. Коэффициент детерминации R2 = 0,44 свидетельствует о том, что вариация выпуска продукции на 44% объясняется вариацией основных фондов, а на 56% прочими факторами.
Так как линейный коэффициент корреляции равен индексу корреляции, можно сделать заключение, что связь между основными фондами и выпуском продукции линейная, т.е. форма связи подобрана правильно.