<<
>>

4.1. Комбинация: нынешние и прошлые события (критерий «хи-квадрат» соответствия)

Данный способ широко применяется в тех случаях, когда нужно определить, является ли наш нынешний опыт (выраженный в частотах или процентах) типичным по отношению к прошлому опыту (набор так называемых опорных величин).

Такую ситуацию можно условно обозначить фразой «Это было недавно, а то было давно. Между ними есть соответствие?»

Тест «хи-квадрат» в отношении соответствия процентов используется для проверки гипотезы о том, что комбинация наблюдаемых частот или процентов (характеризующих одну качественную переменную) построена на данных из некоторой генеральной совокупности с уже известными значениями процентов (опорными величинами).

Можно сформулировать высказанные соображения и по-другому: те результаты, которые мы наблюдаем сейчас (фактические данные, т.е. наш нынешний опыт), по характеру аналогичны прошлым данным (опорным величинам). Это объясняется тем, что и те, и другие относятся к одной и той же генеральной совокупности, но извлекались в разное время (сейчас и когда-то давно).

Ожидаемое значение частоты для каждой категории рассчитывается как произведение заданного опорного значения процента в генеральной совокупности на размер выборки п. На основании имеющихся знаний о наблюдаемой ожидаемой частотах анализируемого события определяется собственно показатель хи-квадрат. Расчетное значение хи-квадрат затем сравнивают с критическим (табличным) показателем для соответствующего числа степеней свободы, который определяется как количество категорий минус единица.

Если оказывается справедливым неравенство /2расч > Хрит, то с заданной вероятностью (или уровнем значимости) можно утверждать, что наблюдаемые частоты (наш опыт) значимо отличаются от тех, которые ожидаются исходя из известных нам опорных значений процентов (частот). Следовательно, обоснованно можно делать вывод о том, что наблюдаемые выборочные проценты значимо отличаются от заданных опорных значений.

Если имеем соотношение /2расч < /2крит, то наблюдаемые значения незначительно отличаются от опорных показателей и, следовательно, наши фактические результаты не имеют значимых отличий от заданных опорных значений.

При выполнении такого анализа принято придерживаться следующего эмпирического правила: ожидаемые частоты в каждой категории должны быть, по крайней мере, не меньше пяти (поскольку критерий хи-квадрат остается приблизительной, а не точной оценкой).

Анализ критерия соответствия процентов (частот) удобно выполнять, придерживаясь следующей схемы.

Имеются табличные данные частот для каждой категории одной качественной переменной. Обсуждаются следующие гипотезы:

а) частоты (проценты) нынешнего опыта равны набору известных, фиксированных опорных величин (из прошлого опыта);

б) частоты (проценты) нынешнего опыта не равны набору опорных величин (данных прошлого опыта).

Ожидаемые частоты вычисляются так: нужно для каждой категории умножить известное значение ее доли в общем количестве (генеральной совокупности) на размер выборки п.

При этом предполагается, что а) набор данных представляет собой случайную выборку из рассматриваемой генеральной совокупности и б) ожидается наличие, по крайней мере, пяти объектов в каждой из категорий.

Анализ «хи-квадрат» проводится с использованием уже упомянутого выражения:

х2 = z -(f - f )2

Л

Степень свободы f рассчитывается так:

f = k-1,

где k - это число категорий, т.е. количество анализируемых параметров.

4. Интерпретация результата теста "хи-квадрат": наличие значимой связи отмечается тогда, когда расчетное значение "хи-квадрат " больше таб-

/22ч

личного или критического (т.е. х расч > X крит), в противном случае значимой связи нет.

Теперь приступим к конкретному анализу критерия соответствия частот и, самое главное, выясним, как такой расчет можно выполнить с использованием компьютерной программы Excel. Рассмотрим следующий пример.

Среди студентов металлургического факультета, сдававших на первом курсе в летнюю сессию экзамен по математике, был проведен опрос с целью выяснения того, какие факторы влияют на получение неудовлетво-рительной оценки.

Число опрошенных студентов составляло 50 человек. Наиболее часто упомянутыми причинами были следующие:

Сам виноват, нужно было лучше заниматься.

Я знал, да, видите ли, профессор был не в духе.

К сожалению, не удалось списать.

Сказалось влияние роковых примет (достался билет № 13, повстречал черного кота, забыл надеть «счастливый» свитер и проч.).

Эти ответы можно условно разделить на следующие категории:

Сам болван.

Вредный «препод».

Шпоры.

Черный кот.

В табл.11 приведены данные о причинах получения «неудов» по ма-тематике за прошедшую сессию, а также указаны значения опорных величин,

взятые из экзаменационных ведомостей по этому предмету за прошлые годы (по таким же категориям).

Как видно из данных таблицы, по количественным показателям все анализируемые причины формально отличаются от опорных значений. Однако это различие оказывается далеко неравноценным. Так, можно признать, что в категории самооценки («Сам болван») фактические данные отличаются от соответствующих опорных величин относительно слабо (например, 57 % по сравнению с 59 % для прошлых сессий). В то же время по другим категориям относительное различие выглядит более заметным. Особенно бросается в глаза несоответствие по позиции «Шпоры».

Таблица 11

Итоговые данные о причинах получения неудовлетворительной оценки по математике за анализируемую сессию и сессии прошлых лет Причина Наблюдаемые данные (за прошедшую сессию) Опорные значения, % (ожидаемые данные) Частота Процент от общего числа Сам болван 28 57,0 59,0 Вредный «препод» 10 19,0 14,0 Шпоры 7 14,0 20,0 Черный кот 5 10,0 7,0 Итого: 50 100 100 Вопрос заключается в том, значима ли эта разница? Иначе говоря, могут ли полученные по итогам прошедшей сессии «неуды» рассматриваться как результат извлечения случайной выборки из генеральной совокупности, в которой проценты «неудов» соответствуют опорным величинам? Или еще

по-другому: достаточно ли велика наблюдаемая разница, чтобы ее нельзя было объяснить только случайностью?

Тест хи-квадрат соответствия процентов позволит дать ответ на этот вопрос.

Утвердительное заключение получим при условии, когда окажется справедливым соотношение /2расч > /2крит- Его нужно будет истолковать так: результаты нынешней сессии и результаты прошлых сессий отличаются между собой принципиально, поскольку различие между ними не носит случайного характера.

Если окажется справедливым неравенство /2расч < Хрит, то с заданной вероятностью можно будет говорить о незначимости различия между анализируемыми результатами.

В табл.12 укажем частотные величины для обеих информационных позиций - текущие данные («Наблюдение») и сведения за прошлые годы («Ожидание»). Расчет частот для графы «Ожидание» (т.е. ожидаемые частоты) проведем путем умножения значений опорных величин процентов (59 %, 14 %, 20 % и 7 %) на размер выборки (n = 50). В результате получим следующие значения частот: 0,59x50 = 29,5; 0,14x50 = 7,0 и т.д. Заметим, что в итоговой строке для обеих колонок общая сумма частот одинакова - равна 50.

Таблица 12

Наблюдаемые и ожидаемые данные (частоты) о причинах неудовлетворительных отметок Причина Наблюдение Ожидание Сам болван 28 29,5 Вредный «препод» 10 7,0 Шпоры 7 10,0 Черный кот 5 3,5 Итого: 50 50,0

Эти данные и будем использовать для решения вопроса о значимом соответствии (или несоответствии) фактических и ожидаемых результатов. Воспользуемся для этого теми возможностями, которые предоставляет приложение Excel. Напомним, что нам для анализа нужно располагать величи-

2 2

нами х расч и х крит. Все эти характеристики вычисляются с помощью расторопного Excel.

Примечание. Вообще-то значения х крит, как обычно это делается при статистическом анализе, извлекаются из специальных таблиц, содержащих заранее рассчитанные эталонные значения этой характеристики (см. прил.5). Однако в нашем случае используем возможности Excel, поскольку подобную услугу он способен оказать совершенно элементарно.

Откроем лист Excel и составим нашу таблицу с имеющими данными (рис. 19). Пусть они будут находиться в диапазоне ячеек (вместе с названиями) B2:D6.

Пристроим к таблице еще одну графу (Е2:Е6), в которой, помимо заголовка, будут находиться расчетные значения хи-квадрат, вычисленные для каждой строки (т.е. для каждого анализируемого фактора).

Расчет проведем по уже известной формуле, запись которой представлена в виде:

ХИ2расч = Х(/Э - /Т)л2//Т,

где /Э и /Т - соответственно экспериментальные (наблюдаемые) и теоретические (ожидаемые) значения частот.

Чтобы выполнить расчет для данных первой строки, выделим ячейку Е3 и в строке формул запишем = (C3-D3^2/D3. Полученный результат расчета появится в этой ячейке. С округлением до третьего знака это составит 0,076. Аналогичные вычисления проделаем для остальных позиций. Для этого вновь выделим ячейку Е3 и протянем Маркер заполнения (маленький квадратик в правом нижнем углу) вдоль всей графы вниз - во всех соответствующих ячейках будут содержаться готовые расчетные значения хи-квадрат.

Просуммируем эти данные, получим величину 2,905. Это и есть наш расч-

искомыи х Е Microsoft ExceL - Хи-квадрат. xls

[jlPl Файл Правка Вид Вставка Формат Сервис Данные Окно Справка

? say лие-^ «- % f~ е -si 2i т | ш

Arial - ю - ж К Ч Ш S т Ц Ш % ООО td8 В *=F +=F

К25 -г f* А В С D Е F G h 1 2 Причина Набл-ние Ожид-е ХИ2расч 3 Сам болван 28 29,5 0,076 4 Вредный "препод" 10 7 1,286 5 Шпоры 7 10 0,900 6 Черный кот 5 3,5 0,643 7 Сумма= 2,905 8 9 10 11 ХИ2крнт 7,815 № Г 12 13 Результат ХИ2-теста 0,407 14 15 16 а ХИ2крит 17 0,05 7,815 18 0,1 6,251 19 0,2 4,642 20 0,3 3,665 21 0,4 2,946 22 0,407 2,902 23 0,41 2,883 24 Рис.19. Фрагмент рабочего листа Excel с исходными данными и результатами анализа хи-квадрат

Теперь займемся вычислением показателя х2крит. Для этого применим функцию ХИ2ОБР. Для ее запуска предназначена специальная программа. Воспользуемся Мастером функций.

Поступим следующим образом:

выделим ту ячейку, в которой должен находиться получаемый ре-зультат;

активизируем Мастер функций кнопкой fx;

в появившемся диалоговом окне выберем нужную категорию из имеющегося списка и укажем опцию Статистические;

затем отыщем собственно нужную нам функцию Хи2обр, после чего нажмем на кнопку ОК.

На экране появится диалоговое окно для ввода параметров, необходимых для вычисления критического (табличного) значения хи-квадрата (рис.20). В первом текстовом поле ввода (Вероятность) укажем выбранную величину уровня значимости а. Примем традиционный показатель степени риска, равный 0,05.

Во втором поле ввода (Степени свободы) запишем число степеней свободы. В нашем примере фигурируют четыре компонента (причины "неудов"), поэтому число степеней свободы составит: f = k -1 = 4 - 1 = = 3.

После нажатия на кнопку ОК в выбранной нами ранее ячейке (Е11) появится значение х крит, равное 7,815 (после надлежащих округлений).

Рис.20. Диалоговое окно ввода параметров для определения критического(табличного) значения хи-квадрат

Вот с этим-то числом нам и нужно теперь сравнить расчетное значе-

2 2 2 ние х расч. Поскольку выполняется неравенство х расч < X крит (2,905 < 7,815),

то с вероятностью 95 % можно утверждать, что наблюдаемые (фактические)

показатели незначимо отличаются от ожидаемых (опорных) значений.

Анализ хи-квадрат в режиме Excel можно выполнить и по-другому, с использованием так называемого хи-теста. Функция ХИ2ТЕСТ позволяет определить вероятность того, является ли различие между наблюдаемыми и ожидаемыми значениями статистически значимым результатом.

Покажем это на нашем примере.

Для этого вновь действуем с помощью Мастера функций:

выделяем ячейку (допустим Е13), в которой должен находиться получаемый результат;

активизируем Мастер функций;

в диалоговом окне выбираем нужную категорию и указываем опцию Статистические;

отыскиваем функцию Хи2тест, после чего нажимаем на кнопку ОК.

Рис.21. Диалоговое окно ввода параметров для определения расчетногозначения хи-квадрат В появившемся диалоговом окне (рис.21) нужно заполнить текстовые поля, в которых следует указать имеющиеся данные, относящиеся к фактическим и ожидаемым результатам. Напомним, эти данные занимают соответственно ячейки C3:C6 и D3:D6.

Кстати, после введения интервальных ячеек справа от каждого поля ввода в скобках будут перечислены те табличные значения, которые содержались в соответствующих столбцах (рис.21). Там же в окне можно будет прочитать и полученное расчетное значение уровня значимости, равное 0,406530471. А после нажатия на клавишу ОК этот результат будет помещен в выделенную нами ячейку.

Проведем округление полученного результата до третьего знака после запятой и в окончательном виде получим 0,407. Теперь попытаемся обсудить полученные данные.

Указанное число показывает: гипотеза о том, что результаты нынешней сессии отличаются от итогов прошлых лет, высказывается с риском допустить ошибку на 40,7 %. И напротив, почти с вероятностью 60 % можно говорить о том, что различие между этими данными несущественное.

Как же следует толковать данные анализа хи-квадрат, исполненные

2 2

обоими способами (сравнением х расч и х крит, а также применением функции хи2-тест)? Покажем, что оба подхода идентичны.

1. Нами сделано заключение о статистической неразличимости наблюдаемых и ожидаемых результатов на основании сопоставления значений

2 2

X расч (2,905) и х крит(7,815). Напомним, что этот вывод был сделан для уровня значимости а = 0,05 (т.е. для 5-процентной степени риска). Теперь попытаемся выяснить, при каких же условиях можно отважиться на утверждение, что экзаменационные данные нынешней и прошлых сессий (по характеру рассматриваемых факторов влияния на их итоги) все-таки разнятся. Иными словами, определим, когда можно считать, что эти данные являются извлечением не из одной и той же генеральной совокупности, а принадлежат к совершенно различным массивам.

Для этого, используя функцию ХИ2ОБР, рассчитаем значения х крит для различных уровней значимости, постепенно повышая вероятность допустить ошибочный прогноз (увеличивая а). На рабочем листе Excel (рис.19) в виде списка приведены полученные значения х2крит для а, равного соответственно 0,05; 0,1; 0,2 и т.д. Закончим расчет и для случая а = 0,407 и 0,41. Почему надо учесть именно эти числа, обусловлено следующим.

Наше расчетное значение х2расч (2,905) окажется превышающим х2крит

(2,902), когда а будет больше 0,407. Например, для а = 0,41 уже можно опре-

2 2

деленно говорить, что условие х расч > х крит (2,905 > 2,883) выполняется. Поэтому допустимо утверждение, что обе рассматриваемые совокупности являются различными.

2. Теперь дадим оценку только что сделанному заявлению. Прелесть статистики состоит в том, что она любое утверждение дает с определенной гарантией надежности, т. е. страхуется от проявления возможных случайностей (погрешностей). Совершенно недостаточно высказать какое-то соображение. Обязательно также определить, с какой степенью вероятности (или уровнем риска впасть в ошибку) оно формулируется.

Когда мы заявили, что влияние рассматриваемых факторов на итоги прошедшей сессии и сессий прошлых лет различаются, то сделали это с риском оказаться неправыми почти на 41 %! Совершенно чудовищная степень ошибочности утверждения! Кто всерьез примет в расчет такое мало обоснованное соображение?

Поэтому в ситуациях, когда мы должны высказывать суждения с достаточной степенью надежности (обычно при а = 0,05, а еще лучше 0,01), величина порогового (критического) значения х2 имеет очевидную тенденцию к возрастанию. А это означает, при разумном объеме единиц наблюдения (в данном случае это студенты, большие знатоки математической науки) мы можем говорить лишь о незначимости рассматриваемых итогов. Чтобы все- таки обнаружить подобное возможное различие, следовало бы провести более масштабное по охвату обследование. Однако можно утешиться тем об-стоятельством, что проделать всю эту процедуру весьма проблематично вследствие недостаточного числа (смеем надеяться!) физически наличествующих двоечников.

Итак, резюме. Для обсуждаемого примера можно заключить, что «неуды» по математике, полученные в прошедшую сессию, по характеру причин (в интерпретации самих студентов) соответствуют тем же показателям, что случались и в прошлые годы. Имеющиеся расхождения обусловлены только лишь случайностью (для выборки размером 50). У нас нет убедительных причин полагать, что воздействующие прискорбные факторы как-то принципиально изменились (т.е. как было раньше, так и осталось нынче) и повлияли на результативность сдачи экзамена. По-прежнему доминирующей причиной остается собственная нерадивость студентов, а изменения остальных факторов вполне укладываются в границы случайных колебаний. Так что в этом отношении у деканата и методической комиссии факультета нет повода для беспокойства.

<< | >>
Источник: Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием программы Excel. 2005

Еще по теме 4.1. Комбинация: нынешние и прошлые события (критерий «хи-квадрат» соответствия):

  1. Словарь
  2. 4.1. Комбинация: нынешние и прошлые события (критерий «хи-квадрат» соответствия)
  3. 4.3. Проверка наличия взаимосвязи между двумя качественными переменными (критерий «хи-квадрат» независимости)
  4. § 3. Признаки и критерии несостоятельности 1. Понятие признаков и критериев несостоятельности
  5. § 1. Содержание теории криминалистического прогнозирования
  6. 4. Критерии создания муниципальных образований
  7. § 2. Предмет и система теории оперативно-розыскной деятельности
  8. С.
  9. Психология реконструкции события преступления.
  10. 12.1. Психология реконструкции события преступления
  11. 3.3. Экономические и юридические институты
  12. 2.3.5. Критерий обобщенного максимина (пессимизма-оптимизма) Гурвица