Примеры обработки данных в пакете STATISTICA

Учебно-методическое пособие подготовлено на кафедре уравнений в частных производных и теории вероятностей математическог

366 110 3MB

Russian Pages 55

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Примеры обработки данных в пакете STATISTICA

  • Commentary
  • decrypted from 398FC521E5E7922C1FBA2F85F17FD592 source file
Citation preview

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

МИНОБРНАУКИ РОССИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ “ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ” (ФГБОУ ВПО «ВГУ»)

          Примеры обработки данных в пакете STATISTICA Учебно-методическое пособие для вузов                                                  Составители: С.А.Ткачева                                                                       Воронеж 2014  

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

2   

  Утверждено научно-методическим советом математического факультета 06.06.2014 года протокол № 0500-06       Рецензент: к.ф.-м. н., доц. Бурлуцкая М.Ш.  

      Учебно-методическое пособие подготовлено на кафедре уравнений в частных производных и теории вероятностей математического факультета Воронежского государственного университета

Рекомендуется для студентов 2 курса дневной формы обучения исторического факультета, обучающихся по специальности: 040200 – социология  

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

3   

1. Подготовительные этапы статистического исследования Выборочный метод Задача построения выборки возникает всякий раз, когда необходимо собрать информацию о некоторой группе или большой совокупности людей. Выборку в той или иной форме используют в ориентированных на «жесткие» статистические методы опроса. В исследованиях политических и культурных элит и даже при отборе «случаев» для включенного наблюдения и качественного анализа. Выборка – это подмножество заданной совокупности (популяции), позволяющее делать более или менее точные выводы относительно совокупности в целом. Зачем нужно строить выборки? Прежде всего, из практических соображений, так как выборка значительно экономит средства. Проведение полномасштабной переписи или сплошного опроса населения требует значительных финансовых и трудовых затрат, которые к тому же могут оказаться напрасными, если в разработке методики исследования были допущены принципиальные просчеты. Другая причина заинтересованности в выборках связана с тем, что выборочная процедура представляет собой удобную и экономичную форму индуктивного вывода. Третья причина заключается в том, что эта процедура реализует фундаментальный принцип рандомизации, то есть случайного отбора. Поэтому наилучшей моделью отбора считается вероятностная или случайная выборка, в которой строго соблюдается принцип равенства шансов попадания в выборку для всех единиц изучаемой совокупности и для любых последовательностей таких единиц. Переписью называют процедуру сбора информации о каждом члене изучаемой группы или популяции. Все члены интересующей исследователя группы (популяции) составляют генеральную совокупность. Выборочная процедура обеспечивает обоснованность и «законность» выводов о генеральной совокупности, сделанных на основании небольшой выборки. Выборочную ошибку определяют как расхождение между оценкой некоторого показателя, получаемого на основании исследования выборки и истинным значением этого показателя в генеральной совокупности. Процедура построения простой случайной выборки включает в себя следующие шаги:

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

4   

1)

определение полного списка членов генеральной совокупности (такой список называют основой выборки); 2) определить предполагаемый объем выборки, то есть ожидаемое число опрошенных; 3) извлечь из таблицы случайных чисел столько чисел, сколько требуется выборочных единиц. Если в выборке должно оказаться 100 человек, то из таблицы берут 100 случайных чисел; 4) выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам. Пример. Построить случайную выборку объемом 12 человек из совокупности, содержащей 60 членов, для определения возможного влияния энергетической ценности рациона питания на академическую успеваемость. В качестве основы выборки используем список всех 60 студентов. Присвоим всем студентам в списке двузначные номера – от «01» до «60» Последовательно выпишем двенадцать двузначных чисел из таблицы случайных чисел ( при работе с ПК вместо таблицы можно воспользоваться генератором случайных чисел, имеющимся в большинстве статистических программ ). Чтобы определить, с какого места в таблице начинать отсчет номеров, достаточно задать произвольные номер строки и столбца. Для примера начнем с пересечения второй строки и третьего столбца, при попадании числа, превосходящего значение 60, пропускаем эти числа. В результате получим последовательность: 51, 32, 41, 15, 09, 49, 10, 04, 06, 38, 27, 07. Далее, выпишем из списка-основы фамилии, стоящие под этими номерами. Систематическая выборка по качеству приближается к простой случайной. Она требует полного списка или заданного упорядочения совокупности. Сначала случайным образом отбирается первая единица, затем отбору подлежит каждый k-й элемент. Число k в данном случае называют шагом отбора. Можно, например, отбирать каждый 25-й или 200-й элемент. Чтобы определить шаг отбора, нужно поделить известный объем генеральной совокупности N на предполагаемый объем выборки n.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

5   

Пусть, например. Нужно отобрать 200 человек из 20000 владельцев телефонов: 1) 2)

определим шаг отбора: N/n=20000:200=100; с помощью таблицы случайных чисел найдем первую выборочную единицу, если выпал номер «053», т из списка владельцев телефонов выпишем того, кто значится под этим номером; 3) с установленным шагом отбираем номера: 153, 253, 353, 453 и т.д., до исчерпания списка. Стратифицированный отбор и, соответственно, стратифицированная выборка, используются в тех случаях, когда из каких то содержательных соображений важно обеспечить представительность вероятностной выборки по конкретным важным для исследовательских целей критериям. Диаграммы, частоты и описательные статистики В выборочном социологическом исследовании случайная величина предстает перед социологом в виде признака, для каждого значения которого (а таких значений – конечное количество) известна относительная частота его встречаемости. Эта частота интерпретируется как выборочная оценка соответствующей вероятности. Совокупность частот встречаемости всех значений признака, соответственно, трактуется как выборочное представление функции плотности того распределения вероятностей, которое и задает изучаемую случайную величину. Подчеркнем, что пока речь идет об одномерной случайной величине (ниже, переходя к оценке вероятностей встречаемости сочетаний значений разных признаков, мы тем самым перейдем к многомерным случайным величинам). Пусть, например, вопрос в используемой социологом анкете звучит: “Какова Ваша профессия?” и сопровождается 5-ю вариантами ответов, закодированных числами от 1 до 5. Вместо процентов могут фигурировать доли: 20% заменится на 0,2, 15 - на 0,15 и т.д. (в случае такой замены мы получим числа, конечно, в большей степени похожие на вероятности, поскольку величина вероятности, как известно, изменяется от 0 до 1). Рассмотрим проблемы, которые возникают при построении одномерных частотных таблиц. Будем учитывать тип шкалы, по которой получаются значения признака, рассмотрим номинальные, порядковые, интервальные шкалы. Дело в том, что продолжая считать номинальные данные основным

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

6   

объектов нашего изучения, мы не можем полностью отвлечься от других шкал. Причин тому несколько. Во-первых, соответствующие положения фактически задействованы (иногда в неявном виде) почти во всех методах анализа, в том числе и рассчитанных на номинальные данные. Во-вторых, хотя номинальные данные являются основным предметом изучения социолога, решение большинства задач эмпирической социологии требует “увязки” процесса такого изучения с анализом данных, полученных по шкалам высоких типов. Объясняется это тем, что именно по таким шкалам измеряются столь важные для социолога характеристики респондентов, как возраст респондента, его зарплата и т.д. Поэтому строить курс анализа данных вообще без упоминания методов изучения “числовой” информации представляется нецелесообразным. В-третьих, хотя в литературе имеется немало работ с описанием методов статистического анализа “числовых” данных, однако при этом не всегда достаточно подробно анализируются многие их аспекты, важные для социолога-практика (например, редко затрагивается проблема разбиения диапазона изменения признака на интервалы или проблема пропущенных значений). Мы постараемся ликвидировать этот пробел хотя бы для наиболее часто используемых социологом методов – вычислении мер средней тенденции и разброса для вероятностных распределений. В социологической практике интервальность шкалы обычно сопрягается с ее непрерывностью, т.е. с предположением о том, что в качестве значения интервального признака в принципе может выступить любое действительное число, любая точка числовой оси. Переходя к описанию выборочного представления функции распределения или функции плотности распределения, прежде всего отметим, что непрерывную кривую в выборочном исследовании нельзя получить никогда. Здесь мы не можем иметь, скажем, линию, похожую на известный “колокол” нормального распределения. Причина ясна: наша выборка конечна. Даже если в генеральной совокупности распределение, к примеру, нормально, а выборка - репрезентативна, мы вместо “колокола” получим лишь некоторое его подобие, составленное, например, из отрезков, соединяющих отдельные точки полигон распределения. Заменяющая непрерывное распределение ломаная

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

7   

линия может состоять также из “ступенек”, в таком случае она называется гистограммой распределения. В математической статистике доказано, что при больших объемах выборки и достаточно мелком разбиении и гистограмма, и полигон достаточно хорошо приближают функцию плотности распределения (причем полигон делает это несколько лучше). 2. Примеры обработки данных в пакете STATISTICA STATISTICA представляет собой интегрированную систему статистического анализа и обработки данных. Она состоит из 5 компонентов: 1) электронных таблиц для ввода и задания исходных данных, а также специальных таблиц для вывода результатов статистического анализа; 2) графической системы визуализации данных и результатов статистического анализа; 3) набора статистических модулей, в которых собраны группы логически связанных между собой статистических процедур; 4) специального инструментария для подготовки отчетов; 5) встроенных языков программирования, позволяющих расширить стандартные возможности системы. В любом конкретном модуле можно выполнить определенный способ статистической обработки, не обращаясь к процедурам других модулей. Переключаться между модулями можно как между обычными Windowsприложениями, выбирая их на панели переключателей модулей щелчком мыши. 1. Инструменты для работы с данными Данные в STATISTICA организованы в виде электронной таблицы. Таблица с исходными данными является одним из типов документов в системе STATISTICA (таблицы хранятся в файлах с расширением *.sta). Каждый тип документа выводится в своем окне в рабочей области системы. Как только окно становится активным, изменяется панель инструментов и меню. В нем появляются команды, доступные только для этого типа документов. 2. Структура электронной таблицы Исходные данные организованы в виде таблицы. Электронная таблица состоит из строк и столбцов. Столбцы называются Variables (переменные), а строки  Cases (случаи, наблюдения). Каждая переменная имеет свое имя,

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

8   

формат и другие атрибуты, задаваемые пользователем. Результаты наблюдений записываются в строках таблицы. Нулевой столбец (по умолчанию содержит номера наблюдений) может содержать имена случаев. Электронная таблица с исходными данными в STATISTICA называется Spreadsheet. Для удобства работы с переменными, принимающими текстовые значения реализован механизм двойной записи. Каждому текстовому значению переменной ставится в соответствие некоторое числовое значение. Может быть установлено автоматически или определено пользователем. При работе с данными всегда можно переключиться с текстовой на числовую форму просмотра исходных данных. Data→ Text Labels Editor (редактор текста ярлыков) в поле Text Label вводить текстовое значение, в поле Numeric – численное значение ( например: 0 или 1), в поле Description(описание) вводится пояснительный текст. При работе с реальными данными часто приходится иметь дело с ситуациями, когда часть данных не была по каким-либо причинам измерена. В этом случае в соответствующую ячейку электронной таблицы не вноситься никакое значение. Ячейка остается пустой. Однако при внутреннем хранении данных STATISTICA приписывает всем пустым ячейкам – пропущенным наблюдениям данных специальный код Missing Data Code (код пропущенных данных). Код пропущенных данных устанавливается в спецификации переменной. Значение этого кода по умолчанию равно 9999. Пользователь всегда может установить другое значение этого кода для каждой конкретной переменной. Способ, которым пропущенные данные обрабатываются при статистическом анализе, может корректироваться индивидуально для каждого вида анализа. Обычно он может быть установлен из стартовой панели каждого модуля. Пользователь может устранить данные из вычислений, заменив их средним значением или интерполировать их. Для замены данных их средними значениями в меню Data выбрать команду Replase Missing Data (замена пропущенных данных на средние). Cоздание файла данных Пример 1. Создать файл Gemat.sta 6v*15c с результатами воздействия лекарства «каптоприл» на кровяное давление. Исходные данные содержатся в таблице. Таблица. Кровяное давление (в мм. ртутного столба) до и после приема каптоприла

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

9    Номер пп Кровяное давление 1 2 3 4 5 6 ниж до ниж пос разность верх до верх пос разность 1 210 201 -9 130 125 -5 2 169 165 -4 122 121 -1 3 166 -21 124 121 -3 187 4 157 -3 104 106 2 160 5 147 -20 112 101 -11 167 6 145 -31 101 85 -16 176 7 185 168 -17 121 98 -23 8 206 180 -26 124 105 -19 9 173 147 -26 115 103 -12 10 146 136 -10 102 98 -4 11 151 -23 98 90 -8 174 12 -33 119 98 -21 201 168 13 179 -19 106 110 4 198 14 129 -19 107 103 -4 148 15 131 -23 100 82 -18 154

Шаг 1. Создание электронной таблицы Выберите команду New(NewData)(Новый(Новые данные)) из меню File(Файл). В выпадающем окне Create New Document (Создать новый документ) выбрать кнопку Spreadsheet. На экране появится пустая электронная таблица размером 10*10. Если выделить вкладки Report, Macro, Workbook, то можно создать соответственно отчет, рабочую книгу, макрос. Шаг 2. Настройка размеров таблицы Для данных требуется 6 столбцов и 15 строк. Нужно удалить лишние 4 переменные и добавить 5 случаев. Нажмите кнопку Vars(Переменные) на панели инструментов и выберите команду Delete(Удалить). В диалоговом окне Delete Variables(Удаление переменных) укажите диапазон удаляемых переменных. From variable: VAR 7 (Начиная с переменной VAR 7). To Variable: VAR10 (По переменную VAR10). OK. Далее нужно к указанным 10 случаям (Cases) добавить5. Нажмите кнопку Cases(Случаи) на панели инструментов и выберите команду Add(Добавить). В появившемся окне сделайте установки: Number of Cases to Add: 5 (5 случаев). Insert After Case: 10 (После случая: 10) Шаг 3. Оформление заголовка таблицы

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

10   

Кликните на белом фоне в таблице под строкой: Data : Gemat.sta 6v*15c. В открывшемся окне Data File Header (Заголовок файла данных) введите заголовок таблицы КРОВЯНОЕ ДАВЛЕНИЕ Шаг 4. Задание имен переменных Кликните в клетке VAR1 электронной таблицы. В поле Name (Имя) открывшегося окна напишите: ниж до. Нажмите кнопку >>, переменной VAR2 присвойте имя ниж пос, >>, переменной VAR4 присвойте имя верх до, >>, переменной VAR5 присвойте имя верх пос. Шаг 5. Ввод данных в электронную таблицу Введите данные в электронную таблицу с клавиатуры. Значения переменных VAR3 и VAR6 не вводите. Шаг 6. Вычисление значений переменной по формуле Кликните в клетке VAR3 электронной таблицы. В поле Long Name запишите формулу для вычисления: =v2-v1 OK. Аналогичным образом вычисляются и вводятся значения VAR6. (Этим переменным можно присвоить имя разность ). Шаг 7. Сохранение файла данных Для сохранения файла Gemat.sta. 6v*15c нажмите кнопку Save As (Сохранить как) или (Save)( Сохранить). Можно также сохранить, набрав на клавиатуре CTRL+S. Из переключателя модулей системы STATISTICA запустите модуль Basic Statistics and Tables(Основные статистики и таблицы). Запуск модуля осуществляется путем выбора на панели модулей кнопки Switch to (Переключится) или щелчком левой кнопки («кликом») мыши по названию самого модуля из стартового меню. Далее создайте файл данных, как показано ниже. Пример 2. В файле содержатся результаты опроса 10 женщин (данные являются модельными) относительно их семейного положения и состояния уровня тревожности. Первая переменная СЕМ_ПОЛ описывает семейное

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

11   

положение женщины. Эта переменная принимает два значения: П_семья – полная семья, Н_семья – неполная семья. Вторая переменная – ТРЕВОГА, описывает самооценку личностной тревожности женщины. Она принимает два значение: низкая, высокая. Известно, что личностная тревожность характеризуется устойчивой склонностью воспринимать жизненную ситуацию как угрожающую (содержащую в себе тайную угрозу). Из примера видно, что первая опрошенная женщина- наблюдение номер 1 (первая строка в таблице) имеет полную семью и характеризует свое душевное состояние как тревожное. Вторая опрошенная женщина – наблюдение номер 2 (вторая строка таблицы) – имеет неполную семью и оценивает уровень своей тревожности как низкий и т.д. Шаг 1. Создание электронной таблицы Выберите команду New(NewData)(Новый(Новые данные)) из меню File(Файл). В выпадающем окне (Создать новый документ) выбрать кнопку Spreadsheet. На экране появится пустая электронная таблица размером 10*10. Операции над переменными возможны либо через меню Data, либо при помощи кнопки на панели инструментов Vars(Переменные). Шаг 2. Настройка размеров таблицы. Для данных требуется 2 столбца и 10 строк. Нужно удалить лишние 8 переменных. Нажмите кнопку Vars(Переменные) на панели инструментов и выберите команду Delete(Удалить). В диалоговом окне Delete Variables(Удаление переменных) укажите диапазон удаляемых переменных From variable: VAR 3 (Начиная с переменной VAR 3). To Variable: VAR10 (По переменную VAR10). OK. Если нужно добавить, к примеру, 5 случаев. Нажмите кнопку Cases(Случаи) на панели инструментов и выберите команду Add(Добавить). В появившемся окне сделайте установки: Number of Cases to Add: 5 (5 случаев). Insert After Case: 10 случая: 10).

(После

Шаг 3. Оформление заголовка таблицы. В открывшемся окне верхней строки файла введите заголовок таблицы СТРЕСС ЖЕНЩИН Шаг 4. Задание имен переменных. Кликните в клетке VAR1 электронной таблицы. В поле Name (Имя) открывшегося окна напишите:

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

12   

СЕМ_ПОЛ. Нажмите кнопку >>, переменной VAR2 присвойте имя ТРЕВОГА. Назовите этот файл women1.sta Эффективнее организовывать ввод текстовых значений можно, закодировав переменные следующим образом. Начнем с переменной СЕМ_ПОЛ. Дважды щелкните по заголовку левой кнопкой мыши, и на экране отобразится окно Variable1 (переменная1)- назовем ее Sem_pol Выберите кнопку Text Labels (Текстовые значения). В колонке Text Labels наберите в первой строке П_семья, а в колонке Numeric наберите 1. Это приведет к тому, что текстовому значению П_семья будет присвоен код 1. Аналогично во второй строке наберите Н_семья и число 2. Текстовому значению Н_семья будет присвоен код 2. Далее нажмите кнопку ОК. Теперь введите значения 1 в те ячейки переменной СЕМ_ПОЛ, в которых должно стоять текстовое значение П_семья. Введите значение 2 в те ячейки переменной СЕМ_ПОЛ, в которых должно стоять текстовое значение Н_семья. Таким же образом введите текстовые значения в ячейку переменной ТРЕВОГА. Построение таблиц сопряженности в системе STATISTICA Шаг 1. Подведите курсор мыши к пункту STATISTICS (Анализ), в появившемся меню сделайте выбор: Basic Statistics/Tables. Из различных видов анализа, доступных в этом модуле, выберите Tables and Banners(Таблицы и заголовки) и нажмите кнопку ОК. На экране появится окно Specify Table(Задать таблицы). Шаг 2. Сначала в строке tables(Таблицы сопряженности).

Analisys

выберите

Crosstabulation

Шаг 3. Далее нажмите кнопку Specify tables(Задать таблицы). В появившемся окне выберем переменные, которые будут табулированы в таблице. Эти переменные задают разбиение исходных данных на группы, поэтому их часто называют также группирующими переменными. В данном случае будем табулировать значения переменных и ТРЕВОГА. Выберем в первой колонке из предложенных переменных, переменную: 1-СЕМ_ПОЛ, во второй колонке: 2-ТРЕВОГА. (Заметьте, что вообще можно выбирать до 6 списков группирующихся переменных, что позволяет строить чрезвычайно сложные таблицы, содержащие гораздо больше переменных, чем в указанном примере.)

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

13   

После выбора переменных нажмите кнопку ОК. Вы вновь вернетесь в диалоговое окно, оно немного изменилось: возле надписи Number of tables появилась цифра 1, потому что вы выбрали переменные и попросили систему построить одну таблицу. Шаг 4. Нажмите ENTER на клавиатуре или кнопку ОК в верхнем правом углу диалогового окна. Система произведет вычисления и предложит просмотреть результат в окне Crosstabulation Tables Results (Результаты кросстабуляции). Шаг 5. В окне Crosstabulation Tables Results (Результаты кросстабуляции) нажмите кнопку Review Summary Tables(Просмотреть итоговые таблицы). На экране появится таблица сопряженности:

В этой таблице табулированы переменные СЕМ_ПОЛ и ТРЕВОГА на пересечении строк и столбцов стоят абсолютные значения, вычисленные из исходного файла данных women1.sta .Мы табулировали совместно значения двух переменных СЕМ_ПОЛ и ТРЕВОГА, такое действие называется кросстабуляцией. Задание. Проанализируйте таблицу сопряженности.

3. Проверка статистических гипотез Критерий Стьюдента сравнения средних Критерий Стьюдента или t-критерий испоьзуется для проверки статистической гипотезы о равенстве средних значений двух выборок. Проверяемую гипотезу обычно называют нулевой и обозначают Н0, альтернативную гипотезу называют Н1, эта гипотеза логическое отрицание Н0. Эти гипотезы представляют собой две возможности выбора в задачах статистической проверки гипотез. При этом возможны четыре случая, приведенные в таблице:

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

14   

Н0

Принимается

Отвергается

Верна

Правильное решение

Неправильное решение, ошибка 1 рода

Не верна Ошибка второго рода Правильное решение Вероятность α совершить ошибку 1-го рода, т.е. отвергнуть гипотезу Н0 когда она верна, называют уровнем значимости критерия. Вероятность 1-β не допустиь ошибку 2 –го рода называется мощностью критерия. Уровень значимости р – это максимально приемлемая для исследователя вероятность ошибочно отклонить нулевую гипотезу, когда она верна, т.е. допускаемая вероятность ошибки первого рода. Величина уровня значимости обычно принимается равным 0,05, либо 0,01, либо 0,001. В программе СТАТИСТИКА приняты значения р≤0,05. Если р≤0,05, то результат считается статистически значимым. Для запуска программы в верхнем меню Statistics надо выбрать команду Basic Statistics/ Tables(Основные статистики/таблицы). Откроется меню команды, в котором четыре процедуры. 1. t-test, independent, by variables ( т-критерий для независимых выборок) применяется, если надо сравнить средние случайных величин, полученные по двум разным (независимым) выборкам. 2. t-test, independent, by groups (т-критерий для независимых выборок с группирующей переменной) применяется, если надо сравнить средние случайных величин двух независимых групп, полученных из одной выборки при помощи группирующей переменной. 3. t-test, dependent samples (т-критерий для зависимых выборок) применяется, если надо сравнить средние случайных величин двух зависимых групп. 4. t-test, single samples (простые выборки)/ В перечисленных процедурах в качестве нулевой гипотезы предполагается. Что средние в группах равны.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

15   

Пример1. Рассмотрим работу процедуры t-test, dependent sample, используя таблицу данных пробега 15 автомобилей европейского и японского производства. ( Тип топлива: P – бензин, G+P – газ-бензин, D- дизель. В следующих столбцах приведены пробеги автомобилей до первой серьезной поломки: Пробег1- до ремонта на СТО; Пробег2 – до капитального ремонта двигателя; Пробег3 – после капитального ремонта. Предположим, что величины пробега автомобилей имеют нормальное распределение. Нужно определить, существенно ли отличаются средние величины пробега автомобилей до и после кап. ремонта двигателей, средние величины пробега автомобилей в зависимости от типа и места производства. (Для анализа используется критерий зависимых выборок, т.к. одни и те же автомобили тестировались три раза на протяжении периода эксплуатации). Произв Opel Astra Europe Skoda Fabia 1.2 Europe Mitsubishi Pinin Japan Soda Ambiente 1.6 Europe Nissan Almera 1.5 Japan Nissan Maxima 2.0 QX Japan Audi A4 2.0 Europe Nissan Maxima 3.0 SE Japan Mitsubishi Pajero Japan Toyta Corola Japan Toyta Carina Japan VW Passat 1.8 T Europe VW Bora 1.6 Europe Subaru Legacy Japan VW Golf Europe

Тип топлива P P G+P P G+P G+P P P G+P G+P D D D D D

Пробег1 65 70 110 60 90 100 80 110 95 100 110 70 80 105 75

Пробег 2 240 250 300 230 280 300 250 310 320 300 310 275 260 315 250

Пробег 3 230 220 280 230 260 280 230 310 280 300 300 250 Р 230 ешен ие. В 350 меню 240 Statis tics выбрать команду Basic Statistics/ Tables (Основные статистики/таблицы). Далее, в открывшемся меню выбрать t-test, dependent samples, нажать кнопку Variables(переменные) Выбрать две сравниваемые переменные: Пробег 2, Прбег 3, далее ОК. Программа вернется в диалоговое окно, в котором выбрать кнопку Summary: t-test. Появится таблица с результатами анализа, в которой будут приведены значения следующих статистик:

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

16   

Mean(средние значения переменных); Std.Dev.(стандартные отклонения значений переменных); N (число наблюдений в группе); Diff.(разница между средними); t (t-значение критерия); df (число степеней свободы); p (р- уровень значимости критерия). Для нашего примера р меньше 0,05, поэтому гипотезу о равенстве средних отвергаем. Таким образом, средний пробег всех автомобилей до капитального ремонта значительно превышает средний пробег после капитального ремонта.

Пример 2. Проверить, равны ли средние пробега авомобилей до первой поломки двигателя, до и после кап. ремонта автомобилей европейского и японского призводства. Решение. В меню В меню Statistics выбрать команду Basic Statistics/ Tables (Основные статистики/таблицы). Далее, в открывшемся меню выбрать t-test, independent, by groups. Откроется рабочее окно прцедуры. Далее, кнопка Variables(переменные) и определим группирующую переменную Производ. и зависимые переменные: Пробег 1, Пробег 2, Прбег 3, далее ОК. Программа вернется в рабочее окно модуля, указать коды группирующей переменной Europe и Japan. Далее – кнопка Summary: t-test, откроется таблица с результатами анализа. По данным таблицы можно сделать вывод, что средние отличаются существенно. Вывод статистически достоверен, т.к. верна гипотеза о равенстве дисперсий ( p Variances значительно больше, чем 0,05).

Пример 3. Проверить, равны ли средние пробега авомобилей до первой поломки двигателя, до и после кап. ремонта автомобилей с дизельным и бензиновым топливом.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

17   

Решение. Определить группирующую переменную Тип топлива и выбрать коды P и D. Далее Summary: t-test, откроется таблица с результатами анализа. По данным таблицы можно сделать вывод, что средние не существенно различаются при справедливости гипотезы о равенстве дисперсий.

Если предположить, что значения величин пробега в столбцах Пробег 2, Прбег 3 получены по разным выборкам (тестироваись разные группы автомобилей), для сравнения средних можно применять процедуру t-test, independent, by variables. После выбора этой команды откроется рабочее окно модуля. Укажите имена анализируемых переменных и нажмите ОК. По данным таблицы можно сделать вывод, что верна гипотеза о равенстве средних, а также при этом верна гипотеза о равенстве дисперсий.

Ранее при использовании процедуры t-test, dependent samples был получен проивоположный результат. Такое различие обьясняется большими дисперсиями величин побега в анализируемых группах. При применении модуля t-test, dependent samples эти дисперсии не учитываются и получается более верный результат. Группировка и однофакторная ANOVA Для сравнения средних в двух и более группах воспользоваться модулем дисперсионного анализа ANOVA

необходимо

Модуль определяет внутригрупповые описательные статистики и корреляции для зависимых переменных, сравнивает средние и определяет, в каких группах средние отличаются между собой.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

18   

В модуле Basic Statistics/Tables (Основные статистики/таблицы) выделим команду Breakdown & one way ANOVA откроется рабочее окно команды. Далее кнопка Variables (переменные) ->Grouping Variables (группирующие переменные) Производитель и Тип топлива и Dependent Variables (зависимые переменные) Пробег 1, Пробег 2. Далее ОК, и вернувшись в исходное окно, щелкните кнопкой Codes for grouping variables (коды для группирующих переменных) Выберите коды в диалоговом окне Select codes for independent variables (коды для независимых факторов). Что выбрать все коды , можно вввести номера всех кодов, нажать на кнопку (все), либо поставить * в соответствующем поле ввода, можно выбрать ОК. Для просмотра значения переменной перед выбором кодов нужно выбрать кнопку Zoom (информация) которая откроет окно (значение/статистики). В нем будет отсортирован список значений переменной. В диалоговом окне Statistics by Groups(Breakdown) нажмите ОК, откроется новое диалоговое окно Statistics by Groups–Results (внутригрупповые описательные статистики - результаты). Цель такого анализа – лучшее понимание различий между группами. Зависимые переменные Пробег 1, Пробег 2, группирующие – две переменные Производитель с двумя кодами (Europe, Japan) и Тип топлива с тремя кодами (G+P, P, D). Активируем вкладку Quick. Далее кнопка Summary:Table of Statistics (итоговая таблица средних)

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

19   

Для проверки значимости различий в средних указанных групп надо использовать процедуру (анализ дисперсий). На вкладке ANOVA & tests щелкните кнопкой Analysis of Variance. Откроется следующая таблица результатов.

Из таблицы следует, что можно отвергнуть гипотезу о равенстве средних переменных Пробег 1, Пробег 2 в группах. Так как число групп более двух, то из таблицы не видно, какие группы вызвали значительное отличие средних. Процедура Post-hoc(апостериорные сравнения средних) позволит устранить этот недостаток. Назначим р-уровень значимости, воспользовавшись критерием наименьшей значимости (НЗР). Появиться таблица, состоящая из вероятностей. Если вероятность, стоящая в таблице на пересечении строки и столбца с соответствующими номерами групп, больше чем 0,05, то гипотезу о равенстве средних этих групп принимаем, в противном случае – отклоняем. Из таблицы видно, что верна гипотеза о равенстве средних в группах: 1,3; 4,5; 4,6; 5,6. Не верна гипотеза о равенстве средних в группах: 1,4; 1,5; 1,6; 3,4; 3,5; 3,6.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

20   

Различия средних можно увидеть на графиках, доступных в диалоговом окне Statistics by Groups-Resalts. Вкладка Descriptives, далее выбрать кнопку Categorized box & whisker plot, откроется диалоговое окно , выделить одну из опций, например: Mean/SE/SD. Программа построит диаграммы размаха. Из них можно сделать вывод, что средний пробег японских автомобилей до обращения на СТО одинаков для различных типов топлива, аналогично и для европейских авто. Но средний пробег японских автомобилей значительно больше пробега европейских автомобилей с любым типом топлива. Т.е. пробег автомобиля до обращения на СТО не зависит от типа топлива, а зависит от страны производителя.

Далее рассмотрим корреляции между переменными. Они измеряют степень зависимости между переменными. Проведем группировку по двум группирующим переменным, рассмотрим зависимости внутри групп и сравним с результатами негруппированныхнаблюдений. Откроем вкладку Correlations, далее Within-group corelations & covariances (внутригрупповые корреляции и ковариации) -> Select group->All group. Программа построит совокупность корреляционных матриц.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

21   

Корреляционная матрицапеременных Пробег 1, Пробег 2 для группы, состоящих из японских автомобилей с типом топлива G+P. Зависимость между переменными слабая, величины коэффициентов корряляции статистически незначимы.

Внутригрупповые зависимости можно представить графически, воспользовывшись кнопкой Categor.Scatterplots. Провести анализ для переменных Пробег 2, Пробег 3. Результаты оформить в виде отчета.

4. Непараметрическая статистика Т-критерий сравнения средних применим, если эти переменные имеют нормальное распределение. Предположение о нормальности можно проверить, например с помощью гистограммы. Если условия применимости т-критерия не выполнены,(если закон распределения не может быть аппроксимировать нормальным законом либо из-за малого обьема выборки, либо из-за свойст переменной) то используют непараметрические альтернативы т-критерия. Например, результаты соц. опросов имеют обычно форму ответов «да», «нет» и представляются в виде таблиц, содержащих таблицы положительных и отрицательных ответов. В этих случаях используют непараметрические методы, т.е., методы независящие от параметров распределения генеральной совокупности. Эти методы применяют для качественных данных, представленных в номинальной шкале и для данных, измеряемых в порядковой шкале (т.е. представленных в виде рангов), а также для количественных данных в том случае, если распределение генеральной совокупности неизвестно. 1. Кореляционный анализ.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

22   

Между переменными может существовать функциональная связь, одна переменная есть функция другой переменной. Но может быть, что одна из переменных реагирует на изменение другой изменением своего закона распределения. Она появляется, когдаимеются общие случайные факторы, влияющие на обе переменные Мерой зависимости переменных является коэффициент корреляции, который изменяется от -1 до 1. Если коэффициент отрицательный, это означает, что с увеличением одной переменной значения другой – убывают.Если переменные независимы, то коэффициент корреляции равен 0.Чем ближе значение к 1, тем зависимость сильнее. Если он 1 или-1, то зависимость линейная. В модуле Описательная статитика используется коэффициент корреляции Пирсона, в предположении, что переменные измерены в интервальной шкале. При к ≤0,25 – кореляция слабая, 0,25 ≤к≤0,75 – умеренная, при к≥0,75 – сильная. В непараметрической статистике альтернативой коэффициента корреляции Пирсона является коэффициент корреляции Спирмена, коэффициент корреляции тау Кендалла и гамма. Коэффициент корреляции Спирмена используют, если переменные – количественные (закон распределения которых неизвестен или не явлеятся нормальным) и качественные (порядковые). Коэффициент тау Кендалла используют, если хотя бы одна из переменных – качественная (порядковая). Коэффициент гамма используют, если переменные содержат много повторяющихся значений. Из меню Анализ в Непараметрические статистики, далее выбрать Корреляции. 2. Непараметрические критерии сравнения средних Первым критерием выбора метода является вид шкалы, в которой представлены исходные данные. Вторым критерием является вид выборок (независимые или связанные) и их кличество. Связанная выборка. Если над каждым из п-обьетов проводятся два наблюдения: одно до, другое после некоторого воздействия, (например, прием лекарств, проведенное обучение обучение, рекламная компания и т.д.) то результаты аблюдение – две связанные выборки обема п.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

23   

В случае, если каждый из п обьектов подвергается к воздействиям, например, множество оценок, выставленных к судьями п спортсменам - это ксвязных выборок обьема п, измеренных в порядковой шкале. Рассматриваемые непараметрические методы можно классифицировать следующим образом. 1. Исходные данные: две независимые выборки обьемов п1 и п2. выборки принадлежат однородным Проверяемая гипотеза Н0: генеральным совокупностям. (Сравнение средних в двух независимых группах данных). Файл должен содержать группирующую переменную Методы: 1) критерий серий Вальда-Вольфовица; 2) критерий Манна-Уитни (альтернатива т-критерия); 3) критерий Колмогорова-Смирнова. 2. Исходные данные: к независимых выборок обьемов п1, п2,…, пк. выборки принадлежат однородным Проверяемая гипотеза Н0: генеральным совокупностям (Сравнение средних в более чем двух независимых группах) Методы: 1) Однофакторный дисперсионный анализ Краскела-Уоллиса; 2) Медианный критерий Это непараметрические альтернативы однофакторного дисперсионного анализа. 3. Сравнение средних в более чем двух зависимых группах: критерий Фридмана, АНОВА ТЕСТ, альтернатива однофакторному дисперсионному анализу с повторными измерениями. 4. Сравнение средних в двух зависимых выборках: 1) критерий знаков (основан на подсчете количества положительных разностей между значениями переменных до и повле повторных измерений);

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

24   

2) Уилкоксона (альтернатива т-критерия сравнения средних в двух зависимых выборках); Непараметрические критерии сравнения средних В модуле Непараметрические статистики выберем команду Comparing multiply dep. Samples(variables) -> Fridman ANOVA &… Т.к. уровень значимости значительно меньше 0,05, (р≤0,000), верна альтернативная гипотеза о неравенстве средних в трех группах. Причем средние Пробег 2 > Пробег 3 >Пробег 1, в силу сравнения рангов.

Для того, чтобы определить, в каких группах средние не равны в окне Непараметрические статистики выбрать Сравнение двух зависимых переменных. В открывшемся окне после выбора имен переменных последовательно нажимаем кнопки с названием критериев: критерий знаков, критерий Вилкоксона. Получим таблицы с результатами попарного сравнения средних.

Задание. Проверить, если различие в пробегах в зависимости от типа топлива. В окне Непараметрические статистики выберем команду Сравнение множественных независимых переменных. Группирующая переменная – Тип топлива; зависимая – Пробег 2. Из таблицы следует, верна гипотеза о равенстве средних в трех группах по типу топлива (уровень значимости критерия больше 0,05).

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

25   

Задание. Проверить, если различие в пробегах в зависимости от места производства. Так как сравниваются средние в двух группах воспользуемся процедурой Сравнение двух независимых переменных(групп). Группир. перем. – Произв; зависимые - Пробег 1- Пробег 3. Далее можно пользоваться одним из трех критериев Вальда–Вольфовица, Колмогорова–Смирнова, Манна – Уитни. Альтернативная гипотеза о равенстве средних подтверждается. При этом пробег японских автомобилей во всех трех случаях превосходит соответствующие пробеги автомобилей европейского производства.

5. Дисперсионный анализ

Фактор

Значения переменной (значения анализируемого признака)

Группа 1

х11

х12 ….

х1п

Группа

х21

х22 ….

х2п

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

26   

Сравнение средних – один из способов выявления зависимостей между ………. …. … …. …. переменными. Если при разбиении обьектов . . исследования на подгруппы при помощи категориальной независимой переменной Группа хт1 хт …. хтп (предиктора) верна гипотеза о неравенстве т п средних некоторой зависимой переменной в подгруппах, то это означает, что существует стохастическая взаимосвязь между этой зависимой переменной и категориальным предиктором. Категориальный предиктор называют фактором. В дисперсионном анализе можно исследовать зависимость количественного признака (зависимой переменной) от одного или нескольких качественных признаков (факторов). 2

Однофакторная xij=μ+εij+Fi,

дисперсиооная

модель

имеет

следующий

вид:

где xij значение исследуемой переменной, соответствующей i –му уровню фактора, Fi,- эффект, обусловленный влиянием i –м уровнем фактора, εij – случайная компонента, вызвынная влиянием неконтролируемых факторов. Для сравнения средних в двух и более группах воспользоваться модулем дисперсионного анализа ANOVA

необходимо

Модуль определяет внутригрупповые описательные статистики и корреляции для зависимых переменных, сравнивает средние и определяет, в каких группах средние отличаются между собой. Элементы строк таблицы – реализации случайных величин Х1…, Хт имеющих нормальный закон распределения с математическими ожиданиями а1,…,ат и одинаковыми дисперсиями σ2. Задача сравнения средних – это проверка нулевой гипотезы Н0: а1=…. =ат. Обозначим выборочные средние в группах А общую выборочную среднюю

тогда

Можно показать, что сумму квадратов отклонений наблюдений от общей средней можно представить следующим образом

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

27   

- факторная сумма отклонений групповых средних от общей средней, характеризующая рассеяние между группами;

Замечание. Остаточную сумму можно найти из равенства Sост = Sобщ – Sфакт . Разбиение суммы квадратов Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares - Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных: Группа 1 Группа 2 2 6 Наблюдение 1 3 7 Наблюдение 2 1 5 Наблюдение 3 2 6 Среднее 2 2 Сумма квадратов (СК) 4 Общее среднее 28 Общая сумма квадратов Средние двух групп существенно различны (2 и 6 соответственно). Сумма квадратов отклонений внутри каждой группы равна 2. Складывая их, получаем 4. Если теперь повторить эти вычисления без учета групповой принадлежности, то есть, если вычислить SS исходя из общего среднего этих двух выборок, то получим величину 28. Иными словами, дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

28   

(относительно общего среднего). Причина этого, очевидно, заключается в существенной разнице между средними значениями, и это различие между средними и объясняет существующее различие между суммами квадратов. В самом деле, если использовать для анализа этих данных модуль Дисперсионный анализ, то будет получена следующая таблица, называемая таблицей дисперсионного анализа: ГЛАВНЫЙ ЭФФЕКТ SS ст.св. MS F p 1 24.0 24.0 .008 Эффект 24.0 4 1.0 Ошибка 4.0 Как видно из таблицы, общая сумма квадратов SS = 28 разбита на компоненты: сумму квадратов, обусловленную внутригрупповой изменчивостью (2+2=4; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений между группами (28-(2+2)=24; см первую строку таблицы). Заметим, что MS в этой таблице есть средний квадрат, равный SS, деленная на число степеней свободы (ст.св). SS ошибок и SS эффекта. Внутригрупповая изменчивость (SS) обычно называется остаточной компонентой или дисперсией ошибки. Это означает, что обычно при проведении эксперимента она не может быть предсказана или объяснена. С другой стороны, SS эффекта (или компоненту дисперсии между группами) можно объяснить различием между средними значениями в группах. Иными словами, принадлежность к некоторой группе объясняет межгрупповую изменчивость, т.к. нам известно, что эти группы обладают разными средними значениями. Проверка значимости. Основные идеи проверки статистической значимости обсуждаются в разделе Элементарные понятия статистики. В этом же разделе объясняются причины, по которым многие критерии используют отношение объясненной и необъясненной дисперсии. Примером такого использования является сам дисперсионный анализ. Проверка значимости в дисперсионном анализе основана на сравнении компоненты дисперсии, обусловленной межгрупповым разбросом (называемой средним квадратом эффекта или MSэффект) и компоненты дисперсии, обусловленной внутригрупповым разбросом (называемой средним квадратом ошибки или MSошибка; эти термины были впервые использованы в работе Edgeworth, 1885). Если верна нулевая гипотеза (равенство средних в двух популяциях), то можно ожидать сравнительно небольшое различие выборочных средних из-за чисто случайной изменчивости. Поэтому, при нулевой гипотезе, внутригрупповая дисперсия будет практически совпадать с общей дисперсией,

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

29   

подсчитанной без учета групповой принадлежности. Полученные внутригрупповые дисперсии можно сравнить с помощью F-критерия, проверяющего, действительно ли отношение дисперсий значимо больше 1. В рассмотренном выше примере F-критерий показывает, что различие между средними статистически значимо (значимо на уровне 0.008). Основная логика дисперсионного анализа. Подводя итоги, можно сказать, что целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними. Зависимые и независимые переменные. Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать) называются факторами или независимыми переменными. Более подробно эти понятия описаны в разделе Элементарные понятия статистики.

Многофакторный дисперсионный анализ В рассмотренном выше простом примере вы могли бы сразу вычислить tкритерий для независимых выборок, используя соответствующую опцию модуля Основные статистики и таблицы. Полученные результаты, естественно, совпадут с результатами дисперсионного анализа. Однако дисперсионный анализ содержит гораздо более гибкие и мощные технические средства, позволяющие исследовать планы практически неограниченной сложности. Множество факторов. Мир по своей природе сложен и многомерен. Ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

30   

большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t-критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен. Вам нужно сделать определенные усилия, чтобы овладеть техникой дисперсионного анализа, реализованной на STATISTICA, и ощутить все ее преимущества в конкретных исследованиях. Управление факторами. Предположим, что в рассмотренном выше примере анализа двух выборок мы добавим еще один фактор, например, Пол Gender. Пусть каждая группа теперь состоит из 3 мужчин и 3 женщин. План этого эксперимента можно представить в виде таблицы 2 на 2: Экспериментальная группа 1 Мужчины 2 3 1 Среднее 2 Женщины 4 5 3 Среднее 4

Экспериментальная группа 2 6 7 5 6 8 9 7 8

До проведения вычислений можно заметить, что в этом примере общая дисперсия имеет, по крайней мере, три источника: (1) случайная ошибка (внутригрупповая дисперсия), (2) изменчивость, связанная с принадлежностью к экспериментальной группе, и (3) изменчивость, обусловленная полом объектов наблюдения. (Отметим, что существует еще один возможный источник изменчивости - взаимодействие факторов, который мы обсудим позднее). Что произойдет, если мы не будем включать пол как фактор при проведении анализа и вычислим обычный t-критерий? Если мы будем вычислять суммы квадратов, игнорируя пол (т.е. объединяя объекты разного пола в одну группу при вычислении внутригрупповой дисперсии и получив при этом сумму квадратов для каждой группы равную SS =10 и общую сумму квадратов SS = 10+10 = 20), то получим большее значение внутригрупповая дисперсии, чем при более точном анализе с дополнительным разбиением на подгруппы по полу (при этом внутригрупповые средние будут равны 2, а общая внутригрупповая сумма квадратов равна SS = 2+2+2+2 = 8).

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

31   

Итак, при введении дополнительного фактора: пол, остаточная дисперсия уменьшилась. Это связано с тем, что среднее значение для мужчин меньше, чем среднее значение для женщин, и это различие в средних значениях увеличивает суммарную внутригрупповую изменчивость, если фактор пола не учитывается. Управление дисперсией ошибки увеличивает чувствительность (мощность) критерия. На этом примере видно еще одно преимущество дисперсионного анализа по сравнению с обычным t-критерием для двух выборок. Дисперсионный анализ позволяет изучать каждый фактор, управляя значениями других факторов. Это, в действительности, и является основной причиной его большей статистической мощности (для получения значимых результатов требуются меньшие объемы выборок). По этой причине дисперсионный анализ даже на небольших выборках дает статистически более значимые результаты, чем простой t-критерий. Решение примера в пакете Statisticа Пример1. В таблице приведены данные о стоимости двухкомнатных квартир в г. Москва в трех районах. Проверить гипотезу о равенстве средней стоимости квартир в различных районах г. Москвы. Решение. Проверим гипотезу о равенстве а1= а2 = а3, где аm – математическое ожидание случайной величины – стоимость квартиры в одном из трех районов города, m= 1,2,3. Число уровней фактора – это три района. Общий объем выборки: 10+13+7=30. В меню Statistics выбрать команду Basic Statistics/ Tables (Основные статистики/таблицы). Далее, в открывшемся меню выбрать Breakdown & one way ANOVA, нажать кнопку Variables(переменные) Выбрать две сравниваемые переменные: Далее кнопка Variables (переменные) ->Grouping Variables (группирующие переменные) G(group) и Dependent Variables (зависимые переменные) P(stoimost). Далее ОК, и вернувшись в исходное окно, щелкните кнопкой Codes for grouping variables (коды для группирующих переменных) Выберите коды в диалоговом окне Select codes for independent variables (коды для независимых факторов). Что выбрать все коды , можно вввести номера всех кодов, нажать на кнопку (все), либо поставить * в соответствующем поле ввода, можно выбрать ОК. Для просмотра значения переменной перед выбором кодов нужно выбрать кнопку Zoom (информация) которая откроет окно (значение/статистики). В нем будет отсортирован список значений переменной.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

32   

В диалоговом окне Statistics by Groups(Breakdown) нажмите ОК, откроется новое диалоговое окно Statistics by Groups–Results (внутригрупповые описательные статистики - результаты). Цель такого анализа – лучшее понимание различий между группами. Зависимые переменные P(stoimost), группирующие – переменная G(group) с тремя кодами (1,2,3 разные районы). Активируем вкладку Quick. Далее кнопка Summary:Table of Statistics (итоговая таблица средних). 

  Для проверки значимости различий в средних указанных групп надо использовать процедуру (анализ дисперсий). На вкладке ANOVA & tests щелкните кнопкой Analysis of Variance. Откроется следующая таблица результатов.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

33   

В таблице дисперсионного анализа приводятся: Сумма квадратов отклонений выборочных средних групп от общего среднего ¯х (между группами), SS Effect = 64,29410, число степеней свободы для SS Effect: m-1=2 (df Effect=2). Отношение (SS Effect/m-1)=MS Effect=32,14705 - среднее значение суммы квадратов. Далее приводятся: сумма квадратов отклонений результатов наблюдений от выборочных средних групп (внутри групп) SS Error=62,01957, число степеней свободы - dfError=27, отношение: (SS Error/nm) = MS Error =2,297021- среднее значение суммы квадратов. Выборочное значение F-статистики, Fв=13,99510 и вычисленный уровень значимости р=0,000068. Так как вычисленный уровень значимости р меньше заданного уровня значимости 0,05, то гипотеза о равенстве средних отклоняется. Таким образом, местоположение квартиры в зависимости от района, в котором она расположена, существенно влияют на стоимость. Определим, какие районы приводят к значительному различию в стоимости жилья. Для ответа на этот вопрос выполним процедуру Post-hoc(апостериорные сравнения средних) по методу Шеффе (Sheffe test).

В таблице указаны уровни значимости для проверки гипотез о равенстве средних для всех пар уровней фактора G(group)(район города). Гипотеза о том, что математическое ожидание второй группы равно математическому ожиданию третьей группы принимается на урове значимости р =0,910168, гипотеза о равенстве матемаических ожиданий первой и второй групп отклоняется, т.к. р=0,000115, также отклоняется гипотеза о равенстве мат. Ожиданий первой и третьей групп: р= 0. Аналогично проверяется помощью критерия наименьшей значимости (НЗР).

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

34   

Различия средних можно увидеть на графиках, доступных в диалоговом окне Statistics by Groups-Resalts. Вкладка Descriptives, далее выбрать кнопку Categorized box & whisker plot, откроется диалоговое окно, выделить одну из опций, например: Mean/SE/SD. Программа построит диаграммы размаха. Проверка нормальности закона распределения с помощью Categorized normal prob plots. Дисперсионный анализ. Пример 2. Выберем команду Дисперсионный Анализ в меню Анализ. И откроем файл данных Adstudy.sta из библиотеки примеров. Для этого примера создадим пла межгрупповыми и внутренними факторами. В нашем случае имеют место 2 межгрупповых фактора и один фактор с повторными измерениями.

Выберем Повторные измерения ДА в поле Вид анализа и Диалог в поле Задание анализа. Далее - ОК. Задание плана (переменных). Первый межгрупповой фактор Gender имеет 2 уровня Male & Female. Второй межгрупповой фактор Advert также имеет 2 уровня: Pepsi и Coke. Эти факторы являются пересекающимися, т.к. среди респондентов, предпочитающих Pepsi или Coke, есть и Male и Female. Каждый респондент был опрошен три раза и значения зависимой переменной на полученных трех уровнях фактора (повторных измерениях) Response (Отклик) были сохранены в переменных: Measure 1, Measure 2, Measure 3. После нажатия кнопки Переменные, в качестве зависимых переменных выберем Measure 1, Measure 2, Measure 3, в качестве факторов: Gender и Advert –ОК.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

35   

Однако в этом примере нужно указать программе, что зависимые переменные содержат значения одного фактора повторных измерений, который имеет три уровня, если не указать это специально, программа будет рассматривать три выбранные зависимые переменные как различные и проведет многофакторный дисперсионный анализ. Для того, чтобы интересующий нас фактор повтрных измерений выберем кнопку Эффеты с повторными измерениями Появится диалоговое окно:

Программа предлакает выбрать один фактор повторных измерений с тремя уровнями( по умолчанию он назван R1). С помощью этого диалогового окна можно задать только один внутригрупповой фактор (фактор повторных измерений). Для задания множественных внутригрупповых факторов используйте модуль Общие линейные модели , содержащийся в прилагаемом пакете Углубленные методы анализа. Изменим название фактора, заменив R1 на Response. Далее

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

36   

выберем коды по умолчанию - все в двух группах, далее - ОК. В окне Результаты Анализа можно выбрать следующие вкладки

В данном примере тоько эффект фактора Response – отклик, если не рассматривать Intercept, является значимым (р=0,007). Для того, чтобы понять, что это значит, рассмотрим маргинальные средние этого эффекта. Вернемся в окно Результаты анализа и выберем кнопку: Все эффекты/Графики для посмотра средних значений отдельных эффектов.

Эта таблица позволяет выбрать отдельные эффекты и построить графики соответствующих средних. Дважды щелкнем на строке Response.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

37   

График имеет явный отрицательный тренд: среднее последовательным измерениям (вопросам) постепенно убывает.

по

трем

Посмотрим взаимодействия высшего порядка, чтобы оценить достоверность такого заметного отрицательного тренда на различных уровнях межгрупповых факторов. График средних для трехфакторного взаимодействия. Дважды щелкнем по строке, обозначенной как Response*Gender*Advert, в диалоговом окне Таблица всех эффектов, примем расположение факторов, как их предлагает программа. Появится график средних.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

38   

Как видно из построенного графика, структура средних не содержит каких либо заметных отклонений от общей структуры с отрицательным трендом, обнаруженной на предыдущем графике для переменной (главного эффекта) Response. Теперь можно продолжить проверку остальных эффектов и провести сравнения. 6. Линейная регрессионнная модель Регрессионный анализ связан с методами корреляционного и дисперсионного анализа. В регрессионном анализе рассматривается односторонняя зависимость случайной зависимой переменной от одной или нескольких независимых переменных. Независимые переменные называю факторами, или предикторами, а зависимая переменная – результативным признаком, или откликом. Если число предикторов равно 1, регрессию называют простой, если число предикторов больше 1 – множественной. Множественная регрессия позволяет получить ответ на вопрос о том, «что является лучшим предиктором для..». Например, какие факторы являются лучшими предикторами успешной учебы в школе или вузе, или какие индивидуальные качества позволяют предсказать степень социальной адаптации выпускников средней школы. Регрессионный анализ предполагает решение двух задач. Первая заключается в выборе независимых переменных, существенно влияющих на зависимую переменную и определение формы уравнения регрессии. Данная задача решается путем анализа изучаемой зависимости. Вторая задача – оценивание параметров – решается с помощью того или иного метода обработки данных наблюдения. , описывающая зависимость условного среднего значения Функция результативного признака Y от заданных значений фактора, называется функцией (уравнением) регрессии. Для точного описания уравнения регрессии необходимо знать условный закон распределения результативного признака Y. В статистической практике строят подходящую аппроксимацию для , основанную на исходных статистических данных. Значения функции переменной в i-ом опыте обозначим через , соответствующие им значения величины через . Для линейной модели предполагается, что наблюдаемые величины связаны , где неизвестные между собой зависимостью вида параметры

(коэффициенты

уравнения),



независимые

нормально

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

39   

распределенные случайные величины с нулевым математическим ожиданием и . Иногда называют ошибками наблюдения. Общая задача дисперсией регрессионного анализа состоит в том, чтобы по наблюдениям оценить параметры модели ; проверить гипотезу о значимости уравнения и коэффициентов регрессии; оценить степень адекватности полученной зависимости и т. д. Линейная модель с несколькими предикторами называется линейной , множественной регрессионной моделью, где

неизвестные параметры модели, которые вычисляются при

помощи систем нормальных уравнений. Описание модуля Множественная Регрессия Основные обозначения и понятия модуля Множественная регрессия. Предсказанные значения (Predictable values) – значения Y, вычисленные по уравнению регрессии . Остатки (Residuals) – разность между наблюдаемыми значениями и . предсказанными SS - сумма квадратов , скорректированная на среднее: ,

.

SSPr - cумма квадратов

, скорректированная на среднее:

. SSRes - сумма квадратов остатков

.

. Чем меньше разброс Коэффициент детерминации: значений остатков около линии регрессии по отношению к общему разбросу и значений, тем лучше прогноз. Например, если связь между предиктором откликом У отсутствует, то отношение остаточной изменчивости переменной и У связаны функциональной У к исходной дисперсии равно 1. Если зависимостью, то остаточная изменчивость отсутствует, и отношение , то изменчивость значений переменной У дисперсий равно 0. Если около линии регрессии составляет 1-0,4 от исходной дисперсии; другими

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

40   

словами, 40 % от исходной изменчивости могут быть объяснены, а 60 % остаются необъясненными. Adjusted R2= 1-(1 –R2)(n/(n-k))- скорректированное R2 где к – число параметров в регрессионном уравнении. Пример. Составить математическую модель зависимости месячных объемов продаж (млн. дол.) продукта компании «Петлокс» от цены за единицу (дол.), расходов на рекламу в предыдущем месяце (10 тыс. дол.) и количества работников, занятых сбытом продукции. Объем продаж- зависимая переменная(функция отклика); Розн. цена, Расх на рекламу, Кол. работ. – независимые переменные(предикторы). Решение. Проверим, можно ли зависимость между функцией отклик а и предикторами описать линейной моделью: Обьем продаж=

Расх.на рекламу+

В меню STATISTICA выберем Множественная регрессия в меню Анализ. В появившемся окне, нажав кнопку Переменные, зададим зависимые и независимые переменные.

Для задания дополнительных условий можно выбрать вкладку Advanced.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

41   

Установим флажок на Advanced Options – OK. Появится диалоговое окно Model definition(построение модели). На вкладке Quik укажем метод – Forward Stepwise(пошаговый с включением) – OK. Откроется окно результатов.

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

42   

Из приведенных результатов анализа что зависимость между откликом и предиктором сильная (R2≥0,75); построенная линейная регрессия адекватно описывает взаимосвязь между откликом и предикторами, свободный член статистически значим. Имя зависимой пременной – Объем продаж, число наблюдений -8, коэффициент множественной корреляции = 0,9646, R2 – коэффициент детерминации= 0,9305. Если нажать на кнопку Summary Regression Results, появится таблица результатов с подробными статистиками:

Величина Вета позволяет сравнить вклады каждого предиктора в предсказание отклика, так, в зависимую переменную Объем продаж больший вклад вносит переменная Розн. цена, а меньший – Кол. работ. Отрицательный знак коэффициентов при этих переменных показывает, что с увеличением розничной цены и количества работников, занятых сбытом продукции, объемы продаж падают. Положительный знак коэффициентов при переменной Расх. на рекламу означает, что с увеличением затрат на рекламу в предыдущем месяце и свободный объемы продаж растут. Коэффициенты уравнения регрессии член статистически значимы на уровне значимости р=0,1; коэффициент статистически незначим, т.к. р≥0,1. Можно записать уравнения регрессии уравнение регрессии: Объем продаж= 0,039Кол.работ.

9,8059-5,9543Розн.

Цена+0,1827Расх.

на

рекламу-

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

43   

Далее в диалоговом окне Результаты множественной регрессии на вкладке Advanced выберем кнопку Частные корреляции, появится таблица:

Частные коэффициенты корреляции показывают степень влияния одного предиктора на отклик, в предположении, что остальные предикторы закреплены на прежнем уровне, т.е. контролируется их влияние на отклик. Из таблицы следует, что предикторы можно ранжировать в следующем порядке: Розн. цена, Расх. на рекламу, Кол. работ., причем, первые два предиктора оказывают на отклик сильное влияние, а третий – умеренное. Частные корреляции значимы для переменных Розн. цена, Расх. на рекламу на уровне значимости р=0,1. Далее в диалоговом окне проведем анализ остатков. Применим статистику Дарбина -Уотсона

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

44   

Статистика Дарбина -Уотсона имеет небольшое значение при умеренной сериальной корреляции =-0,2505. Это свидетельствует о некоторой зависимости наблюдений, следовательно, можно говорить о недостаточной устойчивости некоторых значений коэффициентов регрессии, а значит, о невысокой адекватности модели изучаемому процессу. Для графического сравнения значений отклика и наблюдаемых значений надо в диалоговом окне Анализ остатков выбрать вкладку Предсказанные и нажать кнопку Предсказанные независимые переменные. Одним из условий корректности применения регрессионного анализа является соответствие закона распределения остатков нормальному закону. В диалоговом окне Multply Regression Results выбрать вкладку – Residuals/Assuptions/predictions – нажмите кнопку Perform Residial Analysis в открывшемся окне Residuals нажмите кнопку Histogram of results. Из построенного графика видно, что из-за очень малого числа наблюдений, распределение остатков не соответствует нормальному закону. Из приведенных результатов можно сделать вывод о невысокой адекватности построенной линейной модели зависимости обьемов продаж компании «Петлокс» от розничной цены продукта, расходов на рекламу в предыдущем месяце, количества работнико, занятых сбытом продукции. Линейная модель имеет вид: Объем продаж= 0,039Кол.работ.

9,8059-5,9543Розн.цена+

0,1827Расх.на

рекламу-

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

45   

Последнее слагаемое – Кол.работ. из модели можно исключить, т.к. коэффициент 0,039 статистически незначим, те. Верна гипотеза о равенстве нулю. При помощи модуля Описательные статистики легко определить параметры изменения предикторов: наибольшее и наименьшее значения: 0,9≤ Розн. Цена≤ 1,2; 5≤Расх. на рекламу≤10; 18≤Кол.работ.≤30

7. Факторный анализ Главными целями факторного анализа является сокращение числа переменных (редукция данных) и определение структуры взаимосвязи между переменными, т.е. классиикация переменных. Поэтому данный метод используют как метод сокращения данных или как метод классификации переменных. Сокращение достигается путем выделения скрытых общих факторов, объясняющих связи между наблюдаемыми признаками(переменными) объекта, т.е., вместо исходного набора переменных появиться возможность анализировать данные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных. Взаимосвязи между переменными можно обнаружить с помощью диаграммы рассеяния. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включать наиболее существенные черты обеих переменных. Произошло сокращение числа переменных – две заменили одной. Причем новый фактор

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

46   

(переменная) является линейной комбинацией двух исходных. В этом заключается идея факторного анализа. Процедура выделении факторов подобна вращению, максимизирующую дисперсию исходного пространства переменных. Например, можно рассматривать линию регрессии как ось Х, повернув ее так, чтобы она совпадала с прямой регрессии. Этот тип вращения называют вращением, максимизирующим дисперсию, т.к. цель заключается в максимизации изменчивости новой переменной (фактора) и минимизации разброса исходных переменных. Основная модель факторного анализа записывается следующей системой равенств

То есть полагается, что значения каждого признака xi могут быть выражены взвешенной суммой латентных переменных (простых факторов) fi, количество которых меньше числа исходных признаков, и остаточным членом εi с дисперсией σ2(εi), действующей только на xi, который называют специфическим фактором. Коэффициенты lij называются нагрузкой i-й переменной на j-й фактор или нагрузкой j-го фактора на i-ю переменную. В самой простой модели факторного анализа считается, что факторы fj взаимно независимы и их дисперсии равны единице, а случайные величины εi тоже независимы друг от друга и от какого-либо фактора fj. Максимально возможное количество факторов m при заданном числе признаков р определяется неравенством: (р+m)