Метод.пособие по биостатистике

МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ И СОЦИАЛЬНОГО РАЗВИТИЯ
РЕСПУБЛИКИ КАЗАХСТАН




Государственный медицинский университет г.Семей



Самарова умытжан сапаргалиевна
МЫСАЕВ АЯН ОРАЛХАНОВИЧ
Кырыкбаева Садтанат Саятовна
Оразгалиева Жазира Ерлановна



БИОСТАТИСТИКА ДЛЯ МЕДИЦИНСКОГО ВУЗа

(Учебно-методическое пособие)











Семей
2016
МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ И СОЦИАЛЬНОГО РАЗВИТИЯ
РЕСПУБЛИКИ КАЗАХСТАН






Государственный медицинский университет г.Семей





Самарова умытжан сапаргалиевна
МЫСАЕВ АЯН ОРАЛХАНОВИЧ
Кырыкбаева Садтанат Саятовна
Оразгалиева Жазира Ерлановна





БИОСТАТИСТИКА ДЛЯ МЕДИЦИНСКОГО ВУЗа



(Учебно-методическое пособие)














Семей
2016
УДК 000.00 (получает автор в библиотеке вуза)
ББК 00.00 я 0 (получает автор в библиотеке вуза)
Г00 (получает автор в библиотеке вуза)


Рецензенты:
Ф.С. Рахимжанова – доцент, завуч кафедры Общественного здравоохранения ГМУ г.Семей, к.м.н.
З.А. Хисметова – и.о. доцента, завуч кафедры Общественного здравоохранения ГМУ г.Семей, к.м.н.

Г00 Мысаев А.О., Самарова У.С., Кырыкбаева С.С., Оразгалиева Ж.Е. Биостатистика для медицинского ВУЗа. – Учебно-методическое пособие. – г. Семей. – 2016 год. – (5 печатных листов)____с.


Аннотация
Биостатистика является важной дисциплиной в развитии научных компетенций обучающихся медицинских вузов. В пособии собран информационно-дидактической блок 12 наиболее важных тем биостатистики. Данное пособие будет полезным студентам бакалавриата всех специальностей, магистрантам (для более глубокого понимания) и докторантам (для повторения материала). Авторы постарались представить квинтэссенцию информации по данным темам, без лишней информации, на простом, доступном языке.

ББК 00.00 я 0
Утверждено и разрешено к печати решением Учебно-методического совета Государственного медицинского университета г.Семей.
Протокол №____ от ___. ___. 200___г.
© А.О. Мысаев, 2016 год.
Перечень сокращений (если имеются)


ОШ (OR) – отношение шансов
ОР (RR) – относительный риск
СО – стандартное отклонение
БОП – болезни органов пищеварения
СО (SE) – стандартная ошибка (standard error)
ДИ (CI) – доверительный интервал confidence interval СОДЕРЖАНИЕ
Перечень сокращений 1
Введение 2
1. Введение в биостатистику. Типы данных. 4
2.Вариационный ряд. Числовая характеристика дискретного статистического ряда. Средние величины. Полигон. 6
3.Дисперсия. Стандартное отклонение. Стандартная ошибка среднего. Доверительный интервал. 8
4. Интервальный статистический дискретный ряд распределения. Числовые характеристики интервального статистического ряда. Гистограмма. 10
5. Нулевая гипотеза. Альтернативная гипотеза. Ошибки первого и второго рода.
6. Нормальное распределение, характеристика, графическая проверка.
7. t-критерий Стьюдента.
8. Дисперсионный анализ.
9. Отношение шансов. Относительный риск. Таблица сопряженности.
10. Критерий
·2 Пирсона.
11. Корреляционный анализ.
12. Анализ выживаемости.
Заключение
Тестовые задания
Эталоны ответов
Список литературы
Введение

Вниманию авторов! Требования к оформлению пособия.
Times New Roman, Шрифт 16. через один интервал, поля Верхние 2, левые 2, нижние 2, правые 2, нумерация страниц пособия по центру.
Иллюстрации
Таблицы (название таблицы указать жирным шрифтом, они должны иметь нумерацию и ссылку на них), рисунки (например: Рисунок 1. и его наименование располагаются снизу и по середине строки), схемы, диаграммы (также как рисунок).
Название главы в тексте писать прописными, они должны совпадать с «Содержанием».
Допускается акцентировать внимание на определенных терминах, формулах, теоремах, применяя жирным шрифтом или курсивом (жирным).
Учебные пособия на ученые звания ассоциированного профессора (доцента) и профессора объемом не менее 5 (пяти) печатных листов (т.е. не менее 80-85 листов)
Нумерация страницы
Нумеровать арабскими цифрами, соблюдать сквозную нумерацию по всему тексту. Номер страницы ставить в центре нижней части листа тез точки.
Номер страницы на титульном листе не проставляют, но она включается в общую нумерацию страниц.

[4,5]

Тема 1. Введение в биостатистику. Типы данных.


Схема 1. Этапы статистического исследования
I этап статистического исследования –
составление программы и плана исследования



Программа статистического исследования предусматривает решение следующих вопросов:
Определение единицы наблюдения и составление программы сбора материала;
Единица наблюдения  каждый первичный элемент статистической совокупности.  Единица наблюдения наделена признаками сходства и различия, которые подлежат учету и дальнейшему наблюдению, поэтому эти признаки называются учитываемыми (учетными).
Учитываемые признаки  признаки, по которым различаются элементы единицы наблюдения в статистической совокупности.

Статистическая совокупность  это группа, состоящая из относительно однородных элементов, взятых вместе в известных границах времени и пространства в соответствии с поставленной целью. Структура статистической совокупности: статистическая совокупность состоит из единиц наблюдения (см. схему).

Схема 2. Структура статистической совокупности
На примере нашего исследования статистическая совокупность это студенты, обучающиеся в данном вузе на протяжении всего периода обучения.
Различают два вида совокупности генеральная и выборочная.
Генеральная совокупность  это группа, состоящая из всех относительно однородных элементов в соответствии с поставленной целью.
Выборочная совокупность  отобранная для исследования часть генеральной совокупности и предназначенная для характеристики всей генеральной совокупности. Она должна быть репрезентативна (представительна) по количеству и качеству по отношению к генеральной совокупности.
Репрезентативность количественная основана на законе больших чисел и означает достаточную численность элементов выборочной совокупности, рассчитываемую по специальным формулам и таблицам.
Репрезентативность качественная основана на законе вероятности и означает соответствие (однотипность) признаков, характеризующих элементы выборочной совокупности по отношению к генеральной.
В нашем примере генеральной совокупностью являются все студенты медицинского вуза; выборочной совокупностью часть студентов каждого курса и факультета данного вуза.
Как правило, основной задачей любого эксперимента является получение информации об изучаемых объектах и/или явлениях. Саму суть понятия «информация» достаточно сложно сформулировать, хотя бы из-за того, что любое определение данного понятия будет являться тавтологией по своей сути. Кроме того, еще А. Н. Колмогоров, стоявший у истоков создания теории информации, задавался вопросом о том, существует ли информация независимо от ее восприятия или определяется индивидуальными особенностями исследователя. Таким образом, возникает противоречие, которое можно лишь отчасти разрешить, если описывать информацию как потенциальное свойство.
Информация это потенциальные свойства некого объекта или системы, которые доступны для хранения, передачи, преобразования и выявления при изучении разумным существом.
Данные это информация, представленная в формализованном виде.
Формализация данных может достигаться различными методами.
Тип данных это метод формализации, который определяется сущностью изучаемого параметра.
Переменная это совокупность первичных сигналов, содержащая данные определенного типа, доступные для изменения.
Прежде чем перейти к анализу собранных данных, надо понять, какого они типа. Так же как знание пищевых предпочтений рыбы говорит рыбаку, на какую наживку ловить разные виды, знание типа данных подскажет нам выбор измерительного инструмента.
Первая попытка классификации переменных в статистике, сохранившая своё значение до настоящего времени, была предпринята в 1946 г. Стэнли Смитом Стивенсом (Stanley Smith Stevens). Схема классификации была основана на типах операций, допустимых для данной переменной. Например, для переменных, обозначающих пол или религию допустимы только сравнения типа равно – не равно, а сравнения типа больше – меньше или арифметические операции не допустимы; как следствие, для этих переменных может быть определена такая статистика, как мода (наиболее вероятное значение), и не может быть определено математическое ожидание (среднее значение). В порядке возрастания числа допустимых операций Стивенс ввёл следующие уровни классификации переменных: номинальный (nominal), порядковый (ordinal) и непрерывный (continuous), причём последний делился на подуровни интервальный (interval) и относительный (ratio).
Важность понимания различий типов данных обусловлена потребностью исследователя в их анализе и последующем осмыслении результатов. Различия в типах данных являются отправной точкой для выбора математических методов, которые должны применяться для анализа результатов эксперимента или наблюдения, а также для правомочности использования того или иного способа представления данных (схема 3).









Схема 3. Различные типы данных
Все переменные и результирующие показатели можно подразделить на два типа: категориальные и количественные. Дата и время представляют собой не абсолютно формализованную, но необходимую информацию, которая в зависимости от масштабов оценки может служить источником переменных различных типов. Поэтому в структуре типов данных дата и время будут располагаться вне рассматриваемой классификации.

Схема 4. Типы данных
Категориальные (качественные) данные встречаются, когда объект изучения может принадлежать лишь к одной из взаимоисключающих (альтернативных) категорий.
Порядковые данные это категориальные данные, поддающиеся логическому упорядочению.
Номинальные данные это категориальные данные, не поддающиеся логическому упорядочению.
а) Бинарные данные это номинальные данные, которые можно описать с использованием одной из двух альтернативных категорий.
Количественные данные это данные, которые можно описать с использованием числового значения.
Дискретные данные это количественные данные, которые можно описать с идеальной точностью.
Непрерывные данные это количественные данные, которые можно описать с точностью, которая была достигнута при измерении на непрерывной шкале.
а) Интервальные данные это непрерывные данные о величинах, имеющих физический смысл.
б) Относительные данные это непрерывные данные о безразмерных величинах.
Следует отметить, что определение типов данных для переменных следует проводить до начала сбора информации об изучаемых системах, объектах или явлениях. Это позволяет улучшить дизайн исследования, что значительно снижает вероятность возникновения систематических ошибок. Кроме того, при разработке и внедрении масштабных медицинских технологий, работа осуществляется с гигантскими массивами данных, хранение и анализ которых требуют значительных вычислительных

Номинальные переменные
Номинальные переменные используются только для классификации по признаку категорий. Это означает, что такие переменные могут быть измерены только в терминах принадлежности к различным классам. При этом исследователь не может влиять на количество этих классов и упорядочивать их. Измерения в этой шкале строятся только на принципе эквивалентности. Например, в результатах исследования можно указать, что в случайной выборке оказалось 212 пациентов, различимых в рамках переменной А (национальность): русских – 150, татар – 50, немцев – 10, армянин – 1, грузин – 1 (пациенты принадлежат к разным национальностям). Типичные примеры номинальных переменных: пол, национальность, цвет, населенный пункт и т.д. Номинальные переменные иногда называют категорийными.
Частным случаем номинальных признаков являются бинарные (дихотомические) признаки, представляющие собой признаки с двумя градациями, например, мужской и женский пол, вакцинированные и невакцинированные, масса тела пациента выше среднего или ниже, симптом болезни есть или нет. Наличие или отсутствие признака иногда кодируют цифрами: «нет» – 0, «да» – 1.
Часто начинающие исследователи ошибочно воспринимают их как обычные числовые значения. Однако эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя. Единственный способ описания категорийных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того, можно определить, какая доля от общего числа единиц измерения приходится на то или иное значение. Такими данными можно характеризовать структуру явления и представлять их в виде таблиц или диаграмм.

Порядковые переменные

Порядковые переменные позволяют ранжировать (упорядочить) единицы наблюдения, указав, какие из них в большей или меньшей степени обладают качеством, соответствующим данной переменной. Однако они не позволяют установить различие между ними (нельзя определить, на сколько больше или меньше). Порядковые переменные иногда называют ординальными. Типичные примеры порядковой переменной: состояние больного (тяжелое, средней тяжести, удовлетворительное); выраженность боли (сильная, умеренная, слабая, отсутствие боли). Широко известны диагностические инструменты: шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско–Василенко–Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), визуальная шкала боли и т.д. Все эти шкалы построены по схеме: болезни нет; первая стадия болезни; вторая стадия; третья стадия и т.д. Иногда стадии кодируют так: 1, 2а, 2б, 3 и т.д. Каждая стадия имеет свойственную только ей медицинскую характеристику [9].
С градациями этой переменной нельзя производить арифметические действия (складывать, вычитать, делить и т.д.). Понятно, что между тяжелым состоянием одного больного и состоянием средней тяжести другого больного есть разница, однако между этими состояниями нельзя установить разницу, скажем, в 18%. В данном случае градация порядковой переменной характеризуется последовательностью, в то время как номинальные переменные предназначены исключительно для различения категорий. Порядковые переменные играют ключевую роль в оценивании. Иногда признак (переменная) может иметь большое число градации. В связи с этим для сокращения записи таким переменным иногда присваивают определенный балл (от франц. Balle – шар) – условная единица для оценки интенсивности (насыщенности) явления по определенной шкале.

Количественные данные. Интервальные переменные

Интервальная переменная тип непрерывной или дискретной переменной с количественным значением, которую используют для обозначения интервальных показателей. Интервалы дискретной интервальной переменной определены. За единицу измерения интервальной переменной принимается одна и та же величина, равная интервалу между 2 соседними значениями переменной. К такому типу переменных относят, например, показатели артериального давления, пульса, концентрации того или иного вещества и т.п. По значениям интервальных переменных можно не только ранжировать измеряемые признаки по порядку, но и представлять их в количественной форме, а также сравнивать величины разностей между ними. Обычно в связи с этим приводят примеры об измерении температуры в градусах Цельсия. Исследователь исходя из свойств интервальной переменной в пределах ее значений может установить, что температура тела больного утром была 38,2 °С, а вечером 40,0 °С, т.е. повышение произошло на 1,8 °С. В этом контексте нельзя использовать показатель отношений: температура стала в 1,05 раза выше.
Другие примеры переменных, измеренных в интервальной шкале: время, высота местности над уровнем моря.
Интервальные переменные бывают непрерывными (когда теоретически между любыми 2 категориями может находиться еще одна категория) и дискретными (когда между значениями классов существуют промежутки). Так, температурная шкала рассматривается как непрерывная, а вот количество детей, родившихся у женщины, – величина дискретная. В интервальной шкале за нуль может быть принята любая точка отсчета. Вместе с тем из-за отсутствия фиксированной (абсолютной) точки отсчета единиц измерения интервальных переменных невозможно сравнение отношений этих переменных. Другими словами, измерения в интервальной шкале можно сравнивать через определение разности между значениями, однако анализ результатов отношения этих значений не имеет смысла.

ЗАДАЧА-ЭТАЛОН

Для разработки комплексного плана оздоровительных мероприятий для студентов медицинского вуза главным врачом студенческой поликлиники совместно с представителями студенческого профсоюзного комитета вуза проведено изучение влияния факторов риска на распространенность болезней органов пищеварения (БОП) у студентов.
РЕШЕНИЕ
Цель исследования: разработать мероприятия по снижению болезней органов пищеварения (БОП) у студентов медицинского вуза.

Задачи исследования:
Изучить распространенность различных болезней органов пищеварения (БОП) у студентов медицинского вуза.
Определить факторы риска возникновения БОП.
Разработать предложения для администрации вуза
Программа исследования:
Единица наблюдения студент с диагнозом БОП, обучающийся в медицинском вузе на данном факультете. 
Качественные признаки: пол, диагноз, характер питания. 
Количественные признаки: возраст, длительность заболевания, интервал между приемами пищи, число приемов пищи в день. 
Результативные признаки: наличие заболевания системы органов пищеварения. 
Факторные признаки: пол, возраст, характер питания и др.
План исследования

Объект исследования студент медицинского вуза, обучающиеся в данном медицинском вузе на данном факультете.
Объем статистической совокупности: достаточное число наблюдений.
Совокупность: выборочная, репрезентативная по качеству и количеству.
Сроки проведения исследования: 6 февраля 6 июня текущего года.
Методы сбора материала: анкетирование, выкопировка из медицинских документов студенческой поликлиники.

Тема 2. Варияционный ряд. Числовая характеристика дискретного статистического ряда. Средние величины. Полигон.

Ряд распределения – это последовательность качественых,количественных значений признака и частоты его встречаемости. Ряд, составленного на основе качественного признака – атрибутивных количественного – вариационный
Вариационный ряд (frequency table)- ранжированный ряд распределения по величине какого-либо признака. Этот признак носит название варьирующего, а его отдельные числовые значения называются вариантами и обозначаются через "х". Число, показывающее, сколько раз данная варианта встречается в вариационном ряду, называется частотой и обозначается через "р".
Вариационный ряд можно разбивать на отдельные (по возможности равные) части, которые называются квантилями (quantile). Наиболее часто употребляемые квантили представлены в таблице 1.

Название квантилей


Число частей, на которые разбивается ряд

Медиана

2


Терциль

3

Квартиль

4

Дециль

10

Процентиль

100

Таблица 1. Часто употребляемые квантили

Виды вариационных рядов: 1. В зависимости от вида случайной величины :
- дискретный; -
непрерывный .
2. В зависимости от группировки вариант:
- несгруппированный;
- сгруппированный (интервальный): 3.
В зависимости от частоты, с которой каждая варианта встречается в вариационном ряду:
- простой ( р =1);
- взвешенный ( р >1).

ОСНОВНЫЕ ХАРАКТЕРИСТИКИ ВАРИАЦИОННОГО РЯДА:

1). Показатели, характеризующие центральную тенденцию (central tendency) или уровень ряда: средние величины или меры расположения (собственно средние и структурные средние).
2). Показатели, характеризующие разнообразие (рассеяние, вариацию, разброс) (spread) признака: стандартное отклонение, дисперсия, размах.

Средние величины

Средняя величина - обобщающий коэффициент, который характеризует наиболее типичный размер определенного признака в целом для совокупности или для отдельных ее частей. Расчет средних величин имеет смысл только для качественно однородной совокупности, в связи с этим в одной совокупности может быть столько средних, на сколько однородных групп она может быть разбита.

Виды средних величин

Средняя арифметическая(mean) - применяется, если варианты возрастают (убывают) в арифметической прогрессии.
Хвыб. сред.=13 EMBED Equation.3 1415
х - средняя арифметическая; xi - варианта; m- частота встречаемости варианты; n - число наблюдений.
Изучаемый признак (х),Частота признака (х) =m.
· m= n Сумма «m» равно объёму выборки. Отношение частоты (m) к объёму выборки (n) называют относительной частотой (P) P= m/ n

Структурные средние.

- Мода (Мо) (mode)- наиболее часто встречающаяся в вариационном ряду варианта. Мода используется:
- при малом числе наблюдений, когда велико влияние состава совокупности на среднюю ;
- для характеристики центральной тенденции при ассиметричных распределениях, когда велико влияние на среднюю крайних вариант;
- Медиана (Me)(median) - варианта, которая делит вариационный ряд на две равные части.
Медиана используется:
- при необходимости знать, какая часть вариант лежит выше и ниже срединного значения;
- для характеристики центральной тенденции при ассиметричных распределениях .
Для графического изображения статического распределения используются полигоны и гистограммы. Полигон обычно используются в случае небольшого количества вариант. Полигон (многоугольник) частот - график ряда, представленный ломаной линией точки - вершины которой соответствуют серединам интервалов, а высота точки над горизонталью пропорциональна частоте или частотности.
По оси 0х – откладывают значение вариант х, на оси 0у –значение частот или относительных час10,10,1
13 SHAPE \* MERGEFORMAT 1415 1 2 3 4 5
П о л и г о н
Рисунок 1. Полигон

ЗАДАЧА-ЭТАЛОН

В рамках НИРС проводилось исследование уровня депрессии у студентов ГМУ г. Семей. Результаты некоторых студентов представлены ниже. Единица измерения – баллы.

Баллы
1
2
3
4
5

Количество
6
7
3
3
1




Задание:
РЕШЕНИЕ


Определить среднюю
2,3


Определить медиану
2


Определить моду
2


Определить нижний квартиль
1


Определить верхний квартиль
3


Построить полигон




Тема 3. Дисперсия. Стандартное отклонение. Стандартная ошибка среднего. Доверительный интервал.
Дисперсия(variance), - мера рассеяния, полученная суммированием квадратов индивидуальных отклонений с последующим делением суммы на объем совокупности.
Дисперсия генеральной совокупности обозначается
·2 ( выборочной s2 ) и вычисляется по формуле:

·2=13 EMBED Equation.3 1415.
Стандартное отклонение (standard deviation,) отражает изменчивость (разброс, вариацию) значений переменной и оценивает степень их отличия от среднего Стандартное ( среднее квадратическое ) отклонение - мера рассеяния равная корню квадратному из дисперсии. Оно рассчитывается на основании вычисленного показателя рассеяния данных, называемого дисперсией (variance), путем извлечения из него квадратного корня, в связи с чем в отечественной литературе его также называют «среднеквадратичным отклонением». Стандартное отклонение генеральной совокупности обозначается символом
· (сигма), а SD выборочной совокупности( s ) и вычисляется по формуле:
13 EMBED Equation.3 1415 13 EMBED Equation.3 1415

Стандартное отклонение может меняться непредсказуемо, т.е. расти или уменьшаться с увеличением размера выборки, однако обычно не слишком сильно. В статистике есть понятие «правила трех сигма». Оно гласит, что практически все наблюдения укладываются в интервал «среднее ± 3
·». Действительно, в интервал «± 3
·» попадают 99,7% наблюдений, ± 2
· включает 95,4%, а ± 1
· – всего 68,3% всех наблюдений. Это правило подходит для расширенны рукописный вариант различных распределений, включая нормальное.
Стандартная ошибка (среднего) (англ. standard error, SE, иногда standard error mean, SEM) является оценкой возможного отличия между значением среднего в анализируемой выборке, и истинным средним для всей популяции (которое на самом деле не может быть определено без анализа бесконечно большого числа наблюдений). Стандартная ошибка рассчитывается путем деления стандартного отклонения на квадратный корень из числа наблюдений в выборке и, следовательно, ее значение уменьшается с ростом размера выборки. Формула;
·
· 13 EMBED Equation.3 1415 .Это уменьшение является естественным, поскольку чем больше имеется наблюдений, тем больше вероятность, что рассчитанное среднее приближается к истинному.
Доверительный интервал (англ. confidence interval, CI) – диапазон значений, область, в которой с определенным уровнем надежности (или доверия) содержится истинное значение параметра (например, среднего). 90%-ный доверительный интервал означает, что истинное значение величины попадет в рассчитанный интервал с вероятностью 90%. В биомедицинских исследованиях доверительный интервал среднего обычно устанавливается на уровне 95% и определяется как ±1,96 стандартной ошибки (коэффициент 1,96 вытекает из предположения о нормальности распределения значения переменной при условии, что выборка достаточно велика). Для примера, если значение среднего систолического давления в исследованной группе составляет 125 мм рт.ст., а стандартная ошибка 5 мм рт.ст., то при 95% доверительном интервале границы диапазона значений среднего будут 115,2 и 134,8 мм рт.ст. (что составляет ± 9,8 (5 х 1,96) мм рт.ст. в обе стороны от значения среднего).


ЗАДАЧА-ЭТАЛОН

Х1
19
20
21
22
23

m1
2
1
6
8
2

13 EMBED Equation.3 1415=13 EMBED Equation.3 1415
·m= n=19

13 EMBED Equation.3 1415Х =13 EMBED Equation.3 1415=13 EMBED Equation.3 1415=13 EMBED Equation.3 1415; Х=21,3

Чтобы определить рассеянность значений количественного признака (х) генеральной совокупности вокруг своего среднего значения вводят характеристику генеральная дисперсия.
1. Генеральная дисперсия Дr
Дr =13 EMBED Equation.3 1415
2. Для характеристики количественного признака вокруг выборки, вокруг своего среднего значения выводят характеристику выборочная дисперсия Дb
Дb=13 EMBED Equation.3 1415 Хb=21,3

Дb=13 EMBED Equation.3 1415=13 EMBED Equation.3 1415 Дb=0,55
Среднее квадратическое отклонение – которое характеризует разнообразие признака.

· - среднее квадратическое отклонение

·r =
· Дr (генеральные среднее квадратическое)

·b =
· Дb (выборочние среднее квадратическое откланение.
Выборочные среднее квадратическое отклонение равно

·b =13 EMBED Equation.3 1415
Доверительный интервал ошибки статистического наблюдения.
Доверительная вероятность – вероятность с которой эта оценка покроет неизвестный параметр.
Доверительная вероятность –
·
Часто (
·) равно 0,9; 0,95; 0,99; 0,999
Продолжение задачи

·
· 13 EMBED Equation.3 1415 13 EMBED Equation.3 1415
t –по таблице = 2,10
Доверительный интервал:
21,3- 0,36= 21,60
21,3+ 0,36= 20,94

Тема 4. Интервальный статистический дискретный ряд распределения. Числовые характеристики интервального статистического ряда. Гистограмма.

Для признака,имеющего непрерывное изменение строится интервальный дискретный ряд Для проведения группировки сначала выбирается группировочный признак признак, по которому проводится разбивка единиц совокупности на отдельные группы. Затем определяют количество групп, на которые надо разбить исследуемую совокупность. Для количественного признака можно использовать формулу Стерджесса: К = l + 3,322 (lg N,
где К число групп; N число единиц совокупности.
После определения числа групп следует определить интервалы группировки. Интервал это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину (h), верхнюю и нижнюю границы или хотя бы одну из них. Величина равного интервала определяется по следующей формуле: h = (Xmax – Xmin) / n
Полученную величину округляют. Она является шагом интервала.

Объём выборки, n
Число интервалов, k


25-40
40-60
60-100
100-200
Более 200
5-6
6-8
7-10
8-10
10-15



13 EMBED Equation.3 1415; Ширина 13 EMBED Equation.3 1415
Интервальный статистический ряд можно изобразить графически. Для этого по оси абсцисс откладывают интервалы значений признака и на каждом из них, как на основании, строят прямоугольник с высотой, равной относительной частоте. Полученная столбцовая диаграмма называется гистограммой. Гистограмма – совокупность прилегающих друг к другу прямоугольников. .

График 1. Гистограмма

ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ИНТЕРВАЛЬНОГО СТАТИСТИЧЕСКОГО РЯДА 
Выборочное среднее (Х) - это среднее арифметическое всех элементов простого статистического ряда:
Хвыб. сред.=13 EMBED Equation.3 1415
Выборочная дисперсия s2 равна сумме квадратов отклонений элементов от выборочного среднего:

·2=13 EMBED Equation.3 1415.
Выборочное среднеквадратическое отклонение (s) - это квадратный корень из выборочной дисперсии:
13 EMBED Equation.3 1415
ЗАДАЧА-ЭТАЛОН
Х
150-154
154-158
158-162
162-166
166-170
170-174
174-178
178-182
182-186

m
1
2
11
23
25
22
11
3
1

p










Вычислить:
1.Выборочную среднюю
2.Выборочную дисперсию
3.относительные частоты
4. Определить ширину интервала
5. Построить гистограмму относительных частот.

Тема 5. Нулевая гипотеза. Альтернативная гипотеза. Ошибки первого и второго рода.



Гипотеза – научное предположение в виде высказывания, истинность или ложность которого неизвестны, но могут быть проверены опытным путем (эмпирически).
Нулевая гипотеза – в самом общем виде она формулируется как гипотеза об отсутствии отличий в выборках, в условиях экспериментов, о равенстве меры связи нулю, о сходстве двух распределений и т.д.
Альтернативная гипотеза – статистическая гипотеза о наличии различий (в выборках и условиях экспериментов, отличие меры связи от нуля, различие двух распределений и т.д.).
Мощность критерия – его способность выявлять различия, если они есть.
Ошибка 1 рода – ошибка, состоящая в том, что мы отклонили нулевую гипотезу, в то время как она верна.
Ошибка 2 рода – ошибка, состоящая в том, что мы приняли нулевую гипотезу, в то время как она неверна.
Понятие гипотезы (греч.
·
·
·
·
·
·
·
· – "основа, предположение") представляет собой научное предположение, истинность которого еще не подтверждена. Гипотеза может выступать как метод развития научного знания (выдвижение и экспериментальная проверка предположений), а также как элемент структуры научной теории. Создание гипотетической системы в процессе осуществления тех или иных мыслительных операций позволяет человеку делать доступным для обсуждения и видимого преобразования предполагаемое устройство определенных объектов. Процесс прогнозирования по отношению к данным объектам приобретает более конкретный и обоснованный характер.


Основные свойства гипотезы
В. Н. Дружинин выделяет три типа гипотез с точки зрения их происхождения:
1. Теоретически обоснованные – основывающиеся на теории (модели реальности) и являющиеся прогнозами, следствиями данных теорий.
2. Научные экспериментальные – также подтверждают (либо опровергают) те или иные модели реальности, однако за основу берутся не уже сформулированные теории, а интуитивные предположения исследователя («А почему бы не так?..»).
3. Эмпирические гипотезы, сформулированные относительно конкретного данного случая. Примеры гипотез: «на каждое раждражение нервной системы возникает ответная реакция» После подтверждения гипотезы в процессе эксперимента она приобретает статус факта. Общим для всех экспериментальных гипотез является такое свойство, как операционализируемость, то есть формулирование гипотез в терминах конкретных экспериментальных процедур.
В данном контексте также можно выделить три типа гипотез:
гипотезы о наличии того или иного явления (тип А);
гипотезы о наличии связи между явлениями (тип Б);
гипотезы о наличии причинной связи между явлениями (тип В).
Примеры гипотез типа А: Существует ли феномен «сдвига к риску» (термин социальной психологии) в процессе группового принятия решения? Есть ли жизнь на Марсе? Возможна ли передача мыслей на расстоянии? Также сюда можно отнести периодическую систему химических элементов Д.И. Менделеева, на основе которой ученый предсказал существование еще не открытых на тот момент элементов. Таким образом, к данному типу относятся все гипотезы о фактах и явлениях.
Примеры гипотез типа Б: Все внешние проявления мозговой деятельности могут быть сведены к мышечным движениям (И.М. Сеченов). Экстраверты имеют бо
·льшую склонность к риску, чем интроверты. Соответственно, данный тип гипотез характеризуют те или иные связи между явлениями.
Примеры гипотез типа В: Центробежная сила уравновешивает тяжесть и сводит ее к нулю (К.Э. Циолковский). Развитие мелкой моторики ребенка способствует развитию его интеллектуальных способностей. Данный тип гипотез имеет в своей основе независимую и зависимую переменные, отношения между ними, а также уровни дополнительных переменных.
Различают научные и статистические гипотезы. Научные гипотезы формулируются как предполагаемое решение проблемы. Статистическая гипотеза – утверждение в отношении неизвестного параметра, сформулированное на языке математической статистики. Любая научная гипотеза требует перевода на язык статистики. После проведения конкретного эксперимента проверяются многочисленные статистические гипотезы, поскольку в каждом психологическом исследовании регистрируется не один, а множество поведенческих параметров.
Научные гипотезы. Экспериментальная гипотеза служит для организации эксперимента, а статистическая – для организации процедуры сравнения регистрируемых параметров.
Процесс выдвижения и опровержения гипотез можно считать основным и наиболее творческим этапом деятельности исследователя. Установлено, что количество и качество гипотез определяется общей креативностью (общей творческой способностью) исследователя – «генератора идей». Гипотеза может отвергаться, но никогда не может быть окончательно принятой.
Статистические гипотезы.

Гипотезой называется предположение, имеющее вероятностный характер и обладающее неопределённостью в отношении своей истинности. Гипотеза формулируется для того, чтобы представить в чётком и лаконичном виде представления автора о том или ином факте и его причинах. Выделяют два вида гипотез: нулевую и альтернативную.

1. Нулевая гипотеза формулируется как гипотеза об отсутствии различий.
2. Альтернативная противоположна по смыслу нулевой. Она утверждает наличие отличий в выборках и параметрах их распределения.

Нулевая и альтернативная гипотезы образуют полную группу несовместимых событий.
Если принимается одна, то отклоняется другая. Обычно исследование проводится для проверки гипотезы, которая является следствием теоретических представлений. Эта гипотеза содержит утверждение о связи абстрактных категорий, относящихся к свойствам более или менее широкой совокупности объектов генеральной совокупности.
Предположение, которое проверяется с применением научного метода, будем называть научной гипотезой.
Любое исследование сводится к выявлению связи между переменными. Связь эта может выражаться в величине и направлении различий между сравниваемыми группами или в знаке и величине коэффициента корреляции. То есть связь характеризуется своей силой и направлением. Однако есть еще одна не менее важная характеристика связи ее надежность, «истинность».
Надежность связи непосредственно связана с репрезентативностью выборки, с тем, насколько уверенно статистики выборки позволяют судить о соответствующих параметрах генеральной совокупности. Ведь связь, обнаруженная в выборке, интересует исследователя лишь в той мере, в какой она позволяет судить о связи, которая существует в генеральной совокупности.
Обобщённая методика проверки статистических гипотез
Формулируется нулевая гипотеза H0, которую мы хотим опровергнуть, и, возможно, альтернативная гипотеза H1. Если альтернативная гипотеза явно не формулируется, то подразумевается, что она соответствует утверждению “нулевая гипотеза не верна”, т.е. “не H0”. Иногда рассматривают сразу несколько альтернатив.
Задаётся некоторая статистика, т.е. функция выборки.
Фиксируется уровень значимости – допустимая для данной задачи вероятность ошибки первого рода, т.е. того, что нулевая гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число 
·
·(0,1). На практике часто полагают 
·=0,05.
На множестве допустимых значений статистики выделяется критическое множество наименее вероятных её значений, соответствующее тому, что нулевая гипотеза должна быть отвергнута. Остальная часть множества значений является допустимой, т.е. не опровергает нулевую гипотезу.
Проверяется, куда попадает значение статистики. Если в допустимое множество, то принимается нулевая гипотеза. Если в критическое, то нулевая гипотеза отвергается.

Большинство проверяемых гипотез сравнивают между собой группы объектов, которые испытывают влияние различных факторов. 
Например, можно сравнить эффективность двух видов лечения, чтобы сократить 5-летнюю смертность от рака молочной железы. Для данного исхода (например, смерть) сравнение, представляющее интерес (например, различные показатели смертности через 5 лет), называют эффектом или, если уместно, эффектом лечения. 
Нулевую гипотезу выражают как отсутствие эффекта (например 5-летняя смертность от рака молочной железы одинаковая в двух группах, получающих разное лечение); двусторонняя альтернативная гипотеза будет означать, что различие эффектов не равно нулю. 
Критериальная проверка гипотезы дает возможность определить, достаточно ли аргументов, чтобы отвергнуть нулевую гипотезу. Можно принять только одно из двух решений: 
Отвергнуть нулевую гипотезу и принять альтернативную гипотезу 
Остаться в рамках нулевой гипотезы
Важно: В литературе достаточно часто встречается понятие "принять нулевую гипотезу". Со статистической точки зрения принять нулевую гипотезу невозможно, т.к. нулевая гипотеза представляет собой достаточно строгое утверждение (например, средние значения в сравниваемых группах равны ).
Поэтому фразу о принятии нулевой гипотезы следует понимать как то, что мы просто остаемся в рамках гипотезы. 

Принятие неправильного решения
Возможно неправильное решение, когда отвергают/не отвергают нулевую гипотезу, потому что есть только выборочная информация.

Гипотеза Н0
Верна
Не верна

Результат   применения   критерия
Принимается
H0 верна и принята
(Решение верное)
H0 неверна, но принята   (Ошибка второго рода)


Отвергается
H0 верна, но отвергнута   (Ошибка первого рода)
H0 не верна и отвергнута
(Решение верное)

Таблица 2. Принятие неправильного решения.
Ошибка 1-го рода: нулевую гипотезу отвергают, когда она истинна, и делают вывод, что имеется эффект, когда в действительности его нет.
Ошибка 2-го рода: не отвергают нулевую гипотезу, когда она ложна, и делают вывод, что нет эффекта, тогда как в действительности он существует.
Вероятность ошибки первого рода  называют уровнем значимости (significance level) и обозначают греческой буквой 
·.
Вероятность ошибки второго рода  обозначается греческой буквой 
·.
Разность (1
·
·) называется мощностью критерия (Power of the test).
По смыслу это вероятность не совершить ошибку второго рода, т.е. вероятность принять альтернативную гипотезу при условии, что она истинна.
Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.
Следовательно, мощность  это вероятность отклонения нулевой гипотезы, когда она ложна, т.е. это шанс (обычно выраженный в процентах) обнаружить реальный эффект лечения в выборке данного объема как статистически значимый.
В идеале хотелось бы, чтобы мощность критерия составляла 100%; однако это невозможно, так как всегда остается шанс, хотя и незначительный, допустить ошибку 2-го рода. 
ЗАДАЧА-ЭТАЛОН

Ученые разработали тест, который улавливает в крови генетические маркеры любой вирусной инфекции. Тест позволяет отличить любую вирусную инфекцию от бактериальной. Когда человек заболевает с симптомами ОРЗ острого респираторного заболевания, то распознать сразу источник инфекции вирус это или бактерия практически невозможно. Между тем, очевидно, что лечение в этих двух случаях должно быть абсолютно разным.
В результате проведения теста на обнаружение вируса результаты могут быть как истинными, так и есть вероятность ложного прогноза.
Определите, каким результатам теста соответствуют типы решений и возможных ошибок.

Результат теста
Вид решения

ложно положительный



ложно отрицательный



истинно отрицательный



истинно положительный




РЕШЕНИЕ

Результат теста
Вид решения

ложно положительный

Ошибка 1 рода (когда человек на самом деле здоров)

ложно отрицательный

Ошибка 2 рода (тест не обнаружил признаков заболевания, когда человек на самом деле болен)

истинно отрицательный

Медицинский тест правильно диагностировал отсутствие заболевания (верно принята нулевая гипотеза)

истинно положительный

Если медицинский тест правильно диагностировал наличие заболевания (верно принята альтернативная гипотеза)


Если тест обнаружил заболевание, когда человек на самом деле здоров (ошибка первого рода), то такой результат называется ложно положительным (false-positive, FP).
Обратная ситуация: тест не обнаружил признаков заболевания, когда человек на самом деле болен (ошибка второго рода); такой результат называется ложно отрицательным (false-negative, FN).
Остальные два возможных случая: если медицинский тест правильно диагностировал отсутствие заболевания (верно принята нулевая гипотеза), то такой результат называют истинно отрицательным (true-negative,TN); наконец, если медицинский тест правильно диагностировал наличие заболевания (верно принята альтернативная гипотеза), то такой результат называют истинно положительным (true-positive, TP).

Тема 6. Нормальное распределение, характеристика, графическая проверка.

Нормальное (гауссово, симметричное, колоколообразное) распределение - распределение вероятностей, которое в одномерном случае задаётся функцией плотности вероятности, совпадающей с функцией Гаусса:
[ Cкачайте файл, чтобы посмотреть картинку ]
где параметр 
·  математическое ожидание (среднее значение),медиана и мода распределения, а параметр 
· среднеквадратическое отклонение (
·І  дисперсия) распределения.
Стандартным нормальным распределением называется нормальное распределение с математическим ожиданием 
· = 0 и стандартным отклонением 
· = 1.
Встречается в природе наиболее часто, за что и получило название «нормального». Характеризует распределение непрерывных случайных величин.
х - значения случайной величины;
р - вероятность появления данного значения в совокупности. (Рисунок 2,3)

Рисунок 2. График нормального распределения

Рисунок 3. График нормального распределения
Значение
Важное значение нормального распределения во многих областях науки (например, в [ Cкачайте файл, чтобы посмотреть ссылку ] и [ Cкачайте файл, чтобы посмотреть ссылку ]) вытекает из [ Cкачайте файл, чтобы посмотреть ссылку ] [ Cкачайте файл, чтобы посмотреть ссылку ]. Если результат наблюдения является суммой многих случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад относительно общей суммы, то при увеличении числа слагаемых распределение центрированного и нормированного результата стремится к нормальному. Этот закон теории вероятностей имеет следствием широкое распространение нормального распределения, что и стало одной из причин его наименования.
Нормальное распределение в природе и приложениях
Нормальное распределение часто встречается в природе. Например, следующие случайные величины хорошо моделируются нормальным распределением:
отклонение при стрельбе.
[ Cкачайте файл, чтобы посмотреть ссылку ] (однако погрешности некоторых измерительных приборов имеют не нормальные распределения).
некоторые характеристики живых организмов в популяции.
Характеристика нормального распеределения
Полностью определяется двумя параметрами средней (µ) и дисперсией (
·2)
Колоколообразная (унимодальная)
Симметричная относительно среднего
Сдвигается вправо, если средняя увеличивается, и влево если средняя уменьшается (при постоянной дисперсии)
Сплющивается, если дисперсия увеличивается, но становится более остроконечной, если дисперсия уменьшается (для постоянного среднего)
Дополнительные свойства
Среде и медиана нормального распеределения равны
Вероятность того, что нормально распределенная случайная переменная х со средним µ , и стандартным отклонением
·, находятся между
(µ -
·) и (µ +
·) равна 0,68
(µ - 1,96
·) и (µ + 1,96
·) равна 0,95
(µ - 2,58
·) и (µ + 2,58
·) равна 0,99
Отклонение параметра от его средней арифметической в пределах
·
расценивается как норма, субнормальным считается отклонение в пределах ± 2
· и патологическим - сверх этого предела, т.е. > ± 2
·"

Рисунок 4. Разделение на квантили


Рисунок 5. Правило «трех сигм» (SD - стандартное отклонение)

Для оценки «крутизны» (островершинности) распределения пользуются характеристикой – эксцессом.

Рисунок 6. Островершинность распеределения

Асимметрия положительна (As>0), если длинная часть кривой распределения расположена справа от моды (Мо). В этом случае соотношение между средней, медианой и модой нарушено:


Рисунок 7. Ассиметричное распределение (правосторонняя ассиметрия)
Асимметрия отрицательна (As<0), если длинная часть кривой распределения расположена слева от моды (Мо).


Рисунок 8. Ассиметричное распределение (левосторонняя ассиметрия)

As< 0.25 – слабая асимметрия
As= 0.25-0.5 – умеренная асимметрия
As> 0.5 – крайне асимметричное распределение


Характер распределения
Описание «островершинности»
Величина
эксцесса

Нормальное, например кривая В на рис. 1.31
Средневершинное
0

Островершинное, например кривая А на рис. 1.31
Островершинное
Больше 0 (может быть очень большой)

Плоское, например кривая Б на рис. 1
Плосковершинное
Меньше 0

Таблица 3. Соотношение величины статистики эксцесса с «островершинностью» распределения частот


Рисунок 9. Островершинная», «плоская» и «промежуточная» («средневершинная») кривые (А, Б, В, соответственно)

Проверка на нормальность(R-ч.0,06%)
Визуальный метод
График вероятности
Критерий Колмогорова-Смирнова.
Если K-S d>0,0895, распределение не соответствует нормальному на уровне значимости 0,05.
Критерий Шапиро-Уилка
Совпадение значений моды и медианы
Равенство нулю показателей асимметрии и эксцесса (таблицы критических значений для заданной выборки)
Нормальное распределение - фундаментальный закон природы Мировая практика: нормальное распределение 20-25% !!!

Рисунок 10. Гистограмма нормального распределения

Проверка на нормальность с помощью графика вероятности


Рисунок 11. Q-Q диаграмма нормального распределения
ЗАДАЧА-ЭТАЛОН

Критерии Колмогорова – Смирнова
Этот критерий применяется для проверки простой гипотезы F(x), о том что независимые одинаково распределенные случайные величины Х1, Х2 . . . Х n имеют заданную непрерывную функцию распределения F(x)
Задачи:
При уровне значимости 0,05, проверить гипотезу о нормальном распределении генеральной совокупности, если эмперические и теоретические частоты известны.
Эмперические частоты
6
13
38
74
106
85
30
14

Теоретические частоты
3
14
42
82
99
76
37
13


Вычисляем по формуле: 13 EMBED Equation.3 1415
і
n
n1
n- n1
(n- n1)2
13 EMBED Equation.3 1415

1
6
3
3
9
3

2
13
14
-1
1
0,07

3
38
42
-4
16
0,38

4
74
82
-8
64
0,78

5
106
99
7
49
0,49

6
85
76
9
81
1,07

7
30
37
-7
49
1,32

8
14
13
1
1
0,08

13 EMBED Equation.3 1415


Найдем число степеней свободы, что число различных вариантов m=8 имеем k=8-3=5 При уровне значимости Р=0,05, степеней свободы 5, по таблице находим Х2 , Х2= 11,1 так как 13 EMBED Equation.3 1415 < Х2

Тема 8. Критерий Стюдента

t-критерий Стьюдента – общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.
Для чего используется t-критерий Стьюдента? t-критерий Стьюдента используется для определения статистической значимости различий средних величин. Может применяться как в случаях сравнения независимых выборок (например, группы больных сахарным диабетом и группы здоровых), так и при сравнении связанных совокупностей (например, средняя частота пульса у одних и тех же пациентов до и после приема антиаритмического препарата).
В каких случаях можно использовать t-критерий Стьюдента? Для применения t-критерия Стьюдента необходимо, чтобы исходные данные имели нормальное распределение.
Критерий t-Стьюдента для одной выборки
Данный метод позволяет проверить гипотезу о том, что среднее значение изучаемого признака отличается от некоторого известного значения.
Таким образом, в ходе данной методики будет доказано, достоверно выше или достоверно ниже нормы, а также возможно и не отличается от среднего уровня развития исследуемого свойства.
Критерий t-Стьюдента для зависимых выборок
Этот метод позволяет проверить гипотезу о том, что средние значения двух генеральных совокупностей, из которых извлечены сравниваемые зависимые выборки, отличаютс
·я друг от друга. Зависимая выборка – когда определенные признак измерен на одной и той же выборке дважды, например, до и после воздействия, лечения и т.п.
Исходные предположения – 1) каждому представителю одной выборки поставлен в соответствие представитель другой выборки; 2) данные двух выборок положительно коррелируют; 3) распределение признака в обеих выборках приблизительно соответствует нормальному
Критерий t-Стьюдента для независимых выборок
Данный метод сравнения позволяет проверить гипотезу о том, что средние значения двух генеральных совокупностей, из которых извлечены сравниваемые независимые выборки, отличаются друг от друга.
Исходные предположения – 1) одна выборка извлекается из одной генеральной совокупности, а другая выборка, независимая от первой, извлекается из другой генеральной совокупности; 2) распределение признака в обеих выборках приблизительно соответствует нормальному; 3) дисперсии признака в 2-х выборках примерно одинаковы (гомогенны).
По результатам выборочных наблюдений находят выборочное среднее Хв, Ув и . дисперсию, а затем вычисляют экспериментальное значение критерий tэкс по формуле:
tэкс =13 EMBED Equation.3 1415
nx, nу -объём выборок величин X, и У соответственно,полученное значение
tэкс сравнивают со значением критической точки t кр (Р1 t) распределения
Стьюдента, где f = nx + nу -2
Р уровень значимости = 0,05

Сравниваем критическое и рассчитанное значения критерия:
Если t экс < tKау - Но принимаем, то значение рассчитанного t-критерия Стьюдента меньше табличного, значит различия сравниваемых величин статистически не значимы
Если t экс > tKау - Но отвергаем, то рассчитанное значение t-критерия Стьюдента равно или больше критического, найденного по таблице, делаем вывод о статистической значимости различий между сравниваемыми величинами

ЗАДАЧА-ЭТАЛОН
Измерение пульса 15 больных, после определенной процедуры.

х
60
65
68
70
72
75
78
80

m
1
1
2
5
3
1
1
1



· m = n =15
X в = 13 EMBED Equation.3 1415

Измерение пульса у 15 больных контрольной группы
У
60
65
68
70
72
75
78
80

m
1
1
5
3
2
1
1
1



· m = n =15
У в = 13 EMBED Equation.3 1415

13 EMBED Equation.3 1415


Оценка дисперсии
13 EMBED Equation.3 1415

tэкс=
tкр13 EMBED Equation.3 1415
tэкс>tкр= Н0 гипотезу отвергаем


Тема 9. Дисперсионный анализ

Для сравнения генеральных средних (более двух) нескольких нормально распределенных совокупностей с одинаковыми дисперсиями по результатам наблюдений применяется дисперсионный анализ.
Дисперсионный анализ –это статистический метод оценки связи между факторным и результативным признаками в различных группах . Эти группы формируются случайным образом, основанные на определении различий (разнообразия) значений признаков.В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. Мерой отклонения берется дисперсия.
При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения);
-нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением;
-независимость (не связанность) распределения наблюдений в группах;
-наличие частоты (повторность) наблюдений.

В зависимости от количества изучаемых факторов различают однофакторный и многофакторный дисперсионный анализ.
Однофакторный дисперсионный анализ изучает действие некоторого фактора А, имеющий L постоянных уровней на нормально распределенную величину Х. В основе однофакторного дисперсионного анализа лежит тесная связь между различием в групповых средних Х и соотношения между двумя видами дисперсии. Общая дисперсия = остаточный(внутригрупповая) + факторный(межгрупповая).
Doбщ. = Dфакт + D ост.,
Doбщ. - общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;
Dфакт - факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков наблюдается межгрупповое разнообразие.
D ост. - остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.
Факторная дисперсия характеризует влияние фактора А, на величину Х, остаточная - влияние случайных причин.Если значение факторной дисперсии существенно выше значения остаточной дисперсии то считается фактор оказывае влияние на результативный признак.
Двухфакторный дисперсионный анализ – влияние двух одновременно действующих факторов А и В на формирование значении нормально распределенной случайной величины Х.

ЗАДАЧА-ЭТАЛОН

При уровне значимости р= 0,05, проверить значимость различий между групповыми средними значениями масс (граммах) экспериментальных животных, которые были подвергнуты воздействию некоторого физического фактора.

№ испытания
Уровень фактора А


А1
А2
А3

1
2
3
4
30
32
34
28
35
39
38
36
40
38
44
42


· Х1
31
37
41


1. Определяем среднюю выборочную Х=
· Х1/q
13 EMBED Equation.3 1415 Х1 = 31
13 EMBED Equation.3 1415 Х2 = 37
13 EMBED Equation.3 1415 Х3 = 41
Х – случайные величины
q – число наблюдений

2. Определить из всех значении средних Х1, Х2
Группавое среднее Хгр=
· Х1/L
13 EMBED Equation.3 1415

13 EMBED Equation.3 1415Номер испытания
Уровень фактора А


А1
А2
А3

1
2
3
4
-6
-4
-2
-8
-1
3
2
0
4
2
8
6


3. Вычисляем сумму значений величины (Х) на уровне Аj
13 EMBED Equation.3 1415
R1= (-6) + (-4) +(-2) + (-8)= - 20
R2= (-2)+3+2+0=4
R3= 4+2+8+6=20

4. Определяем сумма квадратов значений величины (Х) на уровне Аj
13 EMBED Equation.3 1415
Р1= (-6)2 + (4)2 + (-2) + (-8)2 =120
Р2= (1)2 + (3)2 + (2) + (0)2 =14
Р3= (4)2 + (2)2 + (8) + (6)2 =120

5. Определяем S2 остаточную и S2 факторную дисперсии.
13 EMBED Equation.3 1415
13 EMBED Equation.3 1415
13 EMBED Equation.3 1415
13 EMBED Equation.3 1415
13 EMBED Equation.3 1415

6. Вычисляем S2 остаточную дисперсию 13 EMBED Equation.3 1415
13 EMBED Equation.3 1415
13 EMBED Equation.3 1415
13 EMBED Equation.3 1415
13 EMBED Equation.3 1415
Fэкс = S2ф / S2ост Fэкс =13 EMBED Equation.3 1415
Fкрит =[p, L-1, L(q-1)] =0.05, 2.9 =4.26 (по таблице Фишера – Снедекора)
Fэкс = 3,74
Fэкс = 4,26
Вывод, Fэкс < Fкр H0 гипотезу принимаем.

На вес животных рассматриваемый физический фактор не оказывает существенное влияние.

Тема 10. Отношение шансов. Относительный риск. Таблица сопряженности.
ОТНОШЕНИЕ ШАНСОВ
Отношение шансов – статистический показатель (на русском его название принято сокращать как ОШ, а на английском - OR от "odds ratio"), один из основных способов описать в численном выражении то, насколько отсутствие или наличие определённого исхода связано с присутствием или отсутствием определённого фактора в конкретной статистической группе.
1. История разработки показателя отношения шансов
Термин "шанс" пришел из теории азартных игр, где при помощи данного понятия обозначали отношение выигрышных позиций к проигрышным. В научной медицинской литературе показатель отношения шансов был впервые упомянут в 1951 году в работе Дж. Корнфилда. Впоследствие данным исследователем были опубликованы работы, в которых отмечалась необходимость расчета 95% доверительного интервала для отношения шансов. (Cornfield, J. A Method for Estimating Comparative Rates from Clinical Data. Applications to Cancer of the Lung, Breast, and Cervix // Journal of the National Cancer Institute, 1951. - N.11. - P.1269–1275.)
2. Для чего используется показатель отношения шансов?
Отношение шансов позволяет оценить связь между определенным исходом и фактором риска.
Отношение шансов позволяет сравнить группы исследуемых по частоте выявления определенного фактора риска. Важно, что результатом применения отношения шансов является не только определение статистической значимости связи между фактором и исходом, но и ее количественная оценка.
3. Условия и ограничения применения отношения шансов
Результативные и факторные показатели должны быть измерены в номинальной шкале. Например, результативный признак - наличие или отсутствие врожденного порока развития у плода, изучаемый фактор - курение матери (курит или не курит).
Данный метод позволяет проводить анализ только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения(например, пол - мужской или женский, артериальная гипертония - наличие или отсутствие, исход заболевания - с улучшением или без улучшения...).
Сопоставляемые группы должны быть независимыми, то есть показатель отношения шансов не подходит для сравнения наблюдений "до-"после".
Показатель отношения шансов используется в исследованиях по типу "случай-контроль"(например, первая группа - больные гипертонической болезнью, вторая - относительно здоровые люди). Для проспективных исследований, когда группы формируются по признаку наличия или отсутствия фактора риска (например, первая группа - курящие, вторая группа - некурящие), обычно рассчитывается [ Cкачайте файл, чтобы посмотреть ссылку ].
4. Как рассчитать отношение шансов?
Отношение шансов – это значение дроби, в числителе которой, находятся шансы определённого события для первой группы, а в знаменателе шансы того же события для второй группы.
Шансом является отношение числа исследуемых, имеющих определенный признак (исход или фактор), к числу исследуемых, у которых данный признак отсутствует.
Например, была отобрана группа пациентов, прооперированных по поводу панкреонекроза, число которых составило 100 человек. Через 5 лет из их числа в живых осталось 80 человек. Соответственно, шанс выжить составил 80 к 20, или 4,0.
Удобным способом является расчёт отношения шансов со сведением данных в таблицу 2х2:
 
Исход есть (1)
Исхода нет (0)
Всего

Фактор риска есть (1)
A
B
A + B

Фактор риска отсутствует (0)
C
D
C + D

Всего
A + C
B + D
A + B + C + D

Таблица 4. Четырехпольная таблица (таблица 2х2)
Для данной таблицы отношение шансов рассчитывается по следующей формуле:

Очень важно оценить статистическую значимость выявленной связи между исходом и фактором риска. Связано это с тем, что даже при невысоких значениях отношения шансов, близких к единице, связь, тем не менее, может оказаться существенной и должна учитываться в статистических выводах. И наоборот, при больших значениях OR, показатель оказывается статистически незначимым, и, следовательно, выявленной связью можно пренебречь.
Для оценки значимости отношения шансов рассчитываются границы 95% доверительного интервала (используется абрревиатура 95% ДИ или 95% CI от англ. "confidence interval"). Формула для нахождения значения верхней границы 95% CI:

Формула для нахождения значения нижней границы 95% CI:

5. Как интерпретировать значение отношения шансов?
Если отношение шансов и его 95% ДИ превышает 1, то это означает, что шансы обнаружить фактор риска больше в группе с наличием исхода. Т.е. фактор имеет прямую связь с вероятностью наступления исхода или это «фактор агрессии». В данном случае значение р<0,05
Отношение шансов и его 95% ДИ, имеющее значение меньше 1, свидетельствует о том, что шансы обнаружить фактор риска больше во второй группе. Т.е. фактор имеет обратную связь с вероятностью наступления исхода или это «фактор защиты». В данном случае значение р<0,05
При отношении шансов, равном единице, шансы обнаружить фактор риска в сравниваемых группах одинакова. Соответственно, фактор не оказывает никакого воздействия на вероятность исхода. В данном случае значение р>0,05
Если 95% ДИ ОШ включает в себя 1,то нельзя дать однозначного заключения о влиянии фактора на развитие исхода. Соответственно, фактор не оказывает никакого воздействия на вероятность исхода. В данном случае значение р>0,05
Дополнительно в каждом случае обязательно оценивается статистическая значимость отношения шансов исходя из значений 95% доверительного интервала.
Если доверительный интервал не включает 1, т.е. оба значения границ или выше, или ниже 1, делается вывод о статистической значимости выявленной связи между фактором и исходом при уровне значимости p<0,05.
Если доверительный интервал включает 1, т.е. его верхняя граница больше 1, а нижняя - меньше 1, делается вывод об отсутствии статистической значимости связи между фактором и исходом при уровне значимости p>0,05.
ЗАДАЧА-ЭТАЛОН
Представим две группы: первая состояла из 200 женщин, у которых был диагностирован врожденный порок развития плода (Исход+). Из них курили во время беременности (Фактор+) - 50 человек (А), являлись некурящими (Фактор-) - 150 человек (С).
Вторую группу составили 100 женщин без признаков ВПР плода (Исход -) среди которых курили во время беременности (Фактор+) 10 человек (B), не курили (Фактор-) - 90 человек (D).
1. Составим четырехпольную таблицу сопряженности:
 
ВПР плода диагностирован
ВПР плода отсутствует
Всего

Курящие
50 (А)
10 (В)
60

Некурящие
150 (С)
90 (D)
240

Всего
200
100
300

2. Рассчитаем значение отношения шансов:
OR = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.
3. Найдем границы 95% CI. Значение нижней границы, рассчитанной по указанной выше формуле составило 1,45, а верхней - 6,21.
Интерпретация результатов (1 и 2 интерпретация равнозначны):
исследование показало, что шансы встретить курящую женщину среди пациенток с диагностированным ВПР плода в 3 раза выше, чем среди женщин без признаков ВПР плода. Наблюдаемая зависимость является статистически значимой, так как 95% CI не включает 1, значения его нижней и верхней границ больше 1.
Шансы встретить курящую женщину среди пациенток с диагностированным ВПР плода на 200% выше, чем среди женщин без признаков ВПР плода. Наблюдаемая зависимость является статистически значимой, так как 95% CI не включает 1, значения его нижней и верхней границ больше 1.
ОТНОСИТЕЛЬНЫЙ РИСК
Риск – это вероятность появления определенного исхода, например, болезни или травмы. Риск может принимать значения от 0 (вероятность наступления исхода отсутствует) до 1 (во всех случаях ожидается неблагоприятный исход). В медицинской статистике, как правило, изучаются изменения риска наступления исхода в зависимости от какого-либо фактора. Пациенты условно разделяются на 2 группы, на одну из которых фактор влияет, на другую – нет.
Относительный риск – это отношение частоты исходов среди исследуемых, на которых оказывал влияние изучаемый фактор, к частоте исходов среди исследуемых, не подвергавшихся влиянию этого фактора. В научной литературе часто используют сокращенное название показателя - ОР или RR (от англ. "relative risk").
1. История разработки показателя относительного риска
Расчет относительного риска заимствован медицинской статистикой из экономики. Правильная оценка влияния политических, экономических и социальных факторов на востребованность товара или услуги может привести к успеху, а недооценка этих факторов - к финансовым неудачам и банкротству предприятия.
2. Для чего используется относительный риск?
Относительный риск используется для сравнения вероятности исхода в зависимости от наличия фактора риска. Например, при оценке влияния курения на частоту гипертонической болезни, при изучении зависимости частоты рака молочной железы от приема оральных контрацептивов и др. Относительный риск - важнейший показатель в назначении определенных методов лечения или проведении исследований с возможными побочными эффектами.
3. Условия и ограничения применения относительного риска
Показатели фактора и исхода должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский, артериальная гипертония - есть или нет).
Данный метод позволяет проводить анализ только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, возраст младше или старше 50 лет, наличие или отсутствие определенного заболевания в анамнезе).
Относительный риск применяется при проспективных исследованиях, когда исследуемые группы формируются по признаку наличия или отсутствия фактора риска. При исследованиях по принципу "случай-контроль" вместо относительного риска должен использоваться показатель [ Cкачайте файл, чтобы посмотреть ссылку ].
4. Как рассчитать относительный риск?
Для расчета относительного риска необходимо:
Строим четырехпольную таблицу сопряженности, исходя из количества исследуемых, имеющих определенные значения факторного и результативного признаков:
 
Исход есть (1)
Исхода нет (0)
Всего

Фактор риска есть (1)
A
B
A + B

Фактор риска отсутствует (0)
C
D
C + D

Всего
A + C
B + D
A+B+C+D

Таблица 4. Четырехпольная таблица (таблица 2х2)
Находим значение относительного риска по следующей формуле:

где A, B, C, D – количество наблюдений в ячейках таблицы сопряженности.
Находим значения границ доверительного интервала - 95% ДИ (или 95% CI - от англ. "confidence interval").
Формула расчета верхней границы:

Формула расчета нижней границы доверительного интервала:

Сравниваем значения относительного риска и границ доверительного интервала с единицей.
5. Как интерпретировать значение относительного риска?
Показатель относительного риска сравнивается с 1 для того, чтобы определить характер связи фактора и исхода:
Если ОР равен 1, можно сделать вывод, что исследуемый фактор не влияет на вероятность исхода (отсутствие связи между фактором и исходом).
При значениях более 1 делается вывод о том, что фактор повышает частоту исходов (прямая связь) – фактор агрессии
При значениях менее 1 - о снижении вероятности исхода при воздействии фактора (обратная связь) – фактор защиты
Также обязательно оцениваются значения границ 95% доверительного интервала. Если оба значения - и нижней, и верхней границы - находятся по одну сторону от 1, или, другими словами, доверительный интервал не включает 1, то делается вывод о статистической значимости выявленной связи между фактором и исходом с вероятностью ошибки p<0,05.
Если нижняя граница 95% ДИ меньше 1, а верхняя - больше, то делается вывод об отсутствии статистической значимости влияния фактора на частоту исхода, независимо от величины показателя ОР (p>0,05).
ЗАДАЧА-ЭТАЛОН
В 1999 году в Оклахоме проводились исследования заболеваемости мужчин язвой желудка. В качестве влияющего фактора было выбрано регулярное потребление фастфуда. В первой группе находились 500 мужчин, постоянно питающихся быстрой пищей, среди которых язву желудка диагностировали у 96 человек. Во вторую группу были отобраны 500 сторонников здорового питания, среди которых язва желудка была диагностирована в 31 случае. Исходя из полученных данных была построена следующая таблица сопряженности:
 
Больные язвой желудка (1)
Язва желудка отсутствует (0)
Всего

Фастфуд (1)
96
404
500

Здоровое питание (0)
31
469
500

Всего
127
873
1000

Рассчитываем значение относительного риска:

Находим значения верхней и нижней границ 95% доверительного интервала по указанным выше формулам. Значение верхней границы составляет 4.55, нижней - 2.11.
Сравниваем полученные значения ОР и 95% ДИ с 1. Показатель относительного риска свидетельствует о наличии прямой связи между употреблением фастфуда и вероятностью развития язвы желудка. У мужчин, употребляющих картошку фри и хотдоги, язва желудка наблюдается в 3,1 раза чаще, чем среди придерживающихся здорового питания. Уровень значимости данной взаимосвязи соответствует p<0.05, так как 95% ДИ не включает в себя единицу.

Тема 11. Критерий
·2 Пирсона.
Критерий
·2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).
1. История разработки критерия
·2
Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).
2. Для чего используется критерий
·2 Пирсона?
Критерий хи-квадрат может применяться при анализе таблиц сопряженности, содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:
 
Исход есть (1)
Исхода нет (0)
Всего

Фактор риска есть (1)
A
B
A + B

Фактор риска отсутствует (0)
C
D
C + D

Всего
A + C
B + D
A + B + C + D

Таблица 4. Четырехпольная таблица (таблица 2х2)
Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.
Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).
Заполняем исходными данными четырехпольную таблицу сопряженности:
 
Артериальная гипертония есть (1)
Артериальной гипертонии нет (0)
Всего

Курящие (1)
40
30
70

Некурящие (0)
32
48
80

Всего
72
78
150

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.
Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.
3. Условия и ограничения применения критерия хи-квадрат Пирсона
Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса. Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера.
В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.
4. Как рассчитать критерий хи-квадрат Пирсона?
Для расчета критерия хи-квадрат необходимо:
Рассчитываем ожидаемое количество наблюдений для каждой из ячеек таблицы сопряженности (при условии справедливости нулевой гипотезы об отсутствии взаимосвязи) путем перемножения сумм рядов и столбцов с последующим делением полученного произведения на общее число наблюдений. Общий вид таблицы ожидаемых значений представлен ниже:
 
Исход есть (1)
Исхода нет (0)
Всего

Фактор риска есть (1)
(A+B)*(A+C) / (A+B+C+D)
(A+B)*(B+D)/ (A+B+C+D)
A + B

Фактор риска отсутствует (0)
(C+D)*(A+C)/ (A+B+C+D)
(C+D)*(B+D)/ (A+B+C+D)
C + D

Всего
A + C
B + D
A+B+C+D

Таблица 5. Таблица ожидаемых значений
Находим значение критерия
·2 по следующей формуле:

где i – номер строки (от 1 до r), j – номер столбца (от 1 до с), Oij – фактическое количество наблюдений в ячейке ij, Eij – ожидаемое число наблюдений в ячейке ij.
В том случае, если число ожидаемого явления меньше 10 хотя бы в одной ячейке, при анализе четырехпольных таблиц должен рассчитываться критерий хи-квадрат с поправкой Йейтса. Данная поправка позволяет уменьшить вероятность ошибки первого типа, т.е обнаружения различий там, где их нет. Поправка Йейтса заключается в вычитании 0,5 из абсолютного значения разности между фактическим и ожидаемым количеством наблюдений в каждой ячейке, что ведет к уменьшению величины критерия хи-квадрат.
Формула для расчета критерия
·2 с поправкой Йейтса следующая:

Определяем число степеней свободы по формуле: f = (r – 1) Ч (c – 1). Ссответственно, для четырехпольной таблицы, в которой 2 ряда (r = 2) и 2 столбца (c = 2), число степеней свободы составляет f2x2 = (2 - 1)*(2 - 1) = 1.
Сравниваем значение критерия
·2 с критическим значением при числе степеней свободы f (по таблице).
Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.
5. Как интерпретировать значение критерия хи-квадрат Пирсона?
В том случае, если полученное значение критерия
·2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.
6. Пример расчета критерия хи-квадрат Пирсона
Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:
 
Артериальная гипертония есть (1)
Артериальной гипертонии нет (0)
Всего

Курящие (1)
40
30
70

Некурящие (0)
32
48
80

Всего
72
78
150

Рассчитываем ожидаемые значения для каждой ячейки:
 
Артериальная гипертония есть (1)
Артериальной гипертонии нет (0)
Всего

Курящие (1)
(70*72)/150 = 33.6
(70*78)/150 = 36.4
70

Некурящие (0)
(80*72)/150 = 38.4
(80*78)/150 = 41.6
80

Всего
72
78
150

Находим значение критерия хи-квадрат Пирсона:

·2 = (40-33.6)2/33.6 + (30-36.4)2/36.4 + (32-38.4)2/38.4 + (48-41.6)2/41.6 = 4.396.
Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.
Также критерий хи-квадрат Пирсона вычисляется по формуле
 (29)
Но для таблицы 2х2 более точные результаты дает критерий с поправкой Йетса

Если  то Н(0) принимается,
В случае  принимается Н(1)
Когда число наблюдений невелико и в клетках таблицы встречается частота меньше 5, критерий хи-квадрат неприменим и для проверки гипотез используется точный критерий Фишера. Процедура вычисления этого критерия достаточно трудоемка и в этом случае лучше воспользоваться компьютерными программами статанализа.
По таблице сопряженности можно вычислить меру связи между двумя качественными признаками – ею является коэффициент ассоциации Юла Q (аналог коэффициента корреляции)

Q лежит в пределах от 0 до 1. Близкий к единице коэффициент свидетельствует о сильной связи между признаками. При равенстве его нулю – связь отсутствует.
Аналогично используется коэффициент фи-квадрат (
·2)
 (32)
ЗАДАЧА-ЭТАЛОН

В таблице описывается связь между частотой мутации у групп дрозофил с подкормкой и без подкормки

группы
Число культур
всего


Давшие мутации
Не давшие мутации


С подкормкой
357
2399
2756

Без подкормкой
80
725
805

всего
437
3124
3561


Анализ таблицы сопряженности
Для анализа таблицы сопряженности выдвигается Н0- гипотеза .т.е.отсуствие влияния изучаемого признака на результат исследования.Для этого рассчитывается ожидаемая частота ,и строится таблица ожидания.
Таблица ожидания

группы
Чило культур
Всего


Давшие мутации
Не давшие мутации



Фактическая частота
Ожидаемая частота
Фактическая частота
Ожидаемая частота


С подкормкой
357
338
2399
2418
2756

Без подкормкой
80
99
725
706
805

всего
437

3121

3561


Метод №1
Определяем частоту ожидания:

1. 3561 – 437
2756 – Х 13 EMBED Equation.3 1415;

2. 3561 – 3124
2756 – Х 13 EMBED Equation.3 1415;

3. 3561 – 437
805 – Х 13 EMBED Equation.3 1415

4. 3561 – 3124
805 – Х 13 EMBED Equation.3 1415
На основании сопоставления таблиц сопряженности и ожидания определяем отклонение фактических частот от ожидаемых
Степень согласия фактических данных с ожидаемым данными определяем с помощью критерий согласия Х2.
Определяем 13 EMBED Equation.3 14152 - степень согласия фактических данных с ожидаемыми.
13 EMBED Equation.3 1415
п – фактическая частота
п1 – ожидаемая частота
13 EMBED Equation.3 1415
3. Определяем уменьшение неточности с помощью поправки Иейтса.
13 EMBED Equation.3 1415
По мере возрастания разницы между фактическими и ожидаемыми данными, Х2 -будет возрастать.
Если число наблюдении в группах мало, при применении Х2, в случае сопоставления фактических и ожидаемых частот при дискретных распределениях сопряжено с некоторой неточностью.Для уменьшения неточности применяют поправку Йейтса.
Поправка Йейтса т.е. от разности отклонения между фактической и ожидаемыми частотами вычесть 0.5.
Метод №2.
Критерий хи-квадрат Пирсона вычисляется по формуле

13 EMBED Equation.3 1415
Далее определяем число степеней свободы f=(n-1)(m-1), где n и m число строк и число столбцов в таблице сопряженности.
F=(2-1)(2-1)=1
13 EMBED Equation.3 1415(крит) =3,841 (п таблице критических значений 13 EMBED Equation.3 1415)
Вывод: , следовательно, зависимость между частотой мутации у групп дрозофил с подкормкой и без подкормки - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05

Тема12. Корреляционный анализ



1. Виды проявления
а) функциональная связь;

количественных
б) корреляционная связь.

связей между
 

признаками
 

2. Определения
Функциональная связь  такой вид соотноше-

функциональной
ния между двумя признаками, когда каждому

и корреляционной
значению одного из них соответствует строго

связи
определенное значение другого (площадь кру-

 
га зависит от радиуса круга и т.д.). Функцио-

 
нальная связь характерна для физико-

 
математических и химических процессов.

 
Корреляционная связь  такая связь, при

 
которой каждому определенному значению од-

 
ного признака соответствует несколько значе-

 
ний другого взаимосвязанного с ним признака

 
(связь между ростом и массой тела человека;

 
связь между температурой тела и частотой

 
пульса и др.). Корреляционная связь характер-

 
на для социально-гигиеническихпроцессов,

 
клинической медицины и биологии.



3.Практическое
значение



установления
корреляционной

Выявление причинно следственной связи между факторными и результативными

связи


признаками (при оценке физического раз-




вития, для определения связи между усло-




виями труда, быта и состоянием здоровья,


 

при определении зависимости частоты слу-


 

чаев болезни от возраста, стажа, наличия


 

производственных вредностей и др.).


 

Зависимость параллельных изменений не-


 

скольких признаков от какой-тотретьей


 

величины. Например, под воздействием вы-


 

сокой температуры в цехе происходят изме-


 

нения кровяного давления, вязкости крови,

4. Величина,
 
 
частоты пульса и др.

направление

Коэффициент корреляции, который одним чис-

и силу связи между

лом дает представление о направлении и силе

признаками

связи между признаками (явлениями); преде-



лы его колебаний от 0 до ±1.









 
 





5. Способы




а) таблица;


представления
б) график (диаграмма рассеяния);


корреляционной
в) коэффициент корреляции.


связи
 

 


6. Направление
а) прямая;


корреляционной
б) обратная.


связи
 

 


7Сила
корреляционной
связи а) сильная: ±0,7 до ±1; б) средняя: ±0,3 до ±0,699; в) слабая: 0 до ±0,299.

8.Методы
определения
коэффициента
корреляции а) метод квадратов (метод Пирсона); б) ранговый метод (метод Спирмена).
и формулы

9.Методические требования к использованию коэффициента корреляции :

 Измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту).
Расчет может производиться с использованием как абсолютных, так и производных величин.
Для вычисления коэффициента корреляции используются несгруппированные данные (это требование применяется только при вычислении коэффициента корреляции по методу квадратов).
10.Рекомендации по применению метода ранговой корреляции(метод Спирмена) а) когда нет необходимости в точном установлении силы связи, а достаточно ориентировочных данных;
б) когда признаки не только количественные, но и атрибутивные;
в) когда ряды распределения признаков имеют открытые варианты (например, стаж работы до 1 года).
11. Рекомендации к применению метода квадратов(метод Пирсона):
а) когда требуется точное установление силы связи между признаками;
б) когда признаки имеют только количественное выражение.
12.Методика и порядок вычисления коэффициента корреляции
1) Метод квадратов
а) построить вариационные ряды для каждого из сопоставляемых признаков;
б) определить для каждого вариационного ряда средние величины (М1 и М2);
в) найти отклонения (dx и dy) каждой варианты от средней соответствующего вариационного ряда;
г) полученные отклонения перемножить (dx Ч dy) и просуммировать (
·dx · dy)
д) каждое отклонение возвести в квадрат и просуммировать по каждому ряду (
·dx2 и
· dy2); е) подставить полученные значения в формулу
раcчета коэффициента корреляции:

rxy = 
·
·(dx Ч dy)/ (
·dx2 Ч
·dy2));
при наличии вычислительной техники расчет производится по формуле:
13.Схема оценки корреляционной связи по коэффициенту корреляции
rxy = n
·xy –
·x Ч
·y/
· ([n
·x2 –/
·x2/][n
·y2 –/
·y2/]))
2) Ранговый метод
а) составить два ряда из парных сопоставляемых признаков, обозначив первый и второй ряд, соответственно, х иу. При этом представить первый ряд признака в убывающем или возрастающем порядке, а числовые значения второго ряда расположить напротив того значения первого ряда, которым они соответствуют;
б) величину признака в каждом из сравниваемых рядов заменить порядковым номером (рангом). Рангами, или номерами, обозначают места показателей (значения) первого и второго рядов. При этом числовым значениям второго признака ранги должны присваиваться в том же порядке, какой был принят при раздаче их величинам первого признака. При одинаковых величинах признака в ряду ранги следует определять как среднее число из суммы порядковых номеров этих величин;
в) определить разность рангов между х иу (d) d = х у;
г) возвести полученную разность рангов в квадрат (d2);


д) получить сумму квадратов разности (
·d2) и подставить полученные значения в формулу:


·ху = 1–(6
· d2 / n (n2 – 1))

Сила связи
Направление связи


Прямая (+)
Обратная(-)

Сильная
От +1 до +0,7
От -1 до -0,7

Средняя
От +0,699 до +0,3
От -0,699 до -0,3

Слабая
От +0,299 до 0
От -0,299 до 0

Таблица 6. Сила корреляционной связи

14.Вычисление ошибки коэффициента корреляции
15.Оценка достоверности коэффициента корреляции, полученного методом ранговой корреляции и методом квадратов. Связь, при которой коэффициент корреляции равен +1,0 или –1,0,называется полной (функциональной).
а) ошибка коэффициента корреляции, вычисленного методом квадратов (Пирсона):
mrxy=
·(1 – r2xy/ n – 2))
б) ошибка коэффициента корреляции, вычисленного ранговым методом (Спирмена):

mрxy = 
·(1 – p2xy/n – 2))
15. Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции. Корреляция не является линейной функцией связи между двумя переменными.
Поэтому, среднее арифметическое коэффициентов корреляции для нескольких выборок не
совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т.е.
коэффициент корреляции не аддитивен). Напротив, коэффициент детерминации отражает связь
линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок.
Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате
- коэффициент детерминации: это часть дисперсии одной переменной, которая может быть
объяснена влиянием другой переменной. В отличие от коэффициента корреляции коэффициент
детерминации линейно возрастает с увеличением силы связи.
В нелинейной регрессии используется индекс корреляции (0 Pxy=
· 1-
· (y1-yxi)2/
· (y1-yxi)2
Для оценки качества используют коэффициент детерминации.Долю дисперсии, которая обусловлена регрессией , в общей дисперсии показателя у характерезует коэффициент детерминации R2.
R2=
· (yxi-y)2/
· (y1-y)2
ЗАДАЧА-ЭТАЛОН

В городе А увеличилась показатели число травм среди мужчин работающих в шахте со стажам до 10 лет. В результате проведенного исследования были получены следующие результаты:
По представленным данным определите вид коэффициента корреляции, применимый в данном случае.
Вычислите коэффициент корреляции.
Определите характер и размер связи между этими явлениями.
Сделайте выводы если 1) p=0,346; 2) p=0,014;

Стаж работы в годах
Число травм

 
 

До 1 года
24

 
 

12
16

 
 

34
12

 
 

56
12

 
 

7 и более
6

 
 


Обоснования выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, так как первый ряд признака «стаж работы в годах» имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод метод квадратов.

РЕШЕНИЕ ЗАДАЧИ
Последовательность расчетов изложена в тексте, результаты представлены

 
 
 
 


 
 
 
 
 
 


Стаж
Чис-
Порядковые но-
Разность
Квадрат




мера (ранги)
рангов
разности рангов


работы
ло







 
 
 
 


в годах
травм
x
y
d
d2


1
2
3
4
5
6


 
 
 
 
 
 


До 1 года
24
1
5
–4
16


 
 
 
 
 
 


1–2
16
2
4
–2
4


 
 
 
 
 
 


3–4
12
3
2,5
+0,5
0,25


 
 
 
 
 
 


5–6
12
4
2,5
+1,5
2,25


 
 
 
 
 
 


7 и более
6
5
1
+4
16


 
 
 
 
 
 


 
 
 
 
 

·d2 = 38,5



1.Каждый из рядов парных признаков обозначить через х и черезу(графы12).
2.Величину варианта каждого из признаков заменить ранговым (порядковым) номером. Порядок раздачи рангов в ряду х следующий: минимальному значению признака (стаж до 1 года) присвоен порядковый номер 1, последующим вариантам этого же ряда признака соответственно в порядке увеличения2-й,3-й,4-йи5-йпо-
рядковые номера ранги (см. графу 3). Аналогичный порядок соблюдается при раздаче рангов второму признаку у (графа 4). В тех случаях, когда встречаются несколько одинаковых по величине вариант (например, взадаче-эталонеэто 12 и 12 травм при стаже34года и56лет), порядковый номер обозначить средним числом из суммы их порядковых номеров: так, одинаковое число травм при разном стаже работы:34года и56лет. Эти данные о числе травм (12 травм) при ранжировании должны занимать 2 и 3 места, таким образом среднее число из них равно (2 + 3)/2 = 2,5.
Итак, числу травм «12» и «12» (признак у) следует раздать одинаковые ранговые номера 2,5 (графа 4).
3.Определить разность рангов d = (х у) (графа 5).
4.Разность рангов возвести в квадрат (d2 ) и получить сумму квадратов разности рангов
·d2 (графа 6).
5.Произвести расчет коэффициента ранговой корреляции по формуле:


·ху = 1–(6
· d2 / n (n2 – 1))


где n число сопоставляемых пар вариант в ряду х и в рядуу.


·ху = 1–((6Ч38,5)/5(52-1))=1-325/5(25-1)=1-325/120=1-1,92=-0.92
Вывод: с вероятностью безошибочного прогноза (р) больше 95% установлена обратная,сильная корреляционная связь между стажем работы и числом травм, т.е. чем меньше стаж работы, тем больше травм.
ЗАДАЧА-ЭТАЛОН
Пример задание по методом Пирсона
Исследователем изучалось взаимосвязь влияния концентрации кальция в воде на её жёсткость. Получены следующие данные:

Жёсткость воды (в градусах)
Количество кальция в воде (в мл/л)

4
28

8
56

11
77

27
241

34
262



По представленным данным определите вид коэффициента корреляции, применимый в данном случае.
Вычислите коэффициент корреляции.
Определите характер и размер связи между этими явлениями.
Сделайте выводы если 1) p=0,346; 2) p=0,014;


Обоснование выбора метода. Для решения задачи выбран метод квадратов (Пирсона), т.к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант.
Решение.  Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).
Жесткость воды (в градусах)
Количество кальция в воде  (в мг/л)


dх х dу
dx2
dy2

4  8  11  27  34  37
28  56  77  191  241  262
-16  -12  -9  +7  +14  +16
-114  -86  -66  +48  +98  +120
1824  1032  594  336  1372  1920
256  144  81  49  196  256
12996  7396  4356  2304  9604  14400

Мх=
· х / n
Му=
· у / n
 

· dх x dу=7078

· dх2=982

· dy2=51056

Мх=120/6=20
Мy=852/6=142
 

Определить средние величины Mx ряду вариант "х" и Му в ряду вариант "у" по формулам:  Мх =
·х/n (графа 1) и  Му =
·у/n (графа 2)
Найти отклонение (dх и dу) каждой варианты от величины вычисленной средней в ряду "x" и в ряду "у"  dх = х Мх (графа 3) и dy = у Му (графа4).
Найти произведение отклонений dx х dy и суммировать их:
· dх х dу (графа 5)
Каждое отклонение dx и dу возвести в квадрат и суммировать их значения по ряду "х" и по ряду "у":
· dx2 = 982 (графа 6) и
· dy2 = 51056 (графа 7).
Определить произведение
· dx2 х
· dy2 и из этого произведения извлечь квадратный корень

Полученные величины
· (dx x dy) и 
·(
·dx2 x
·dy2) подставляем в формулу расчета коэффициента корреляции:


Тема 13. Анализ выживаемости.

Цензурированные данные.
Наблюдения,которые содержат неполные данные об исследуемым явлении называется цензурированными данными: например, «пациент A был жив, по крайней мере, 4 месяца после операции, затем он был переведён в другую клинику и контакт с ним был потерян».

Рисунок 12.

На рисунке показан ход исследования. Жизнь пациента представлена горизонтальным отрезком. Левый конец отрезка это начало наблюдения. На правом конце отрезка черный или белый кружок. Черный кружок означает, что пациент умер (произошёл исход) и, таким образом, продолжительность его жизни нам известна. Белый кружок означает, что исследование закончилось до его смерти, либо он куда-то уехал, т.е. выбыл из-под наблюдения. Относительно выбывших нам известно только, что они прожили не меньше определенного срока.
Все исследования выживаемости должны удовлетворять следующим требованиям:
для всех наблюдений известно время начала наблюдения
для всех наблюдаемых известно время окончаниея наблюдения, а так же умер он или выбыл
выбор наблюдаемых произведён случайно

Функция выживания
Функция, показывающая вероятность, того , что объект проживает время больше t. Эту вероятность обычно называют выживаемостью или функцией выживаемости.


Кривая выживаемости
Кривая выживаемости отражает вероятность пережить любой из моментов врмени t после некоторого начального события С помощью этой кривой можно изучать продолжительность жизни, эффективность лечения заболевания ( в данном случае исход - это ремиссия).


Рисунок 13. Кривая выживаемость
Кривая выживаемости
В начальной момент выживаемость равна 1(все субъекты живы и находятся под наблюдением),затем кривая постепенно понижается и приближается к 0.
Время ,до которого доживает половина совокупности, называется медианой выживаемости. Для этого необходимо найти точку ,в которой кривая выживаемости опускается ниже 0.5
Моментальный метод
13 EMBED Equation.3 1415

Для учета смертности в данный момент, используют моментальный метод. который вычисляется по формуле;
Где - dti число умерших в момент ti
nti - число наблюдавших к моменту ti
П - момент времени, когда произошла хотябы одна смерть

Сравнение кривых выживаемости
Среди непараметрических методов для сравнения кривых выживаемости, построенных моментальным методом, наиболее известны логранговый критерий и критерий Гехана они применимы, если число наблюдений в каждой группе не менее 10
Логранговый критерий
Логранговый метод предполагает что функция выживаемости связаны с соотношением S2 (t)= S1(t)4, это условия выполняются ,если на графике они паралельны, если они пересекаются то это условие нарушается
Стандартная ошибка выживаемости
13 EMBED Equation.3 1415

Доверительный интервал
13 EMBED Equation.3 1415

Доверительный интервал для каждого момента t задается соотношением
Z=1.96 критическое значение для стандартного нормального распределения
Анализ,выживаемости Для изучения в медицине эффективности нового метода используют методы,которые определяют долю “выживщих”пациентов,которые выжили в течении всего периода наблюдения,а также пациенты,контакт с которыми был потерян до завершения эксперимента
Методы анализа выживаемости
Параметрические и непараметрические методы -аналитический метод -корреляционный метод
Особенности методов анализа выживаемости
Особенностью методов анализа выживаемости является в том,что они применяются к цензурированным или как говорят,неполным данным
Анализ таблиц времен жизни
Наиболее простым способом описания выживаемости является построение Таблиц времен жизни. Такую таблицу можно рассматривать как “расширенную” таблицу частот
Структура таблицы времени жизни
Область возможных времен наступления критеческих событий (смерти отказов ) разбивается на некоторое количество интервалов .Для каждого интервала вычисляется число и долю “живых” число и долю “умерших” число и долю цензурированых
Дополнительные показатели для таблицы времени жизни
-Число изучаемых объектов -  Это число объектов, которые были "живы" в начале рассматриваемого временного интервала, минус половина числа изъятых или цензурированных объектов -Долю умерших - Это отношение числа объектов, умерших в соответствующем интервале, к числу объектов, изучаемых на этом интервале.  -Долю выживших - Это доля равна единице минус доля умерших. -Кумулятивная доля выживших (функция выживания) - Это кумулятивная доля выживших к началу соответствующего временного интервала. Поскольку вероятности выживания считаются независимыми на разных интервалах, эта доля равна произведению долей выживших объектов по всем предыдущим интервалам. Полученная доля как функция от времени называется,также выживаемостью или функцией выживания [точнее, это оценка функции выживания].  -Плотность вероятности - Это оценка вероятности отказа в соответствующем интервале, определяемая таким образом::
Fi = (Pi-Pi+1) /hi
где Fi - оценка вероятности отказа в i-ом интервале, Pi - кумулятивная доля выживших объектов (функция выживания) к началу i-го интервала, hi - ширина i-ого интервала.
-Функция интенсивности - Функция интенсивности (этот термин был впервые использован в работе Barlow, 1963) определяется как вероятность того, что объект, выживший к началу соответствующего интервала, откажет или умрет в течение этого интервала. Оценка функции интенсивности вычисляется как число отказов, приходящихся на единицу времени соответствующего интервала, деленное на среднее число объектов, доживших до момента времени, находящегося в середине интервала.  -Медиана ожидаемого времени жизни -Это точка на временной оси, в которой кумулятивная функция выживания равна 0.5. Отмети, что 50-процентиль (медиана) кумулятивной функции выживаемости обычно не совпадает с точкой выживания 50% выборочных наблюдений. (Совпадение происходит только когда за прошедшее к этому моменту время не было цензурированных наблюдений).  -Объем выборки- Чтобы получить надежные оценки трех основных функций (функции выживания, плотности вероятности и функции интенсивности) и их стандартных ошибок на каждом временном интервале, рекомендуется использовать не менее 30 наблюдений.
ЗАДАЧА-ЭТАЛОН
Проводилось исследование на эффективность оперативного лечения направленное на устранение аневризмы проводилось 15лет
t, дни
1
2
5
10
15

S(t)
0,02
2,8







На первом этапе кумулятивная эфективность была 0,02
Определите кумулятивную эффективность
Постройте график

ДАННЫЕ

КОЛИЧЕСТВЕННЫЕ

ДАТЫ

КАТЕГОРИАЛЬНЫЕ

НЕПРЕРЫВНЫЕ

НОМИНАЛЬНЫЕ

ПОРЯДКОВЫЕ

ДИСКРЕТНЫЕ

ДИХОТОМИЧЕСКИЕ

ОТНОСИТЕЛЬНЫЕ

ИНТЕРВАЛЬНЫЕ







2

1




Лого СГМУРисунок 0Лого СГМУ.wmfЭтапы статистического исследованияРисунок 2Этапы статистического исследованияRoot EntryEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeTimes New RomanEquation Native f(x) = \tfrac{1}{\sigma\sqrt{2\pi}}\; e^{ -\frac{(x-\mu)^2}{2\sigma^2} }, Рисунок 4Рисунок 6Рисунок 7Рисунок 8Рисунок 11Рисунок 13Equation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeРисунок 3Рисунок 4Рисунок 10Рисунок 11Рисунок 13Рисунок 10Equation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation NativeEquation Native

Приложенные файлы

  • doc 8841407
    Размер файла: 1 MB Загрузок: 0

Добавить комментарий