Статистика за медицинската дисертация, част 1
Точната формулировка на въпроса
Преди да започнете събирането на данни за вашата докторска дисертация, трябва внимателно да планирате своето проучване. За да направите това, формулирайте въпроса възможно най-точно. Задайте си въпроса: На кой въпрос трябва да отговори вашето проучване?
След това помислете какви данни са ви необходими, за да можете да отговорите на този въпрос. Това ще ви накара да осъзнаете,
- кои измерени стойности трябва да съберете (напр. диагностична класификация, пол, тежест на симптомите),
- В кои моменти от време събирате измерените стойности (напр. Преди и след лечение, различни етапи от курса, само един момент във времето) и
- от коя популация трябва да се събират данните (напр. пациенти с определена диагноза, определени рискови групи).
Колко случаи имате нужда?
За да можете да прецените колко случаи са необходими, за да отговорите на въпроса си преди началото на събирането на данни, можете да планирате броя на случаите. Тук се определя броят на случаите, от които се нуждаете най-малко, за да докажете очаквания/желания резултат като значим.
Предварителното планиране на размера на извадката има смисъл:
- Избягва да се установи след анализа, че пробата е била твърде малка, за да демонстрира желаната разлика/връзка.
- В противен случай това ви спестява от инвестирането на твърде много време, работа и пари в събирането на данни от ненужно голяма извадка.
Безплатна програма, която поддържа изчисляване на размера на извадката за различни дизайни на проучвания и методи за анализ е G * power 3 (Heinrich-Heine-Universität Düsseldorf, 2013, http://www.gpower.hhu.de/)
Структура на анализа на данните

Фигура 1: Структура на анализа на данните, от J. Webinger, D. Keller, B. Budrich: Как да напиша докторска дисертация? Ръководство за медицински специалисти и зъболекари. Springer 2014.
Статистическият анализ на данните се състои от два компонента: описателната статистика и статистиката, базирана на тях (вж. Фиг. 1).
The Описателна статистика описва данните чрез изчисляване на подходящи мерки. Описателната статистика включва и изображения, които можете да използвате, за да представите данните и да визуализирате възможни разлики/взаимоотношения.
В заключителна статистика изчисляват се статистически тестове, които проверяват значимостта на разликите/връзките, описани в описателната част. Наблюдаваната разлика или асоциация се счита за статистически значима само ако вероятността (p) за такова наблюдение в произволно извадена извадка би била много ниска, ако в действителност няма разлика/асоциация в общата популация. Следователно само с доказана значимост можете да се доверите с ниска вероятност за грешка (ниво на значимост, често зададено на 5%), че наблюдаваният ефект във вашето проучване не е възникнал случайно, а че отразява действителна разлика/връзка в общата популация. Изчисляването на размера на ефекта (напр. Съотношение на шансовете, r, d, η2) също дава възможност за оценка на размера на наблюдавания ефект.
Изборът на правилния метод
Описателна статистика
Изборът на правилния метод за описване на данните зависи до голяма степен от вида на променливата. По-долу са посочени накратко някои често използвани описателни методи за описване на категорични данни (напр. Пол, пушач/непушач, диагностична класификация) и метрични данни (напр. Тежест на симптомите, стойности на скалата на въпросника).
Категоричните характеристики на изследваната извадка са описателни с Честотни таблици и - при комбиниране на няколко категорични променливи - с Кръстосани таблици показани. Както една снимка пасва на това стълбовидна диаграма или а групирана стълбовидна диаграма (виж фиг. 2).
Фиг. 2: Групирана стълбовидна диаграма за показване на категорични данни. Категорични променливи: пушене (не/да), заболяване (не/да). Височината на лентите показва броя на хората във всяка категория.
За описание на метричните характеристики на извадката се използват мерки от централната тенденция, напр. Б. Средно аритметично и Медиана, и за разсейване, напр. Б. Стандартно отклонение, IQR, минимум и максимум, изчислено. Освен това могат да се използват средни стойности и стандартни отклонения Доверителни интервали да изчисля. Те описват диапазона от стойности, в които средната стойност на общото население z. Б. е с 95% вероятност.
От една страна, те са добри за картографиране на метрични данни Кутия парцели, които показват както централната тенденция (медиана), така и разсейването (IQR, минимум, максимум), идентифицират отклонения и илюстрират групови сравнения, т.е. сравнения между нивата на категориална променлива (вж. фиг. 3). От друга страна, с Стълбовидни графики (виж фиг. 4) или - по-специално за показване на хронологична последователност - с Линейни диаграми (виж фиг. 5) изобразяват средните стойности. Стандартните отклонения или доверителните интервали под формата на Ленти за грешки може да се визуализира. За съвместно картографиране на две метрични променливи са подходящи Разпръснати парцели (виж фиг. 6).
Фиг. 3: Графични кутии за показване на метрични данни. Зависима метрична променлива: сила на симптомите (скала от 0 до 50), независима категорична променлива: пушене (не/да). Разделителната линия в кутиите показва средната стойност, дължината на кутиите показва IQR, крайните точки на антените („мустаци“) показват минимум и максимум, кръгът показва отклонение.
Фиг. 4: Стълбовидни графики за показване на метрични данни. Зависима метрична променлива: сила на симптомите (скала от 0 до 50), независима категорична променлива: пушене (не/да). Височината на лентите показва средните стойности на двете групи проби, лентите с грешки показват стандартните отклонения.
Фиг. 5: Линейни диаграми за показване на метрични данни. Зависима метрична променлива: сила на симптомите (скала от 0 до 50), независими категориални променливи: лечение (плацебо/лекарство), времева точка (преди лечение/след лечение/последващо измерване). Точките показват средните стойности на двете групи в трите момента във времето, лентите за грешки показват стандартните отклонения.
Фиг. 6: Скатер диаграма за показване на метрични данни. Метрични променливи: сила на симптомите (скала от 0 до 50), брой цигари на ден (скала от 0 до 40). Всяка точка съответства на отделен обект и показва техните стойности на двете метрични скали.