Задачи статистики в пакете SPSS

http://chapurin.kiev.ua/treniruem_problemnyie_zonyi/          

6.3 Медиана для концентрированных данных

Для данных, имеющих форму частотной таблицы, определение медианы и остальных процентилей обычным методом будет слишком неточным. В таких случаях есть возможность вычислить медиану и любые другие процентили более точным методом. Мы поясним это на примере стоматологических данных.

  •  Загрузите файл cpitn.sav, содержащий результаты стоматологического исследования.
Кроме переменных schule и mhfreq, которые определяют уровень образования и то, сколько раз в день обследуемый чистит зубы, этот файл содержит шесть переменных cpitnl—cpitn6, которые указывают степень пародонтального заболевания каждой из шести частей челюсти — так называемый параметр CPITN, задаваемый с помощью следующей кодировочной таблицы:

0



Здоровый пародонт

1

Кровоточивость

2

Зубные отложения

3

Глубина десенных карманов 3,5-5,5 мм

4

Глубина десенных карманов 6 мм и более

  •  С помощью команд меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты) создайте частотную таблицу, к примеру, для переменной cpitnl. Если задать вычисление среднего значения и медианы, мы получим следующий результат:

Статистика

CPITN1

N

Допустимые

2548

Утерянные

0

Среднее значение

2,24

Медиана

2,00

CPITN1

Частота

Проценты

допустимые проценты

накопленные проценты

Допустимые здоровый

109

4,3

4,3

4,3

кровоточивость

389

15,3

15,3

19,5

отложения

921

36,1

36,1

55,7

глубина карманов

1042

40,9

40,9

96,6

3,5-5,5 глубина карманов >=6

87

3,4

3,4

100,0

Всего

2548

100,0

100,0

При определении медианы обычным методом ее значение равно 2. Это значение, хотя формально и правильное, но дает совершенно неудовлетворительный, недостаточно значимый результат. В данном случае, когда данные являются концентрированным, для уточнения медианы применяется следующая расчетная формула:

n

Количество измеренных значений

m

Класс, в котором находится медиана

u

Нижняя граница класса m

fm

Абсолютная частота в классе m

Fm-1

Накопленная частота вплоть до предыдущего класса m — 1

B

Ширина класса

Следовательно, решающее значение имеет правильный выбор границ классов; их следует выбирать так, чтобы значения кодовых чисел соответствовали середине каждого класса. В данном примере для границ классов следует выбрать значения

-0,5 0,5 1,5 2,5 3,5 4,5

Ширина класса равна 1.

Следовательно,

n = 2548

m = 3 (так как медиана находится в третьем классе)

u = 1,5

fm = 921

Fm-1 = 109 + 389 = 498

b = 1

Описанный точный метод вычисления медианы будет использован в SPSS, если в диалоге Frequencies: Statistics установить флажок Values are group midpoints.

В этом случае мы получим точное значение медианы (2,32).

По определению, медиана — это значение, выше и ниже (правее и левее) которого расположено по 50 % всех значений, если они упорядочены по величине. Обобщая эту характеристику, мы приходим к определению так называемых процентилей. Эти характеристики позволяют, например, указать значение, ниже которого лежит 10 % всех значений (а выше расположено 90 % значений). Чаше всего применяются процентили 25 % и 75 %, называемые также соответственно первым и третьим квартилями.

В диалоге Frequencies: Statistics можно последовательно задать любые значения процентилей. Если данные концентрированы, снова следует установить флажок Values are group midpoints.

Формула вычисления процентиля для любого значения:

n

Класс, в котором находится процентиль

m

Нижняя граница класса т

P

Процентное значение процентиля

Нm

Процентная частота в классе m-1

Hm-1

Процентная накопленная частота в классе m-1

b

Ширина класса

Для процентиля 50 % (Р = 50) после некоторых преобразований получается формула для медианы, приведенная выше.

В столбчатых, линейных, круговых диаграммах и диаграммах с областями, на которых предусмотрено отображение медианы и других процентилей, при наличии концентрированных данных используется модифицированный способ расчета (см. раздел 22.1.1).

Содержание раздела