Пример из области биологии



18.3 Пример из области биологии

Дискриминантный анализ очень часто применяется для обработки данных из области биологии. В следующем типичном примере для некоторого количества индивидуумов принадлежность к группе уже известна, на основании чего и строится дискриминантная функция. Далее она используется для того, чтобы оценить принадлежность к определенной группе тех индивидуумов, для которых она ещё не известна.

В файле vogel.sav хранятся данные о половой принадлежности, длине крыла, длине клюва, размере головы, длине лап и весе 245 птиц определённого вида. Причём пол смогли определить только для 51 особи. Кодировка пола соответствует 1 = мужской и 2 = женский; отсутствие данных кодируется 9.

Если для перечисленных параметров Вы рассчитаете средние значения для самцов и самок, то для самок получите более высокие показатели. Исходя из этого, при помощи дискриминантного анализа можно попытаться определить пол тех особей, для которых этого нельзя было сделать ранее.

  • Откройте файл vogel.sav.

  • В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной geschl (Пол) присвойте статус групповой переменной с пределами от 1 до 2, а переменным fluegel (Длина крыла), schnl (Длина клюва), kopfl (Размер головы), fuss (Длина лап) и gew (Вес) — статус независимых переменных. Выберите пошаговый метод.

  • В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) активируйте Casewise results (Результаты для отдельных наблюдений) с ограничением в 40 наблюдений и Summary table (Сводная таблица).

  • Через выключатель Save... (Сохранить) при помощи активирования опций Predicted group membership (Прогнозируемая принадлежности к группе) и Probabilities of group membership (Вероятности принадлежности к группе) затребуйте генерирование соответствующих переменных.

Из всех результатов, приводимых в окне просмотра, в книге рассматриваются только статистики для каждого наблюдения. По классификационной таблице видно, что для 51 наблюдения с заранее известным полом 44 раза, т.е. в 86,3 % наблюдений, пол был спрогнозирован верно (см. следующую таблицу).

Если мы рассмотрим наблюдение 8, то здесь пол известен — женский и в результате прогноза получается женский пол, а вот для наблюдения 30 пол известен как мужской, но прогнозируется как женский. Наблюдения с нераспознанным полом приводятся в таблице как "ungrouped" (не группированные).



Для наблюдения 1, для которого пол оказался неизвестным, он прогнозируется как женский. Значение вероятности прогнозирования, 0,990, указывается в колонке "P(G=g | D=d)" под заголовком "Highest Group" (Старшая группа). Менее достоверным является прогноз пола для наблюдения 10, здесь вероятность прогнозирования составляет только 0,721.

Casewise Statistics

(Статистики для наблюдений)
Case Number (Номер случая) Actual Group (Факти-ческая группа) Highest Group (Старшая группа) Second Highest Group (Вторая по старшинству группа) Discri-minant Scores (Значе-ния диск-рими- нантной фун-кции)
Predicted Group (Прог-нози- руемая группа) P(D>d |

e=g)

P(G=9 I D=d) Squared Ma-hala-nobis Distance to Cent-raid (Квадрат рас-стояния Маха-ланобиса до цент-роида) Group (Груп-па) P(G=g |D=d) Squared Ма-halanobis Distance to Centraid (Квадрат рас-стояния Маха-ланобиса до центро-ида) Fun-ction 1 (Фун-кция 1 )
P df
Original (Пер- вона- чаль -но) 1 ungrouped (не груп-пирова-нный) 2 ,222 1 ,990 1,489 1 ,010 10,679 2,304
2 ungrouped (не груп-пирова-нный) 2 ,063 1 ,997 3,453 1 ,003 15,254 2,942
3 ungrouped (не груп-пирова-нный) 2 ,064 1 ,997 3,433 1 ,003 15,213 2,937
4 ungrouped (не груп-пирова-нный) 2 ,245 1 ,989 1,353 1 ,011 10,307 2,247
5 ungrouped (не груп-пирова-нный) 2 ,126 1 ,995 2,338 1 ,005 12,792 2,613
6 ungrouped (не груп-пирова-нный) 2 ,319 1 ,984 ,995 1 ,016 9,271 2,081
7 ungrouped (не груп-пирова-нный) 2 ,485 1 ,971 ,489 1 ,029 7,543 1,783
8 2 2 ,102 1 ,996 2,673 1 ,004 13,561 2,719
9 ungrouped (не груп-пирова-нный) 2 ,387 1 ,980 ,748 1 ,020 8,482 1,949
10 ungrouped (не группирова-нный) 2 ,576 1 ,721 ,313 1 ,279 2,213 ,524
11 ungrouped (не груп-пирова-нный) 2 ,651 1 ,954 ,205 1 ,046 6,248 1,536
12 ungrouped (не груп-пирова-нный) 2 ,140 1 ,994 2,177 1 ,006 12,411 2,559
13 ungrouped (не груп-пирова-нный) 2 ,435 1 ,976 ,609 1 ,024 7,995 1,864
14 ungrouped (не группиро-ванный) 2 ,471 1 ,973 ,519 1 ,027 7,662 1,804
15 ungrouped (не группиро-ванный) 2 ,764 1 ,938 ,090 1 ,062 5,510 1,384
16 ungrouped (не группиро-ванный) 2 ,481 1 ,972 ,497 1 ,028 7,576 1,789
17 ungrouped (не груп-пирова-нный) 2 ,172 1 ,993 1,868 1 ,007 11,658 2,451
18 2 2 ,399 1 ,979 ,712 1 ,021 8,359 1,928
19 ungrouped (не груп-пирова-нный) 2 ,705 1 ,946 ,143 1 ,054 5,884 1,462
20 2 2 ,969 1 ,898 ,002 1 ,102 4,355 1,123
21 2 2 ,249 1 ,989 1,328 1 ,011 10,238 _ 2,236
22 ungrouped (не груп-пиров-анный) 2 ,121 1 ,995 2,407 1 ,005 12,953 2,636
23 2 2 ,071 1 ,997 3,263 1 ,003 14,853 2,890
24 ungrouped (не груп-пирова-нный) 2 ,367 1 ,981 ,815 1 ,019 8,704 1,987
25 ungrouped (не груп-пиров-анный) 2 ,880 1 ,857 ,023 1 ,143 3,598 ,933
26 ungrouped (не груп-пирова-нный) 2 ,537 1 ,966 ,382 1 ,034 7,103 1,702
27 ungrouped (не группиро-ванный) 1 ,640 1 ,955 ,218 2 ,045 6,323 -1,431
28 2 2 ,744 1 ,806 ,107 1 ,194 2,960 ,757
29 ungrouped (не груп-пирова-нный) 2 ,969 1 ,883 ,001 1 ,117 4,035 1,045
30 1 2" ,625 1 ,749 ,239 1 ,251 2,428 ,595
31 ungrouped (не груп-пирова-нный) 2 ,646 1 ,760 ,211 1 ,240 2,521 ,624
32 2 2 ,173 1 ,993 1,860 1 ,007 11,636 2,448
33 1 2" ,504 1 ,970 ,447 1 ,030 7,378 1,753
34 ungrouped (не груп-пирова-нный) 2 ,544 1 ,966 ,368 1 ,034 7,046 1,691
35 ungrouped (не груп-пирова-нный) 2 ,618 1 ,958 ,248 1 ,042 6,480 1,582
36 ungrouped (не груп-пирова-нный) 2 ,727 1 ,943 ,122 1 ,057 5,744 1,433
37 2 2 ,458 1 ,974 ,551 1 ,026 7,781 1,826
38 2 2 ,362 1 ,981 ,829 1 ,019 8,750 1,995
39 2 2 ,814 1 ,929 ,055 1 ,071 5,211 1,319
40 ungrouped (не груп-пирова-нный) 2 ,812 1 ,930 ,057 1 ,070 5,222 1,322

** Misclassified case (** - Неверно классифицированный случай)

Для того, чтобы хотя бы частично сократить количество ошибочных значений для переменной пола, при анализе вы можете применять прогнозируемую групповую принадлежность только в тех случаях, для которых вероятность прогнозирования принимает некоторое минимально допустимое значение, к примеру, 0,9.

IF (dis_1 = 1 and disl_1 >= 0,9)

geschl=1

. IF (dis_1 = 2 and dis2_1 >= 0,9)

geschl=2.

EXECUTE.

Таким образом, в используемом примере можно присвоить половой показатель ещё 90-а птицам. Если вы снизите минимально допустимое значение вероятности прогнозирования, то это число станет ещё больше.

К файлу были добавлены три новые переменные:

dis_1: Прогнозируемая группа

disl_1: Вероятность принадлежности к группе 1

dis2_1: Вероятность принадлежности к группе 2.






Содержание раздела