Часто возникает простая статистическая задача – есть две группы и надо выполнить анализ: проверить есть ли различия между изменением которые произошли от скрининга до какой-либо другой временной точки. Что для этого делается? Правильно! Если у нас “широкий” датасет, то просто вычисляем новую переменную типа P1 – P2 и считаем обычным GLM (или даже T-тестом, не приведи Господь) каково межгрупповое различие (где G – группа). Далее делаем выводы.
1 2 3 4 5 6 7 8 | COMPUTE DELTA=P2 - P1. EXECUTE. UNIANOVA DELTA BY G /METHOD=SSTYPE(3) /INTERCEPT=INCLUDE /EMMEANS=TABLES(G) COMPARE ADJ(LSD) /CRITERIA=ALPHA(0.05) /DESIGN=G. |
Но, это работает в том случае, если вы по несчастью получили “wide” ненормализованный датасет.
Если вы вдруг счастливый обладатель “long” (нормализованного – в нормальной форме) датасета, то для проделывания такого фокуса вам надо денормализовать датасет и выполнить все о чем говорили. Выглядит неприлично и практически преступно по отношению к long датасету. Тут надо вспомнить что если у нас 2 группы и 2 временные точки, то фактически получается 4 разных подгруппы. Нам всего лишь надо вычислить средние для этих подгрупп и правильно их друг из друга вычесть. Для получения результата как выше надо вычислить LC = G1P2 – G1P1 – (G2P2 – G2P1) = G1P2 – G1P1 – G2P2 + G2P1 (всего-то).
Ну отлично, так и поступим – для этого в у команды GLM есть подкоманда /LMATRIX a для MIXED в SPSS есть подкоманда /TEST. Главное что нельзя забыть – включить фактор “субъект” S (этот фактор “поглащает” межиндивидуальную вариацию и делает возможным этот фокус – если не сделать, то получите завышенную оценку дисперсии).
1 2 3 4 5 6 7 8 | GLM V BY G P S /METHOD=SSTYPE(3) /INTERCEPT=INCLUDE /PRINT PARAMETER /CRITERIA=ALPHA(.05) /DESIGN=G*P S /LMATRIX "l matrix" G*P 1 -1 -1 1. |
Можно отметить, что оценки идентичны. Еще можно использовать MIXED (в общем это даже более предпочтительный подход, но идентичность результатов не гарантирована):
1 2 3 4 5 6 7 8 9 | MIXED V BY G P S /CRITERIA=DFMETHOD(SATTERTHWAITE) CIN(95) MXITER(100) MXSTEP(10) SCORING(1) SINGULAR(0.000000000001) HCONVERGE(0.00000001, RELATIVE) LCONVERGE(0, ABSOLUTE) PCONVERGE(0, ABSOLUTE) /FIXED=G*P | SSTYPE(3) /METHOD=REML /RANDOM=INTERCEPT | SUBJECT(S) COVTYPE(ID) /REPEATED=P | SUBJECT(S) COVTYPE(ID) /TEST G*P 1 -1 -1 1. |
Все тоже самое можно повторить и в другом ПО. Надо понимать, что использование таких возможностей может сократить количество действий связанных с DM и сделать сравнение более прозрачным и управляемым. И все это возможно в случае, если вы приводите данные к “long” формату, который позволяет выполнять большее количество операций без реструктуризации данных. И даже, казалось бы, наиболее приспособленные к “wide” датасету операции без проблем выполняются и в случае “long” формата, просто с использованием расширенного синтаксиса.
Датасеты SPSS из примера (11583 Загрузки)