Психологическое исследование на ЛШ РР 2013. Часть 2. Прайминг-эффект.

Описание прайминг-эффекта

По материалам http://expsy.spbu.ru/e02priming.htm

Суть прайминг-эффекта (от англ. глагола «to prime» – инструктировать заранее, давать предшествующую установку) состоит в том, что прежний контекст влияет на скорость опознания стимулов, предъявляемых после него.

Стимул, на который измеряется скорость и точность реакции, называют «тестовым стимулом», а саму подсказку, т.е. тот стимул, предшествующая встреча с которым приводит к изменению реакций – «праймом». В качестве праймов и тестовых стимулов часто используются слова или псевдослова, то есть наборы букв, которые внешне и по звучанию напоминают слова, но ими не являются (пример: ралета, кномка). При этом если тестовому слову предшествует связанный с ним по смыслу прайм, то испытуемые дают больший процент верных ответов, а среднее время ответа сокращается. Если же прайм и тестовый символ не связаны по смыслу, то испытуемые, наоборот, совершают больше ошибок, а среднее время верного ответа увеличивается.

Обычно прайминг комбинируется с рядом специально разработанных экспериментальных задач: «задачей лексического решения», «задачей дополнения основы слова до целого», «задачей восстановления слова по фрагментам» и т.д.

Начало использования данного методического приема было положено в 1971 году в связи с обнаружением Д. Е. Мейером (David E. Meyer) и Р. У. Шваневелдтом (Schvaneveldt, R.W) эффекта взаимосвязи прежнего контекста и скорости опознания последующих стимулов [Meyer, Schvaneveldt, 1971]. Исследователями было установлено, что после предъявления, скажем, слова «доктор», быстрее будет опознано слово, по смыслу связанное с ним (например, «шприц»), чем несвязанное (например, «хлеб»).

Описание теста

Для целей исследования был выбран тест №305 из компьютерной системы Лонгитюд ЭДК , разработанной на факультете психологии СпбГУ. Ниже я опишу этот тест более подробно.

Испытуемому на экране монитора предъявлялись в парах последовательности символов, которые можно разделить на три типа:

  1. Два слова на русском языке, связанные по смыслу. Пример: трактор-колесо, золото-металл.
  2. Два слова на русском языке, не связанные (или слабо связанные) по смыслу. Пример: качели-корова, чайник-солома.
  3. Слово на русском языке и последовательность символов, не являющаяся словом (далее я в тексте иногда условно называю это «не словом»). Пример: кольцо-библит, ступор-морета.

Длительность предъявления первого слова в паре составила 0.3 сек, второго слова (или не слова) — 1 секунду. Пауза между предъявлениями пар слов составила 1 секунду. Такая же схема действовала и в том случае, когда второй набор символов в паре не являлся словом.

Как я выяснил уже после тестирования, на этапе обработки данных, программа позволяет изменить все эти три интервала времени, например, уменьшить время предъявления первого слова до 0.1 сек или увеличить время предъявления второго слова/не слова до 1.5 секунд.

Начало прохождения теста по измерению прайминг-эффекта с длительностью предъявления первого слова 300 мс:

Начало прохождения теста по измерению эффекта прайминга с длительностью предъявления первого слова 100 мс:

Сначала испытуемые проходили тренировочную часть теста, состоящую из 20 пар (10 пар слово-слово и 10 пар слово-не слово), а затем — основную, состоящую из 52 пар последовательностей символов, которые, в свою очередь, состояли из 13 пар связанных слов, 13 пар несвязанных слов и 26 пар слово-не слово. Все пары были перемешаны, чтобы порядок предъявления был, по возможности, непредсказуемым.

Полный список пар слов/не слов в порядке предъявления находится в Excel на листе «2. Список слов».

Испытуемые были проинструктированы реагировать на второй элемент пары нажатием кнопки «стрелка влево» в случае, если они считают, что предъявлено слово, и нажатием кнопки «стрелка вправо» в случае, если они считают, что предъявлено не слово. Несмотря на то, что предъявляемое первое слово в паре вполне можно было заметить, участников теста просили не реагировать на него нажатием клавиши.

До окончания эксперимента испытуемым не разглашалась информация о сути эффекта прайминга, но после его окончания организатор делал дебрифинг, в котором объяснял желающим его суть.

Результаты

Результаты первого этапа (исследование феномена прайминга), включая исходные данные и их анализ, находятся в файле в формате Microsoft Excel 2007: priming_v1.xlsx

Если у вас более ранняя версия Excel, вы можете скачать пакет совместимости с сайта Microsoft, перейдя по этим сылкам: http://support.microsoft.com/kb/924074/ru или http://www.microsoft.com/ru-ru/download/details.aspx?id=3 . Структура файла priming_v1.xlsx описана на первом листе «0. описание листов». 

Сразу хочу отметить, что анализировал данные я самостоятельно, поэтому ответственность за выбор и правильное применение методик, критериев полностью лежит на мне.

В целях соблюдения анонимности, все данные обезличены, и испытуемые в публичном отчете представлены не фамилиями и именами, а кодами вида N01…N31. Полным списком соответствия код<->ФИО обладает только организатор, то есть я, а каждому участнику исследования на электронный адрес отправлен его персональный код.

Для упрощения изложения далее я буду часто в этом тексте использовать слово «участник» или «испытуемый» в мужском роде, даже если речь идет об участнице женского пола.

 

Первичный отсев

Для целей последующего анализа брались только результаты основной серии испытаний (52 ответа каждого из участников), то есть результаты тренировочной серии (первые 20 ответов) не учитывались. Это объясняется тем, что тренировочная серия как раз и задумывалась для того, чтобы участники адаптировались к тесту. Кроме того, первые несколько ответов в тренировочной серии были даны испытуемыми в присутствии организатора и под его контролем, так что тем более их нельзя учитывать. По моему субъективному ощущению, после 5-10 первых вопросов тренировочной серии практически все испытуемые демонстрировали полное понимание того, что от них требуется, входили в ритм теста, поэтому я покидал комнату, и испытуемые дальше проходили тест в одиночестве.

На первом этапе из общих результатов были исключены все ответы двух участников N03 и N14, которые продемонстрировали достаточно много ошибок при существенном количестве очень быстрых ответов (как правильных, так и неправильных), что весьма нехарактерно для всех других испытуемых. Например, у N03 имелось 7 ответов со временем ответа менее 350 мс, причем 3 из них – ошибочные, а у участника N14 имелось 5 ответов со временем ответа менее 350 мс, среди которых 2 – ошибочные.

Таким образом, сделав предположение о том, что существенная часть их ответов могла носить случайных характер, я решил все ответы участников N03 и N14 далее в рамках исследования по праймингу не учитывать. Однако, их ответы в рамках второго исследования (по воспоминаниям) я принял во внимание. Также я отсеял два ответа других участников, время ответа которых составило менее 350 мс, а именно, 88 мс и 257 мс.

Всем указанным выше ответам я присвоил признак «валидность» 0, что означает, что они невалидны. Все остальные ответы имеют валидность=1. Детальный список невалидных данных находится в листе «4. Невалидные данные».

Итак, на данном этапе для целей анализа эффекта прайминга у нас остались результаты 29 (=31-2) испытуемых и 29*52-2=1506 ответов, каждый из которых принимает одно из трех значений:

  • 0 — Опоздание, то есть участник не дал ответ в течение 1 секунды после предъявления второго стимула (т.е. слова/не слова) из пары.
  • 1 — Верный ответ. Участник правильно классифицировал второй стимул из пары как слово или как не слово, при этом уложился в 1 секунду.
  • 2 — Ошибка. Участник уложился в 1 секунду, но ответил неверно.

Анализ времени ответа

Лист «14. Общая стат.» содержит сгруппированные данные:

Во втором столбце указано среднее время верного ответа в миллисекундах (мс).

Таким образом, в случае пары связанных слов правильный ответ дается в среднем на 4-5% быстрее, чем в случае пары несвязанных слов. В свою очередь, разница по данному параметру между парами несвязанных слов и парами слово-не слово составляет еще больше — около 9%.

С детальным анализом по среднему времени ответа в случае правильного ответа, а также с кол-вом верных, ошибочных ответов и опозданиям в разрезе по участникам можно ознакомиться на листе «16. анализ по уч-кам» (среднее время ответа – столбцы A-E, кол-во верных/ошибочных/опозданий – в столбцах M-Z).

Далее нам предстоит выяснить статистическую значимость данной разницы. Если в вашем Excel не установлен пакет анализа, можно его установить для последующего расширенного анализа. В Excel 2010 для этого нужно перейти по пути: файл->параметры->надстройки->пакет анализа.

 

Проверка исходных данных на нормальность

Сначала оценим характер распределения времени ответов для всех трех случаев. Базовой гипотезой будет то, что эти распределения подчиняются нормальному закону. Для этого я воспользовался наиболее часто применяемым критерием согласия Пирсона χ². Отмечу, что с чисто формальной точки зрения время ответа на вопрос в нашем тесте, наверное, не может быть нормально распределено из-за того, что случайная величина, распределенная нормально, принимает значения на всей числовой оси, а в нашем случае результаты эксперимента (время в мс) были ограничены 0 мс снизу и 1000 мс сверху, то есть все значения без исключения находились в этом интервале, сколько бы мы раз эксперимент не проводили.  Все результаты, которые могли быть больше 1 секунды имели тип «опоздание» и отбрасывались. Тем не менее, в случае реального эксперимента можно говорить о том, что даже случайная величина, принимающая значения только на ограниченном интервале, может иметь распределение, достаточно близкое к нормальному, чтобы условно считать ее нормально распределенной.

Для проверки на нормальность я скопировал детальные данные на лист «5. анализ t на норм». В столбцах A-C содержатся времена всех ответов в случае правильного ответа, а в столбцах E-G в дополнение к ним – еще и времена опозданий (они все равны 1000 мс). Для построения гистограмм использовались корзины (Excel называет их карманами) 400 (куда входят ответы с временами 0-400 мс),450 (400-450 мс), 500, …, 950 (900-950 мс) и 1000 (куда входят ответы с временами 950-1000 мс). При этом если для конкретного случая в крайних карманах/корзинах не было элементов, то они (корзины) объединялись с соседними и укрупнялись, чтобы во всех корзинах было, по крайней мере, по одному элементу.

На листах «6.расп связ без опозд», «7.расп несвяз без опозд», «8.расп не слово без опозд» и «9.расп связ с опозд», «10.расп несвяз с опозд», «11.расп не слово с опозд» осуществлялась непосредственная проверка на нормальность критерием Пирсона χ².

На первых трех перечисленных листах («… без опозд») анализировались только данные по верным ответам, а на следующих трех («… с опозд») – по верным ответам и опозданиям. Зачем именно требовалось анализировать оба варианта – см. обсуждение в разделе «Анализ опозданий» ниже.

Результаты оказались следующими: во всех случаях значение полученной статистики χ² превосходило критический уровень для данного критерия с уровнем значимости 0.05. Наиболее близкое к критическому значение было получено для случая верных ответов на связанные пары слов («6.расп связ без опозд»), поэтому можно сделать вывод о наибольшей близости распределения этой группы ответов к нормальному распределению. Распределение же несвязанных слов, как оказалось, наиболее далеко от нормального, даже дальше, чем для случая пары слово-не слово. В случае включения данных по опозданиям эмпирическое распределение получалось еще дальше от нормального в силу «толстого» правого хвоста.

Итак, на основании критерия χ² следует отвергнуть гипотезу о нормальности распределения данных по времени ответов для всех рассмотренных случаев (связанные слова, несвязанные слова, слово-не слово).

Возможно, что после группировки по участникам и последующего усреднения, распределение среднего времени ответа будет больше похоже на нормальное распределение (в силу центральной предельной теоремы), однако я не стал проверять гипотезу о нормальности этого распределения этим критерием из-за недостаточности кол-ва испытуемых (29 человек), так как для проверки по критерию χ² Пирсона рекомендуют брать как минимум 50 результатов.

Анализ описательной статистики и графиков/диаграмм распределения

Для случая связанных слов коэффициент эксцесса положителен (т.е. гистограмма выглядит более крутой, чем для нормального распределения), для случая несвязанных слов – тоже. А вот для случая пары слово-не слово коэффициент эксцесса меньше нуля, и, действительно, гистограмма выглядит более пологой.

Интересно также отметить, что для всех случаев, а особенно для случая пары несвязанных слов также заметна правая асимметрия, то есть гистограмма слева растет круто, а справа, наоборот, заметен «толстый хвост». Соответствующие диаграммы и графики собраны на листах «12. три распр вместе» и «13. все диагр распр».

 

распределение частот верных ответов

распределение частот верных ответов

Проверка различия выборок среднего времени ответа участников

Займемся теперь проверкой различия выборок среднего времен ответа участников в случае связанных и несвязанных пар слов, а также в случае связанных/несвязанных пар слов и пары слово-не слово.

Для этого сначала группируем все данные по участникам (29 человек), а затем усредним. Таким образом, для каждого испытуемого будем иметь среднее время верного ответа, а также кол-во верных ответов, ошибок и опозданий для каждого из трех вариантов вопросов (пара связанных слов, пара несвязанных слов, пара слово- не слово). Как я уже упоминал выше, эти агрегированные данные размещены на листе «16. анализ по уч-кам» (среднее время ответа – столбцы A-E, кол-во верных/ошибочных/опозданий – в столбцах M-Z).

Для проверки различия средних значений в двух зависимых выборках часто используется двухвыборочный t-тест Стьюдента (в пакете анализа Excel он называется «парный двухвыборочный t-тест для средних»). На листе «17. t-тест Стьюдента» даны результаты применения этого критерия. Указанный тест применяется для сравнения трех пар выборок: 1)связанные слова и несвязанные слова, 2)не слово и несвязанные слова, 3)не слово и связанные слова. Во всех трех случаях полученное значение t-статистики получается выше критического уровня. Например, для случая сравнения выборок связанных слов и несвязанных слов, значение t-статистики 3.73 больше критического уровня как для одностороннего критерия (1.70), так и для двухстороннего (2.048) при уровне значимости 0.05. Значит, на основании этого критерия мы отвергаем гипотезу о равенстве средних времен ответа для пары связанных слов и для пары несвязанных слов. Также на основе этого критерия можно отклонить гипотезу о равенстве средних времен ответа на пару слов (как связанных, так и несвязанных) и на пару слово-не слово.

Отмечу, что коэффициент корреляции между двумя сгруппированными по участникам данными составляет 0.77 для случая выборок связанных слов и выборок несвязанных слов 0.81 для случая выборок не слов и несвязанных слов и 0.71 для случая выборок не слов и связанных слов. Это означает, что между всеми этими данными существует положительная связь. Например, если мы возьмем участников с большим временем ответа для случая пары связанных слов, то, скорее всего, у таких участников будет и большее время ответа для случая несвязанных слов и для случая пары слово-не слово. И наоборот.

Далее я рассмотрел вопрос о допустимости применения t-теста Стьюдента в нашем случае. Дело в том, что для корректного применения этого теста необходимо, чтобы попарные разности всех проверяемых выборок (например, средних времен ответа для случая связанных слов и для случая несвязанных слов) были бы нормально распределенными. Данную проверку посредством критерия χ² Пирсона я не стал проводить, так как рекомендуется, чтобы было не менее 50 элементов для проведения проверки (а у нас только 29 испытуемых).

Для графической проверки на нормальность я построил гистограммы для каждых из трех попарных разностей средних времен (см. лист «17. t-тест Стьюдента», внизу), которые показали, что в каждом случае присутствуют длинные «хвосты» справа, которые ухудшают симметрию графика. Тем не менее, эти хвосты можно убрать, исключив всего двух участников: N29 и N19. После этого распределения можно считать симметричным и условно нормальным. Отмечу, что мне, как математику, не очень приятно делать такие субъективные выводы о нормальности на основании недостаточного количества данных, поэтому далее я применю еще два критерия (Уилкоксона и G-критерий знаков), которые будут проверять те же самые гипотезы.

А пока хотел бы остановиться на регрессионном анализе выборок среднего времени ответа в случае двух связанных слов и среднего времени ответа в случае двух несвязанных слов (лист «18.регрессия связ-несвяз»). По оси X отложены cредние времена ответа участников в случае пары связанных слов (столбец B), по оси Y – средние времена ответа участников в случае пары несвязанных слов (столбец C). Коэффициент детерминации R² в этой линейной модели составляет 0.59. Применение F-критерия показывает, что модель значима. Остатки проверены на нормальность графическим способом (построена гистограмма) в силу малого кол-ва испытуемых.

Можно улучшить регрессионную модель, исключив данные участника N19 (см. лист «19.регрессия связ-несвяз без N19»). Коэффициент детерминации R² повысился до 0.68, гистограмма остатков стала более симметричной (отбросили длинный правый «хвост») и похожей на нормальное распределение.

Однако после такого исключения всего одного участника параметры линейной модели изменились достаточно существенно, а именно, наклон прямой увеличился с 0.89 до 0.96, а свободный член уменьшился с 96 до 51. Поэтому к применению построенной на основе такого количества данных модели нужно относиться с осторожностью.

Перейдем теперь к применению альтернативных критериев.

Для проверки гипотезы о различии какого-нибудь показателя двух парных выборок можно применять критерий Уилкоксона (Wilcoxon signed-rank test). Вычисления приведены на листе «20. Крит. Уилкоксона». В нашем случае получается, что среди 29 участников только у 7 среднее время ответа в паре связанных слов больше, чем среднее время ответа в паре несвязанных слов. Сумма рангов, посчитанных в соответствии с методикой этого критерия, для этих 7 участников будет равна 71. Критическое же значение для двустороннего критерия Уилкоксона для уровня значимости 0.05 составляет 126. Для одностороннего еще больше — 140. Таким образом, можно отвергнуть гипотезу о равенстве средних двух парных выборок, иными словами, можно утверждать, что среднее время ответа в случае связанных слов и среднее время ответа в случае несвязанных слов различается статистически значимо.

Замечу, что корректное применение критерия Уилкоксона предполагает, что распределение разностей пар значений должно быть симметричным. Однако в нашем случае получается, что это распределение не совсем симметрично (коэффициент асимметрии 0.58), и медиана отличается от среднего. Вопрос, насколько такое отличие существенно в контексте применения критерия Уилкоксона, для меня остается открытым. Проанализировав гистограмму распределения попарных разностей времен ответа (см. внизу листа «20. Крит. Уилкоксона») я пришел к выводу, что если исключить данные участника N19, то распределение станет более симметричным (коэффициент асимметрии уменьшится до 0.17). Кроме того, исключение этого участника не скажется сильно на результатах применения этого критерия, просто критические значения критерия будут чуть ниже, а именно, 116 для двустороннего критерия и 130 для одностороннего, что все равно выше значения критерия 71. Таким образом, в этом случае тоже можно утверждать, что среднее время ответа в случае связанных слов и среднее время ответа в случае несвязанных слов различается статистически значимо.

Аналогичные проверки этим критерием можно провести также для случая сравнения выборок связных/несвязных слов и пар слово-не слово, которые дадут тот же результат (значимость различия средних времен ответа).

В дополнение я применил еще один критерий, который фактически является наименее чувствительным, но который не требует ни нормальности, ни симметричности. Этот критерий называется критерий знаков (или G-критерий знаков). Для его применения нужно подсчитать количество характерных (в нашем случае – в большую сторону) и нехарактерных (в нашем случае – в меньшую сторону) изменений среднего времени ответа при переходе от пары связанных слов к паре несвязанных слов для всех участников. При этом нулевой гипотезой будет следующее утверждение: «существенность сдвигов в типичном направлении не превосходит существенности сдвигов в нетипичном направлении».

У нас получается, что из 29 изменений 22 было в большую сторону и 7 – в меньшую (см. столбцы G-H на листе «16. анализ по уч-кам»). Критическим значением критерия для числа участников 29 и уровня значимости 0.05 является 10. Так как полученное значение критерия (7) у нас меньше этого критического значения (10), то нулевую гипотезу отвергаем и считаем различия в средних двух парных выборок существенными. Аналогичный результат мы получим, если вместо отбрасывания опозданий будем их учитывать как правильные ответы со временем ответа 1000 мс. В этом случае для пары связанных слов добавятся два ответа-опоздания у участников N19 и N26, но у N19 при этом добавится опоздание и для пары несвязанных слов, т.о. полученное значение G-критерия у нас будет не больше 8 (а на самом деле даже меньше), что опять меньше критического уровня 10.

В столбцах I-J листа «16. анализ по уч-кам» критерий применяется для анализа разностей времени ответа в случае несвязанных слов и пары слово — не слово/

Вывод: даже такой простой и не очень чувствительный G-критерий знаков показывает, что различие среднего времени ответа в случае пары связанных слов (611 мс) и среднего времени ответа в случае пары несвязанных слов (639 мс) не случайно и носит статистически значимый характер. Применение этого критерия для анализа различия среднего времени ответа в случае пары несвязанных слов (639 мс) и среднего времени ответа в случае пары слово-не слово (698 мс) даст тот же результат, то есть это различие статистически значимо с т.з. этого критерия.

Анализ опозданий

Опозданий в основной серии оказалось сравнительно немного (см. лист «14. Общая стат»):

Какой-то основательный анализ по опозданиям я не проводил, т.к. их абсолютное количество очень мало. Тем не менее, отмечу, что доля опозданий для случая пары связанных слов составила 0.5%, что почти в 4 раза меньше, чем доля опозданий для случая пары несвязанных слов (1.9%). С другой стороны, доля опозданий для случая пары несвязанных слов, которая составила 1.9%, оказалась равной доле опозданий для случая пары слово-не слово.

Лидером по количеству опозданий является пара «дерево ворост» (3 опоздания из 29). Статистика по другим парам приведена ниже (см. также лист «21. Опоздания по словам»):

Остается открытым вопрос, нужно ли отбрасывать эти опоздания, то есть случаи, когда ответ на вопрос не был дан до истечения 1 секунды. Хотя таких опозданий и немного (2/7/14), они обладают большим весом из-за своих значений, которые сильно отличаются от средних в большую сторону. Таким образом, такое отбрасывание может быть не совсем корректным. Но включать их я тоже не хотел, так как неизвестно время ответа на вопрос, а также, была ли бы в случае ответа ошибка или ответ был бы дан верный (ведь ответа как такового не было).

Можно было бы попробовать экстраполировать данные по времени ответа и процент ошибок на эти опоздания, но здесь мы упремся в то, что нам неизвестно распределение вероятностей, то есть получается замкнутый круг. Также важным является и то, что, возможно, некоторая часть этих опозданий связана с какими-то внешними факторами. То есть участника мог просто кто-то или что-то отвлечь на секунду. И количество таких случаев нам тоже неизвестно.

Тем не менее, учитывая, что процент опозданий для случая пары несвязанных слов и пары слово-не слово (1.9%) оказался в несколько раз выше процента опозданий для случая пары зависимых слов (0.5%), можно предположить, что опоздания связаны в первую очередь с уровнем сложности самих заданий, а не с внешними факторами.

В целом, я отбрасывал опоздания для целей анализа верных ответов.

Но чтобы результаты моего исследования были более объективными, в нескольких важных случаях я проводил параллельно два анализа, один только по верным ответам, другой – с добавлением к верным ответам также опозданий (считая их верными ответами с временем ответа 1000 мс). Во всех этих случаях анализ верных результатов с добавлениями опозданий подтверждал выводы анализа, полученного только на основе верных данных.

Возможно, если этот эксперимент повторять заново, имеет смысл немного повысить порог для опоздания, скажем, с 1000 мс до 1200-1500 мс, чтобы доля опозданий стала бы еще меньше.

Анализ ошибок

Ошибок в основной серии было в несколько раз больше, чем опозданий (см. лист «14. Общая стат»):

В случае с ошибками ситуация еще более красноречивая, чем в случае c опозданиями. Доля ошибок для случая пары связанных слов составила 1.3%, что более чем в 5 раза меньше, чем доля ошибок для случая пары несвязанных слов (6.9%). С другой стороны, доля ошибок для случая пары несвязанных слов, которая составила 6.9%, оказалась равной доле ошибок для случая пары слово-не слово. В данном случае, конечно, точное равенство, как и для случая с опозданиями — это всего лишь совпадение.

Лидером по количеству ошибок являются пары «космос ремент» и «дерево ворост» (8 ошибок из 29) для случая пары слово — не слово, также «молоко пещера» (6 ошибок из 29) для случая пары несвязанных слов. Статистика по другим парам приведена ниже (см. также лист «22. Ошибки по словам»):

Далее проанализируем, насколько разница в частоте ошибок между ответами на пары связанных слов (1.3%) и пары несвязанных слов (6.9%) существенна. Будем использовать, как и в случае анализа времени, критерий знаков (или G-критерий знаков). Для его применения подсчитаем количество характерных (в нашем случае – в большую сторону) и нехарактерных (в нашем случае – в меньшую сторону) изменений в количестве ошибок при переходе от пары связанных слов к паре несвязанных слов для всех участников. При этом нулевой гипотезой будет следующее утверждение: «существенность сдвигов в типичном направлении не превосходит существенности сдвигов в нетипичном направлении».

У нас получается, что из 29 участников у 17 кол-во ошибок увеличилось, и только у одного участника N05 кол-во ошибок упало (см. столбцы AF-AG на листе «16. анализ по уч-кам»). У 11 участников кол-во ошибок не изменилось, и мы их отбрасываем. Критическим значением критерия для числа участников 18 и уровня значимости 0.05 является 6. Так как полученное значение критерия (1) у нас меньше этого критического значения (6), то нулевую гипотезу отвергаем и считаем различия в частоте ошибок существенными.

Вывод: G-критерий знаков показывает, что различие в частоте ошибок в случае пары связанных слов (1.3%) и частоты ошибок случае пары несвязанных слов (6.9%) не случайно и носит статистически значимый характер.

 

Краткие итоги 

  1. Исходные распределения времени верного ответа отличаются от нормального, причем для пар несвязанных слов и пар слово-не слово отличие наиболее существенно. Во всех случаях отмечена правая асимметрия распределения.
  2. Среднее время ответа составило 611 мс для пар связанных слов, 639 мс для пар несвязанных слов и 698 мс для пар слово-не слово. Статистическая значимость этих различий подтверждена несколькими критериями (t-тест Стьюдента, критерий Уилкоксона, G-критерий знаков).
  3. Частота ошибок составила 1.3% для пар связанных слов и 6.9% для пар несвязанных слов и пар слово-не слово. Статистическая значимость этих различий подтверждена G-критерием знаков (другие критерии и тесты не применялись).

 

Перспективы дальнейшего анализа 

Ниже я представлю некоторые расчеты, в верном толковании которых я не совсем уверен. Тем не менее, возможно, после более глубокого анализа я представлю подходящее объяснение полученным ниже данным, и эта тема получит дальнейшее развитие.

Данные по среднему времени верного ответа в разрезе по парам слов/не слов приводятся на листе «23. верные по словам»:

Так как разница во времени ответа крайних слов в каждом из наборов достаточно сильно бросается в глаза, я решил проверить, может ли она носить чисто случайный характер. Для примера взял две крайних по времени пары типа «слово — не слово», а именно, «дерево-ворост» и «порода-палтуб». Анализ на листе «24. две пары сравн» показывает, что среди всех 29 участников, которые отвечали на эти два вопроса, нет ни одного участника, который дал бы верный ответ на предъявленную пару «дерево-ворост» быстрее, чем на пару «порода-палтуб», и 18 человек, которые, верно ответив на оба вопроса, затратили на вопрос «дерево-ворост» больше времени, чем на вопрос «порода-палтуб». Оставшиеся 11 участников либо ошиблись, либо опоздали при ответе на вопрос «дерево-ворост».

Далее предположим, что отличия во времени ответа на эти два вопроса не носят статистически значимый характер, то есть для каждого из 18-ти участников равновероятно как ответить быстрее на один ответ («дерево-ворост»), так и на другой («порода-палтуб»). То есть p=q=0.5.

При таких предположениях, вероятность подобного исхода (0 более быстрых ответов для «дерево-ворост» из 18) для двух пар случайно выбранных вопросов будет равна b(0;18;0.5)= 3,8147E-06. Здесь b(n,m,p) – биномиальное распределение, n – число успехов, m – количество испытаний, p – вероятность успеха каждого испытания.

Однако в нашем случае пары вопросов выбраны не случайно, а как находящиеся на разных полюсах, то есть фактически дополнительный выбор производился из 26*25/2=325 пар.

Поэтому, чтобы оценить сверху вероятность того, что хотя бы в какой-либо одной паре из этих 325 все же случится такое событие, что будет 0 более быстрых ответов для «дерево-ворост» и 18 более быстрых ответов на «порода-палтуб»

Умножим 325 на 3,8147E-06 и получим 0.0012. Отмечу, что это грубая оценка сверху этой вероятности, т.к. эта формула применяется для случая независимых событий, а в случае зависимых результат будет еще меньше.

Мы получили, что вероятность того, что в хотя бы одной паре вопросов из всех 325 пар (под вопросом я подразумеваю здесь тоже пару, например, «дерево-ворост») среди верных ответов на оба вопроса будет 18 случаев более быстрого ответа на один вопрос и ни одного случая более быстрого ответа на другой, равна 0.0012. На основании того, что это значение очень мало (меньше 0.05), мы можем отвергнуть исходное предположение, что отличия во времени ответа на любые два вопроса не носят статистически значимый характер, то есть для каждого из 18-ти участников равновероятно как ответить быстрее на один ответ («дерево-ворост»), так и на другой («порода-палтуб»).

Таким образом, между временем ответа на пары «дерево-ворост» и «порода-палтуб» есть такая разница, которая не может быть объяснена одной лишь случайной ошибкой для уровня значимости 0.05. Такая же ситуация с парами «космос-ремент» и «порода-палтуб».

В связи с этим, кажется весьма интересным более глубоко проанализировать внутренние различия подобного рода между вопросами, чтобы выявить какие-то дополнительные закономерности.

Для этого я планирую сначала изучить несколько статей в этой области, а также ознакомиться с работами, посвященными задачам лексического разбора (Lexical decision task). После прочтения статьи Д. Е. Мейера (David E. Meyer) и Р. У. Шваневелдта (Schvaneveldt, R.W) 1971 г. «Facilitation in Recognizing Pairs of Words: Evidence of a Dependence Between Retrieval Operations» становится ясно, что нужно более внимательно отнестись к семантическому анализу предъявляемых слов в тесте, так как на скорость их распознавания может влиять частота встречаемости в языке, а также другие характеристики слова.

Продолжение следует.

Приложение

Файлы на Яндекс Диске:

  • priming_v1.xlsx — файл в формате MS Excel 2007 с исходными данными и анализом
  • priming_v1.docx — файл в формате MS Word 2007 с содержанием, дублирующим данную статью
  • priming_v1_DOC.doc — файл в формате MS Word 97-2003 с содержанием, дублирующим данную статью
  • priming_v1_RTF.rtf — файл в формате RTF с содержанием, дублирующим данную статью
  • lexical_decision_Meyer_1971.pdf — статья «Facilitation in Recognizing Pairs of Words: Evidence of a Dependence Between Retrieval Operations» Д. Е. Мейера (David E. Meyer) и Р. У. Шваневелдта (Schvaneveldt, R.W) 1971 г.

Оглавление

Часть 1. Введение.
Часть 2. Прайминг-эффект.
Часть 3. Ложные воспоминания.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>