2035: in progress > Ликбез

04.02.2020

Как устроены диагностические инструменты Университета 20.35

Сервис диагностики и отбора — один из базовых сервисов Университета 20.35. Он является первичным элементом в построении индивидуальной образовательной траектории для эффективного освоения новых технологий и профессий. Любая траектория имеет отправную точку, в зависимости от которой пользователь будет развиваться в том или ином направлении. И именно диагностика в нашем случае и есть та самая точка, которая позволяет собрать первый пул данных о пользователе для дальнейшей работы с ним. Говоря официальным языком, сервис диагностики и отбора содержит в себе цифровые диагностические инструменты для оценки компетентности и личных качеств пользователя. А если говорить простым языком, именно за счет диагностики мы можем предоставлять образовательные услуги не вслепую (по стандартам и возрастам), а персонализированно.

Но в подходе Университета 20.35 важным является еще и накопление структурированных данных о пользователях. Поэтому диагностика демонстрирует не только индивидуальные значения, но и показатели конкретного пользователя относительно общего распределения. На основе полученных данных мы можем, в частности, составлять мнение по поводу отдельных групп, сообществ, сравнивать их друг с другом.     

При выдаче результата диагностики наиболее важным является сочетание отдельных показателей в более полную комплексную картину. На первой стадии реализации сервиса диагностики мы занимались сбором и описанием отдельных показателей диагностических инструментов, фиксировали их сочетания для определенных групп, устанавливали корреляции. При дальнейшем развитии сервиса мы стараемся описать именно сочетания показателей, получая совокупные описания. Они фиксируются в системе с выделением как наиболее часто, так и наиболее редко встречающихся, а также особенностей и закономерностей для определенных групп пользователей.

Почему нашей диагностике можно доверять? 

Главный принцип сервиса диагностики и отбора звучит крайне противоречиво — все инструменты врут! Это не значит, что они неправильные или дают некорректную информацию. Основной смысл этого принципа заключается в том, что каждый диагностический инструмент не может быть абсолютно достоверен (валиден) в отрыве от другого инструмента. Только сопоставляя множество данных, можно убедиться, что они дополняют друг друга и являются достоверными. Рассмотрим это на примере инфографики.

Перед нами три инструмента, каждый из которых определяет тот или иной конкретный показатель. Пусть это будет, например: 
Инструмент 1: показатель «доброты»;
Инструмент 2: показатель «высокого коммуникативного навыка»;
Инструмент 3: показатель «позитивного отношения к жизни в целом».
При этом каждый из трех инструментов обладает косвенным (не основным) показателем. На картинке они обозначены стрелками.

KDE_2_1.jpg 
 
Таким образом, если косвенный показатель инструмента 1 созвучен с показателем (основным или косвенным) инструмента 2, мы можем сделать вывод, что данные инструменты подтверждают валидность друг друга. Но, разумеется, это не исчерпывающий способ подтверждения валидности диагностических инструментов.  

На чем мы основываемся:

1) Измерение с помощью любого инструмента даёт результаты, которые содержат в себе ошибку. Другими словами, любой инструмент измеряет не только тот латентный конструкт, который хотел измерить разработчик, но и некоторый «шум», который может быть связан с усталостью тестируемых, мотивацией, освещенностью в аудитории и т. д.
2) По ходу разработки и при использовании теста нужно собирать как можно больше разных доказательств того, что выводы, которые мы делаем о тестируемых по результатам теста, правдивы и справедливы (т. е. валидны). Кроме того, процесс валидизации (сбора этих доказательств) бесконечен. Сбор свидетельств валидности направлен на то, чтобы минимизировать ошибку измерения.
3) Оценка, полученная с помощью одного инструмента, менее точная и полезная, чем оценка, полученная на основе нескольких инструментов. Различные инструменты подвержены различным искажениям (например, социальной желательности), поэтому использование нескольких инструментов, измеряющих схожие конструкты, дает более точную и богатую информацию о тестируемом.
4) Все суждения и гипотезы об инструментах нужно проверять на реальных данных. Чтобы снизить вероятность смещённости выборки, для проверки любых гипотез об инструментах нужно опираться на как можно больший массив данных.

Чем мы занимаемся сейчас?

Сейчас для инструментов сервиса диагностики мы собираем свидетельства валидности структуры конструктов и связи с другим тестами. 
Ничего не поняли? Поясняем.

Валидность структуры конструкта

Что это значит? С помощью анализа данных реальных людей, решавших тот или иной тест (тест в данном случае используется в широком смысле как синоним инструмента измерения), мы выстраиваем структуру конструктов, которые были заложены в тест.

Как это происходит? Когда тест только разрабатывается, у его авторов есть представление о том, что будет измерено, и чаще всего это представление появляется на основе анализа литературы. Однако никогда не бывает так, чтобы тест действительно измерял именно это представление. Поэтому проводится анализ данных, чтобы посмотреть насколько то, что реально измеряется, совпадает с представлением, которое закладывали разработчики теста.
 
Например, разработчики закладывали в тест «толерантности к неопределенности» измерение 3 конструктов: ригидность, толерантность к неопределенности и интолерантность к неопределенности. Сейчас, получив данные 30 тыс. человек, проходивших этот тест, мы проводим факторный анализ, который покажет, во сколько шкал (=конструктов) объединятся задания теста.

Надо отметить, что факторный анализ (а их существует много разных!) далеко не единственный способ посмотреть, насколько хорошо тест измеряет заложенные в него конструкты. Кроме этого, важно проводить экспертные панели по обсуждению операционализации, когнитивные лаборатории по исследованию восприятия заданий, рассчитывать показатели надежности теста, трудности и дискриминативности заданий и т. д.

Критериальная валидность

Что это значит? Чтобы понять, насколько наш тест измеряет то, что задумали разработчики, бывает полезно найти другой тест, который измеряет тот же конструкт, и посмотреть, насколько у одних и тех же людей результаты по этим двум тестам совпадают. Также для этого можно использовать тесты, которые измеряют не тот же самый конструкт, а, например, похожий или связанный с ним конструкт или, наоборот, противоположный. Например, известно, что ригидность с возрастом повышается. Поэтому свидетельством валидности нашего теста будет ситуация, в которой мы проанализировали данные о связи возраста тестируемых и результатов их теста на ригидность.

Таких критериев можно подобрать великое множество. Сейчас мы исследуем, как связаны стили поведения, выявляемые инструментом «чат-бот», и результаты теста MMPI (Миннесотский многоаспектный личностный опросник) личностных черт, но это только начало сбора свидетельств валидности с помощью различных критериев.

Отдельно отметим, что сбор свидетельств валидности тестов — это множество исследований, каждое из которых может иметь свою процедуру. Но важным здесь остается одно — нужно разрабатывать дизайны этих исследований, ставить гипотезы и не бояться того, что какие-то из них будут отвергнуты. Даже отвергнутая гипотеза даёт нам дополнительную информацию о наших инструментах.

Кто уже прошел нашу диагностику

За два года более 74 тыс. человек в том или ином объеме прошли диагностику Университета. Больше половины выполнили все задания. Из них диагностику в рамках проектно-образовательных интенсивов прошли 25,5 тыс. человек, диагностику CDO (Chief Data Officer, — Управление, основанное на данных) — 28 тыс., диагностику для участия в интенсивах формата «Остров» — 12 тыс. Оставшиеся участники проходили тестирование для отбора на другие проекты. Среди них Всероссийский форум профессиональной ориентации «ПроеКТОриЯ», отбор общественных представителей АСИ, различные хакатоны и т. д. 

KDE_2_3.jpg

Надежнее, валиднее, точнее. Или какие исследования мы проводим

На данный момент мы провели несколько исследований, посвященных функционированию самих тестов, чтобы выводы, которые мы получаем и которые видит пользователь, были еще точнее и валиднее. У любого теста (или диагностического инструмента) есть две условные стороны: внешняя и внутренняя. Внешнюю видит пользователь, который проходит тест. Внутренняя показывает, как функционирует тест изнутри, насколько он позволяет сделать валидные и надежные выводы о тестируемом.  Первой части посвящены два наших исследования: анализ поведенческих паттернов инструмента Чат-бот и связь результатов наших тестов с MMPI. Второй части — качеству тестов — посвящены исследование по дискретизации шкал Толерантности к неопределенности и опросник временно́й перспективы.

Исследование паттернов поведенческих стилей

На выборке в 30147 человек, прошедших диагностику в 2018-2019 годах, мы искали ответ на исследовательский вопрос: «Какие сочетания поведенческих стилей, выявляемых с помощью инструмента Чат-бот, чаще всего встречаются вместе?»

Процедура:
1. Анализ распределений поведенческих стилей (среднее, стандартное отклонение, квартили, гистограмма).
2. Корреляционный анализ (как значимые рассматриваются корреляции Спирмена по модулю больше или равные 0,1).
3. Факторный анализ (методом главных компонент с косоугольным вращением осей, так как стили связаны между собой).
4. Перекодировка стилей на три уровня выраженности: высокий, средний и низкий.
5. Маркировка выборки по паттернам (создаются отдельные 7 переменных для паттернов, куда попадают люди с высокой и низкой выраженностью определенных стилей, см. пункт 3), смотрим, насколько распространены паттерны в выборке. 

KDE_2_2.jpg

Наиболее высокие связи между стилями:
1) Боец и конструктор.
2) Эстет и интуит.
3) Аналитик и интуит (отрицательная).
4) Эмпат и контролер.

Были выделены 7 паттернов, которые объясняют 55% всей дисперсии данных. Четверть выборки (примерно 25%, а это много!) всех прошедших диагностику имеют один из выделенных паттернов.

Выделились паттерны:
1. Эстет + интуит + анти аналитик.
2. Боец + конструктор.
3. Вождь + актер.
4. Адепт + преследователь + эмпат.
5. Визионер + Творец + анти контролер.
6. Хакер + организатор + анти экспериментатор.
7. Связной + исполнитель + анти эксперт.

Исследование критериальной валидности: как сочетаются результаты MMPI и наших диагностических инструментов? 

Исследовательский вопрос, на который мы отвечали: как связаны результаты известного и хорошо валидизированного теста MMPI с результатами по нашим диагностическим инструментам. 

Дискретизация шкал стандартизированных опросников

Это исследование «внутреннее», оно не несет особой ценности для пользователей и заказчиков, но позволяет уточнить наши результаты в отношении тестируемых. В этом исследовании участвовали два инструмента: Толерантность к неопределенности, разработанный Баднером и адаптированный с английского языка Корниловой и Чумаковой; и опросник временно́й перспективы, разработанный Зимбардо и Гонзалесом и адаптированный Сырцовой, Митиной и др. 

Чтобы разобраться, что именно мы сделали, необходимо небольшое отступление о том, как вообще разрабатываются и адаптируются стандартизированные тесты. Когда тест, разработанный на одном языке (например, на английском), адаптируется для использования в другой культуре (например, для использования в России), нужно проверить, продолжает ли он измерять всё ту же характеристику, которую измерял в первоначальной культуре.
 
Это комплексный процесс, в ходе которого, в частности, проверяется, как функционируют шкалы опросника в новой культуре. Для этого проводится апробация теста на небольшом количестве людей. Обычно этими людьми становятся студенты, так как их проще всего попросить заполнить тот или иной тест (здесь нужно добавить, что большинство тестов разрабатываются преподавателями университетов). 

Наши два теста были апробированы на нескольких сотнях студентов. Потом на основе данных этих студентов выделяются уровни выраженности той характеристики, которая измеряется. То есть на основе этих данных исследователи отвечают на вопрос: какой уровень ригидности следует считать высоким? Какой уровень толерантности к неопределённости нужно считать низким? Мы используем эти тесты для совсем другой популяции людей — в основном, взрослых людей. Получается, что результаты, полученные на 300 студентов, могут не отражать картины для нашей целевой аудитории. Поэтому мы заново провели дискретизацию шкал и выделили высокий, средний и низкий уровень выраженности характеристик, измеряемых этими двумя тестами, на нашей выборке.
Тест Толерантности к неопределенности

Каждая итоговая шкала разбивается на 3 уровня выраженности конструкта: высокий, средний, низкий. Дискретизация шкалы на три уровня проводилась с помощью кластерного анализа в пакете R. Дискретизация шкал проводилась на выборке 28887 человек, прошедших это тестирование в 2018-2019 гг.

KDE_2_4.jpg
 
Опросник Временно́й перспективы Зимбардо

Каждая итоговая шкала разбивается на 3 уровня выраженности: высокий, средний, низкий. Дискретизация шкалы на три уровня проводилась с помощью кластерного анализа в пакете R. Дискретизация шкал проводилась на выборке 15931 человек, прошедших это тестирование в 2018-2019 гг. (94,5% оригинальной выборки; 753 человека, т. е. 4,5% выборки, были удалены из анализа, так как не полностью заполнили опросник).

KDE_2_5.jpg
 
Зачем и кому нужна диагностика?

«Сегодня одна из основополагающих проблем образовательных организаций состоит в том, что они не имеют достаточной информации об учащихся. Кроме результатов ЕГЭ у них не так много данных. Поэтому весь образовательный процесс — это следование стандартной программе, которая по определению должна нормально работать для всех. Мы же стараемся сделать образовательный процесс более сфокусированным на конкретных людях. Наша диагностика показывает, почему люди теряют фокус, почему они не вовлечены, почему образовательные программы зачастую неэффективны. Диагностика для образовательных учреждений очень важна прежде всего потому, что без нее невозможна персонализация. 
Если же мы на диагностических данных получаем информацию, как учащиеся мыслят, как они удерживают фокус внимания, какая у них мотивация, мы можем на этапе педагогического дизайна выстроить образовательный процесс так, чтобы их максимально удержать. Обучение будет более эффективным, будет занимать меньше времени и приведет человека в реальную деятельность. Диагностика — основной, базовый элемент образовательного дата-инжиниринга, образования, построенного на данных», — рассказывает директор сервиса диагностики и отбора Университета 20.35 Андрей Комиссаров.   



PS: если вам интересно, как разрабатывать тесты по науке, посмотрите стандарты:

Батурин Н. А., Вучетич Е. В., Костромина С. Н., Кукаркин Б. А., Куприянов Е. А., Лурье Е. В., Митина О. В., Науменко А. С., Орел Е. А., Полетаева Ю. С., Попов А. Ю., Потапкин А. А., Симоненко С. И., Синицына Ю. Д., Шмелёв А. Г. Российский стандарт тестирования персонала. 
American Educational Research Association, American Psychological Association, National Council on Measurement in Education, Joint Committee on Standards for Educational, & Psychological Testing (US). (2014). Standards for educational and psychological testing. Amer Educational Research Assn.

Андрей Комиссаров, Татьяна Хрусталева, Ирина Брун, Марина Киселева

#Университет "20.35", #диагностика, #Образование

Мероприятия НТИ

Подписка на обновления

«Информбюро 20.35» делает почтовую рассылку самых интересных публикаций один раз в неделю. Чтобы подписаться на нее, зарегистрируйтесь или войдите через свою учетную запись на платформе leader-id.ru.