В ГЦТ прокомментировали интервью, опубликованное в Kun.uz. Комментарий стал причиной возникновения новых вопросов

Мы сообщали о том, что в Узбекистане планируется унифицировать итоговую государственную аттестацию выпускников общеобразовательных школ и вступительные экзамены в высшие образовательные учреждения, и внедрить единый экзамен.

26 июля корреспондент Kun.uz организовал интервью с экспертом по образовательным программам, педагогике и тестологии Комилжоном Джалиловым, и получил ответы на ряд вопросов, возникающих по новой системе.

В том числе, эксперт в ходе интервью сообщил, что является сторонником новой системы, рассказал о предотвращении излишнего стресса для учащихся и появлении возможности объективного сопоставления знаний выпускников школ.

Комилжон Джалилов продолжил свою мысль, и подчеркнул ряд проблемных аспектов, которые могут повлиять на развитие новой системы в будущем.

По мнению эксперта, подход Государственного центра тестирования к составлению тестовых вопросов (в тестологии, то есть, науке об оценивании, это называется «тестовыми заданиями»), может не дать возможности полного достижения ожидаемых результатов.

«Я - специалист в этой сфере, и у меня складывается такое впечатление, что для Государственного центра тестирования соответствие тестовых заданий требованиям и стандартам, принятым в тестологии, валидность, достоверность, находятся на десятом, а то и на двадцатом месте. Главное – «гладко» провести процесс и отчитаться: «столько-то абитуриентов участвовали, средний балл составил столько-то». Однако, ни одна из стадий - от создания тестовых заданий и апробации до обработки и публикации результатов тестов – не отвечает даже самым элементарным требованиям тестологии» - заявил эксперт.

На другой день после публикации интервью на сайте, Государственным центром тестирования на своём сайте dtm.uz был предоставлен комментарий с претензиями в отношении эксперта и журналиста.

«С большим сожалением, мы отмечаем, что прежде чем публиковать подобные мнения на сайте, пользующемся большим авторитетом среди СМИ нашей страны, следовало связаться с учреждением, деятельность которого непосредственно критикуется, ознакомиться с реальным положением дел. Таким образом, не был учтён важнейший принцип журналистики.

Если в прессе не публикуются отчёты Государственного центра тестирования о проведённой апробации и статистических анализах тестовых испытаний, говоря языком тестологии, связанных с процессом валидации, то это не означает, что в этом отношении не проводилось никаких научных исследований. Отделом тестологии, педагогических измерений и научной методики регулярно анализируются результаты апробации тестовых заданий согласно классическим и современным тестовым теориям, даются необходимые рекомендации по развитию тестовых заданий. В этом направлении специалистами Государственного центра тестирования ведётся работа в тесном сотрудничестве с такими государствами, как Великобритания, США, Япония, Южная Корея, Германия, Казахстан. Кроме того, недавно было установлено сотрудничество с федеральным институтом педагогических измерений (ФИПИ) Российской Федерации.

Исходя из вышеизложенного, мы предоставляем вниманию журналиста и его собеседника одну из ранее опубликованных статистик» - говорится в комментарии, продолжающемся рядом статистических и аналитических данных.

Конечно, оперативный комментарий в отношении части интервью, связанной с Государственным центром тестирования, является положительным фактом, но в этом комментарии есть ряд неточностей и не разъясненных моментов. По этому поводу мы организовали очередную беседу с независимыми экспертами в этой сфере Комилжоном Джалиловым и старшим преподавателем Ташкентского государственного Вестминстерского университета Эркином Мухаммедовым.

Комилжон Джалилов, эксперт по образовательным программам, педагогике и тестологии

Конечно, очень радует, что в Государственном центре тестирования проводится статистический анализ тестовых заданий. Только предоставленный статистический анализ, на мой взгляд, вызывает ряд вопросов у специалиста, знающего толк в тестологии. Не получив удовлетворительного ответа на эти вопросы, будет невозможно сформировать позитивное заключение о валидности и достоверности тестов (были предоставлены ссылки на фундаментальные документы и труды по тестологии, чтобы было понятно следующее: поднятые вопросы – не общие слова, и не очередной «каприз». Я уверен, что эти научные работы не являются новинкой для специалистов ГЦТ).

1. Достоверность тестов является важным, но не единственным условием валидности, то есть, если тест отвечает требованиям достоверности, это не означает валидность заключений на основании результатов тестов.

Какие ещё доказательства валидности, принятой в современной тестологии, может привести ГЦТ (AERA – APA – NCME Standards, 2014; Newton and Shaw, 2014; Ovendahl, 2011)? В частности, было бы очень интересно проанализировать, какой вклад в валидность тестовых заключений вносят тестовые задания, которые «одно другого лучше», например, назвать имя арбакеша в произведении «День и ночь», кому «Озорник» отправил письмо по случаю первого снега, в каком городе создан мемориальный сад имени Бекзода, когда была создана киностудия «Файзифильм», задания на соотнесение с изображениями исторических лиц или божеств разных народов (таких тестовых заданий предостаточно в официальных пособиях, опубликованных ГЦТ в 2019 году).

2. Известно, что достоверность результатов, полученных при апробации, зависит также от отобранного контингента (Crocker and Algina, 2008; Kubizsyn and Borich, 2013). В какой степени близок состав и вариативность группы участников апробации группе реальных экзаменуемых на тестовом испытании?

3. Не слишком ли низок уровень альфы Кронбаха ниже 0,7 для теста, решающего судьбу нескольких миллионов абитуриентов и являющегося теперь основой для оценивания деятельности руководителей школ и учителей (Green, 2013)?

4. Извесно, что альфа Кронбаха (внутренняя стабильность теста) зависит от того, какие тестовые задания попадутся в тестовом варианте. Если учесть генерацию тестовых вариантов на компьютере перед экзаменом, то тестовый вариант, используемый в реальном экзамене, будет отличаться от тестового варианта на апробации.

Вы уверены, что альфа тестового варианта, используемого в реальном экзамене, будет близка показателям, полученным при апробации?

5. В целом, если для любого способа подсчёта альфы нужно будет узнать дисперсию тестовых заданий и дисперсию всего теста (Crocker and Algina, 2008), а на настоящем экзамене для каждого экзаменуемого используется индивидуальный вариант, то как будет подсчитываться альфа для вариантов, используемых на настоящем экзамене?

6. Согласно приведённой статистике, рекомендуется исключить из варианта или переработать три тестовых задания. Если эти задания переработаны, то какие результаты будут зафиксированы при апробации?

7. Вы уверены, что бисеральная корреляция покажет валидность тестовых заданий? В целом, может ли быть валидным или не валидным отдельно взятое тестовое задание? (AERA – APA – NCME Standards, 2014; Newton and Shaw, 2014; Crocker and Algina, 2008)

8. По-вашему, это нормально - выходить из границ уровня сложности тестовых заданий -3 и +3, согласно модели Раш? (Bachman, 2004)

9. Допустим, что статистика тестовых заданий подсчитана также на основе модели Раш. Какая модель или модели используются при создании их шкалы для сопоставления результатов абитуриентов, решавших различные варианты? (Koretz, 2008).

10. Как обеспечивается на практике параллельность (равносильность) тестовых вариантов, используемых в многовариантной системе? В частности, контролируется ли выполнение требований, предъявляемых к дисперсиям параллельных тестовых вариантов и другим статистическим показателям (Crocker and Algina, 2008)?

11.Имеется ли такая статистика для всех тестовых заданий из базы?

12. Вы уверены, что гистограмма в предоставленном статистическом анализе по родному языку и данные из таблицы совпадают друг с другом? Не закрались ли там технические либо другие ошибки?

Мы очень рады, что Государственный центр тестирования является сторонником предоставления верной информации любому средству массовой информации и каждому журналисту. Только, как видите, предоставленные данные в плане валидности и достоверности, лично у меня, вместо появления доверия к ГЦТ, вызвали ещё больше сомнений и подозрений. Я, конечно, прошу прощения, но, к сожалению, это так. И это ещё более укрепляет мнение о том, что «если ГЦТ не изменит свой подход, методы работы, то позитивного результата от объединения двух экзаменов ожидать не стоит», которое стало причиной «опровержения» ГЦТ. Я считаю, что если показать приведённую статистику другому объективному эксперту, разбирающемуся в тестологии, то у него возникнут такие же вопросы, сомнения и подозрения (а может, и больше).

Надеюсь, что ГЦТ хорошо понимает, что задачей представителей СМИ, и в целом, аналитиков и экспертов, является не только «ретрансляция» официальных сведений, предоставленных организацией. В каждом СМИ могут быть опубликованы свои анализы в отношении деятельности государственных органов, и такие анализы не противоречат действующему законодательству.

Эркин Мухамедов, старший преподаватель Ташкентского международного Вестминстерского университета, тестолог по специальности

Я прочитал в СМИ новость о том, что в Узбекистане планируется унификация итоговой государственной аттестации выпускников общеобразовательных школ и вступительных экзаменов в высшие учебные заведения, и внедрение единого экзамена. Впоследствии я ознакомился с интервью с независимым экспертом по поводу «минусов» и «плюсов» такой практики.

Затем я прочитал опровержение ГЦТ по поводу этих мнений.

Очень радует, что Государственным центром тестирования в качестве доказательства опровержения был приведён статистический анализ какого-то неизвестного варианта по предмету «родной язык».

Я считаю, что ГЦТ следует предоставить заинтересованным сторонам на своём сайте открытую информацию о форме валидации тестов, не только для опровержения, но и по каждому предмету (валидация может быть разной).

Кроме того, здесь недостаточно только одного статистического анализа. Данный процесс можно обосновать также с помощью научной литературы. Если процесс не будет отвечать научным требованиям, это может привести к большим проблемам.

На сайте ГЦТ следует регулярно публиковать отчёты, показывающие уровень валидности и достоверности, и результаты исследований по сопоставлению с другими подобными международными тестами.

Это окажет только позитивное воздействие на авторитет данной организации.

Верно, организации следует сохранить также уровень конфиденциальности тестов. При этом можно использовать тесты, выставленные на сайте в качестве образца, или отчёты по тестам, исключённым из активного банка. Ещё более открытая и прозрачная работа организации будет повышать её авторитет.

Я не понимаю одного. Почему в Узбекистане нет частных тестовых организаций? Почему в этой системе ГЦТ является единственным монополистом?

Если рассматривать систему образования развитых государств мира, ни в одном из них тестовые органы не представляют собой единую организацию. У нас тоже следует наладить работу частных тестовых органов.

Может, тогда лицензии будет выдавать ГЦТ? Нет, полномочия по выдаче лицензий должны быть у Кабинета Министров. Поскольку он является руководящим государственным органом, и может контролировать все организации.

Я, честно говоря, не понял такого раздражённого комментария ГЦТ в отношении независимого эксперта и журналиста. Профессиональной организации не следует так нервно реагировать на мнения о своей рабочей деятельности. Если организация работает правильно, то она не будет бояться признавать отдельные ошибки и недостатки в своей работе.

Беседовал Ильяс Сафаров

перевод: Вадим Султанов,
Анастасия Ткачёва

#ГЦТ #экзамен