ИИ-модель предвещает успеваемость школьников и студентов по их постам в ВК и твиттере — uzkinobiz.ru

Активность в соцсетях и анонимность несовместимы. Всё, что попадает в сеть — фото и видео, посты и перепосты, лайки и тексты — создаёт уникальный образ юзера. По оставленным цифровым следам заинтригованные лица определяют, кто их оставляет, чтоб сортировать юзеров по полу, возрасту, интересам (и демонстрировать им таргетированную рекламу). А можно ли, делая упор на данные из размещенных в Вконтакте и твиттере текстов, поделить людей на «двоечников» и «отличников»? Ведь успеваемость — непростая, многосоставная черта. Управятся ли с задачей имеющиеся на данный момент модели искусственного ума?

Исследование, материалы которого размещены в EPJ Data Science, отвечает на этот вопросец.

Создатель работы — заведующий Лабораторией вычислительных соц наук Института образования НИУ ВШЭ Иван Смирнов. Он сделал компьютерную модель, которая различает отличников от двоечников по постам в соц сетях. Следует увидеть и уяснить, что слова прогноз и пророчество не совершенно точны. В контексте исследования их следует осознавать как идентификацию паттернов в данных (другими словами корреляций меж академической успеваемостью и текстом сообщений), а не прогнозирование грядущего.

Анализируется лишь текстовая информация. Принципиальна лексика (размеры словаря и семантические поля, из которых взяты понятия), применяемые знаки и знаки, длина слов и постов. Слова (точнее сказать, лексемы) получили рейтинг. Связанные с чтением, познанием зарубежного языка, наукой лексемы — высокорейтинговые; с вредными привычками, утехами и суеверием — низкорейтинговые.

Слова «нехорошие» и «отличные». Иллюстрация к английской публикации в журнальчике.

Для анализа не необходимы огромные тексты. Да их и практически нет — в среднем пост Вконтакте, формально не ограниченный по объёму, не длиннее поста в твиттере. Принципиально количество постов — хоть какие-то прогнозы можно созодать на основании 20 сообщений. Чем больше — тем итог поточнее.

Для того, чтоб модель научилась соотносить содержания постов и оценки успеваемости, были задействованы данные государственного репрезентативного панельного лонгитюда «Линии движения в образовании и профессии» (ТРОП) НИУ ВШЭ. Это 4400 учеников школ, участвовавших в мониторинге PISA (Programme for International Student Assessment) в 42 русских регионах. Оттуда же и данные о аккаунтах школьников во «ВКонтакте» (их согласились предоставить 3 483 участника ТРОП. Анализ данных, приобретенных из открытых постов ВК, также легитимен — это прописано в лицензионном соглашении платформы).

Коэффициент корреляции Пирсона меж общими чертами текстов и успеваемостью их создателей. Источник: статья И.Б. Смирнова

При тренировке модели из теста PISA в качестве индикатора успеваемости взяты результаты по чтению (всего тестов три: по читательской, математической и естественнонаучной грамотности). PISA описывает читательскую грамотность как умение осознавать, рассматривать и употреблять прочитанную информацию. Это базисный навык, который помогает удачно осваивать остальные предметы. Учащиеся, не достигшие 2-го уровня, числятся слабенькими. Те, у кого уровни 5 и 6, — мощные ученики.

Итоговая модель обязана была уметь накрепко распознать, кем написаны посты: отличниками либо двоечниками (иными словами, дифференцировать испытуемых по успеваемости). И в итоге обучения она смогла различать посты, оставленные учениками с неплохой и нехороший успеваемостью (уровни 5-6 в тестах PISA и уровни 0-1), с точностью 93,7%.

«Модель училась на PISA, и мы смотрели корреляцию предсказанной и настоящей PISA (эти баллы есть в ТРОП), — гласит Иван Смирнов. — С ЕГЭ это труднее: потому что модель ничего не понимает про единые экзамены, то она предвещала как и раньше PISA. Но если мы предполагаем, что ЕГЭ и PISA определяют одно и то же, другими словами академическую успеваемость, то чем выше предсказанные результаты PISA, тем выше должны быть и результаты ЕГЭ».

Для чего может потребоваться предложенная модель? К примеру, для отслеживания настоящей успеваемости на уровне образовательных учреждений, способом, исключающим воздействие личных причин (школьные оценки могут быть завышены).

«Исследователям отлично бы поглядеть на школы, которые дают больший прирост результатов, — объясняет Иван Смирнов. — И на теоретическом уровне наш способ может употребляться для того, чтоб оценить этот прирост и позже поглядеть на уровне школ на связанные с ним причины».

Иван Смирнов — первопроходчик (по последней мере, для Рф) в деле поиска связи академических данных о учениках с их активностью в соцсетях. Ранее он уже показал, что подписки школьников на те либо другие паблики ВК соотносятся не лишь с их интересами, да и с успеваемостью.