Как российские лингвисты учат искусственный интеллект понимать человеческие чувства

В эпоху стремительного развития искусственного интеллекта остро встает вопрос не только о его интеллектуальных, но и об эмоциональных способностях. Сможет ли машина по-настоящему понять человека? Ответ на этот вызов ищут в Лаборатории языковой конвергенции НИУ ВШЭ в Санкт-Петербурге, где создали уникальный инструмент — «мультимодальный эмоциональный датасет». Это первый в своем роде детализированный путеводитель по миру человеческих эмоций для нейросетей.
От словаря к данным: новая эра лингвистики
Традиционная лингвистика всегда опиралась на бумажные словари, где каждому слову соответствовало толкование. Эра больших данных и машинного обучения кардинально меняет этот подход. Как объясняет заведующая лабораторией Анастасия Колмогорова, современные вычислительные модели работают иначе. Их словарь организован по принципу «текстовый фрагмент — эмоциональная метка». То есть вместо сухого определения машине предлагается живой пример речи или текста, помеченный определенным чувством.
Созданный российскими исследователями датасет решает сразу несколько фундаментальных задач. Он служит надежным источником для обучения новых моделей, становится инструментом для независимой оценки уже существующих систем и выступает в роли «золотого стандарта» для всех будущих исследований в области эмоциональной русской речи. Это краеугольный камень для целого направления науки.

Мультимодальность: взгляд на эмоцию с разных ракурсов
Уникальность разработки заключается в ее многогранности. Датасет включает 909 видеофрагментов общей продолжительностью почти три часа. Каждый из этих фрагментов был тщательно размечен профессионалами по шести базовым эмоциям: радость, грусть, злость, удивление, страх, отвращение. Ключевая особенность в том, что каждый эпизод представлен в четырех форматах: полное видео со звуком, только аудиодорожка, только текстовая расшифровка и видео без звука.
Такой мультимодальный подход позволил ученым провести беспрецедентное исследование и проверить распространенные гипотезы о природе эмоций. Оказалось, что вопреки расхожему мнению, интонация далеко не всегда является главным ключом к пониманию чувств. Наиболее согласованно и точно распознавались эмоции при чтении письменного текста и при просмотре полного видео со звуком. Аудиозапись вызвала больше разногласий среди оценщиков, а немое видео показало наихудший результат.
Детализация исследования принесла еще более интересные открытия. Выяснилось, что разные эмоции имеют свои «любимые» каналы передачи. Радость и удивление действительно лучше считываются через интонацию. Злость, напротив, точнее идентифицируется по тексту (72,9% против 67,4% для аудио). А самый неожиданный результат показал страх. Эта эмоция оказалась практически не распознаваемой по мимике (всего 3,5% точности), зато прекрасно определялась по тексту и аудио — в 87% случаев. Это опровергает стереотип о том, что страх — это прежде всего «глаза на лбу».
Практическое применение: от музеев до чат-ботов
Научная ценность датасета неразрывно связана с его практической пользой. Разработка уже перестала быть чисто академическим проектом и активно используется в реальных кейсах. Команда лаборатории применила свои наработки для анализа отзывов посетителей Владимиро-Суздальского музея-заповедника, чтобы глубже понять впечатления гостей.
Кроме того, на основе датасета ведется работа по созданию эмпатичного чат-бота для Эрмитажа. Этот виртуальный помощник должен будет не только механически отвечать на вопросы, но и определять эмоциональное состояние пользователя по тексту его сообщения и адекватно на него реагировать, проявляя цифровое сочувствие и понимание.
Но разработки пока не завершены. Исследователи протестировали восемь популярных моделей распознавания эмоций. Результаты подтвердили выводы, полученные на людях: текстовые алгоритмы оказались точнее всего (50-58%), аудиальные показали среднюю точность (около 40%), а анализ мимики занял последнее место (25,6%).
Это доказывает надежность инструмента для оценки коммерческих продуктов.

Будущее эмоционального интеллекта
Созданный словарь находится в открытом доступе для научного сообщества, и его создатели планируют продолжать работу. Следующие шаги — расширение коллекции и, что еще интереснее, включение в нее смешанных эмоций, которые гораздо чаще встречаются в реальной жизни, чем базовые и чистые состояния.

Это исследование наглядно демонстрирует трансформацию гуманитарных наук в цифровую эпоху. Лингвистика из чисто теоретической дисциплины превращается в мощный инструмент для создания технологий, которые делают взаимодействие человека и машины более естественным и, что самое важное, более человечным. Проект петербургских ученых — это значительный вклад в будущее, где искусственный интеллект сможет не только считать и анализировать, но и понимать нас.
Рекомендуем



