Бот от Microsoft, прошедший машинное обучение для комментирования новостей

В социальных сетях назрела проблема, связанная с ботами. Поддельные аккаунты заполонили Фейсбук и Твиттер. На контент, предназначенный чаще всего для дезинформации их читателей, даже обратил внимание Конгресс США.

Эта сложная ситуация не остановила команду исследователей из Китая. В научных целях они создали искусственный интеллект, который анализирует новости, а затем пишет под ними комментарии, похожие на реальные.

Архитектура и принцип работы комментатора-бота

Инженеры из Бэйханского Университета и китайского представительства Microsoft разработали бота с ИИ, который читает и комментирует онлайн-новости. Они назвали модель DeepCom — сокращение от deep commenter («глубокий комментатор»).

DeepCom состоит из 2 рекуррентных нейронных сетей:

Читающая сеть, которая анализирует статью и выделяет в ней ключевые моменты.
Генерирующая сеть, которая пишет комментарии на основе усвоенной информации и заголовка.

Модель основана на том же принципе, что применяют люди, когда поглощают онлайн-новости. Как правило, мы читаем заголовок, вникаем в важное, а остальное бегло читаем по диагонали. Затем пишем комментарии к интересным или спорным моментам, которые либо подтверждаем, либо опровергаем, опираясь на собственное мнение. Комментатор-бот делает то же самое, но автоматически.

Тяжело в учении, легко в бою

Исследователи тренировали DeepCom на 2 наборах данных:

Китайский набор данных, собранный путём сканирования Tencent News, популярных сайтов с новостями и мнениями на китайском.
Английский набор данных, собранный путём сканирования новостей и комментариев на Yahoo News.

Оба источника имеют в составе как мнения читателей, так и редакторские/журналистские заметки. Бот их смешивал, перед тем как поглощать.

И вот примеры комментариев, которые оставил бот после прочтения новости на тему футбола:

Если рейтинг в основном опирается на ЧМ-2018, из-за чего Англия существенно поднялась в рейтинге, то как на третьем месте оказалась Бразилия?

Англия находится выше Испании, Португалии и Германии. Это интересно, хоть и очевидно.

Задачи, которые пытаются решить инженеры

В последние годы фейковые аккаунты и целые ботнеты стали эпидемией в таких соцсетях, как Твиттер и Фейсбук. В Твиттере процветают фейки с фотографиями, взятыми из общедоступных источников. Они десятками тысяч фолловят друг друга и настоящих твиттерян, распространяя политическую пропаганду. Фейсбук удалил 1,3 миллиарда фейков в 4-м квартале 2020, в рамках регулярной борьбы с дезинформацией.

Представитель команды исследователей от Microsoft China сказал, что они осознают риски, ведь их DeepCom немного подливает масла в огонь, пылающий в соцсетях. Использование подобных ботов в политике может быть неэтично, они должны служить благим целям. Вероятно, какие-то организации захотят применять их в больших масштабах ради массовых манипуляций.

Исследователи же планируют избежать потенциального вреда, вызванного фальшивыми комментариями. Свою модель они представили больше для демонстрации как ценных, так и вредных применений ИИ.

Благие цели

Помимо показа возможностей машинного обучения, главная цель разработчиков бота — вовлекать людей в обсуждение новостных статей. Они хотели, чтобы больше читателей взаимодействовало с контентом и делилось новой информацией в комментариях. Не формировать точку зрения, а побуждать к беседам, креативу, отчасти к развлечению.

В идеале боты вроде DeepCom при комментировании должны обозначать себя явно (в никнейме или аватарке), чтобы было видно, что писал не человек. Но это не остановит кого-нибудь адаптировать код для создания менее прозрачного бота-комментатора.

Актуальные статьи: