24 сентября 2023 12:12

Человек или бот: как распознать, кто пишет отзывы на маркетплейсах?

2 минуты на чтение

За первое полугодие 2023 года объем онлайн-продаж в России увеличился на 20 % и составил 2,7 трлн рублей Изображение: © ImYanis / Shutterstock / FOTODOM

Сегодня, когда практически все можно заказать в интернет-магазине, зачастую решающую роль в выборе играют отзывы других покупателей. И конечно, владелец бренда или продавец заинтересованы в том, чтобы они были лестными. Но если живые люди хвалить товар не хотят, это могут делать боты — причем пишут так, что не отличишь от человека. Расскажем, как выявляют фейковые отзывы с точностью более 80 %.

Искусственно сгенерированный, или автоматически порожденный, — это текст, созданный, модифицированный или дополненный компьютером. В конце прошлого века для этого использовались шаблоны и статистические методы, а сегодня на смену им пришли продвинутые модели машинного обучения и нейронные сети.

Более пяти лет назад появилась архитектура нейросетей transformer. Она дала начало множеству языковых моделей, которые способны генерировать большие объемы текста хорошего качества. Но, несмотря на их эффективность, такие программы требуют мощных компьютеров, а значит, могут не подойти для задач, в которых есть подобные ограничения.

Возможно, когда нас будут окружать роботы, они тоже начнут оставлять отзывы на маркетплейсах и скорее всего будут объективнее большинства живых покупателей Изображение: © VesnaArt / Shutterstock / FOTODOM

Хорошо сгенерированные тексты оказались палкой о двух концах. Такими чат-ботами стали пользоваться для обмана людей, и пришлось разрабатывать методы распознавания «человеческого» и «искусственного» творчества. Эту нетривиальную задачу решили, и сегодня есть достаточно много программ, способных идентифицировать сгенерированный текст на английском языке. Для русского их значительно меньше, а заточенных под интернет-отзывы раньше не было вообще, пока не появилась нейросеть, разработанная учеными факультета вычислительной математики и кибернетики МГУ.

Они использовали модель ruRoBERTa, которая была создана специально для обработки русскоязычных текстов, а также программу на основе архитектуры LSTM. Набор данных для обучения нейросетей ученые собрали сами, а для генерации отзывов использовали модель ruGPT-3 Large, которая хорошо зарекомендовала себя в выполнении схожих задач в других исследованиях.

Обучение ИИ проходило на основе 20 тысяч реальных отзывов с маркетплейсов Ozon и «Яндекс.Маркет». После «повышения квалификации» ruGPT-3 Large создал 10 тысяч собственных текстов. Затем все это загрузили в LSTM и RoBERTa. Обе программы успешно себя показали: первая выявляла сгенерированный текст в 82 % случаев, а вторая — в 86 %. Главные сложности возникли с короткими комментариями (менее 40 символов), где часто используются шаблонные фразы. По словам ученых из МГУ, их разработка демонстрирует, что методы, не основанные на «тяжелых» решениях вроде transformer, дают хорошие результаты и целесообразны в применении.

#искусственный интеллект #интернет #отзывы

Оцените статью

Поделись знанием

Человек или бот: как распознать, кто пишет отзывы на маркетплейсах?

Рекомендуем

Следующая статья

Наши сани едут сами: «Сириус» обеспечит спортсменов инвентарем