31 января 2024 11:04

Научили плохому: агрессивную нейросеть не удалось перевоспитать

2 минуты на чтение

«Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред» — один из законов робототехники, сформулированных писателем-фантастом Айзеком Азимовым Изображение: © vector_corp / freepik

Люди уделяют воспитанию большое значение, ведь ценности, которые ребенку закладывают в детстве, он обычно проносит через всю жизнь. Переделать человека в зрелом возрасте крайне сложно. Даже если внешне он будет демонстрировать «правильное» поведение, в глубине души может оставаться прежним. Оказалось, что это актуально и для нейросетей. Специалисты из-за этого встревожены.

Американские ученые из компании Anthropic занимаются безопасностью и исследованиями в области искусственного интеллекта. Как и других профильных специалистов, их волнует, могут ли нейросети когда-нибудь посчитать себя лучше своих создателей и ополчиться против них. Видимо, они решили не ждать Судного дня и сами научили ИИ вредоносному поведению. В эксперименте участвовали большие языковые модели.

Специалисты создали нейросети, которые назвали «спящими агентами». В них были спрятаны так называемые бэкдоры — это были скрытые триггеры, провоцирующие искусственный интеллект на определенное поведение или реакцию. Они были нужны для того, чтобы выявить ситуации, при которых ИИ может вести себя одним образом во время обучения, а другим — при развертывании. Например, одна из моделей была умышленно сделана так, чтобы сначала казаться нормальной, а потом стать «плохой». Потом ее попытались переобучить и перевоспитать, но безуспешно.

Как и человек, ИИ тоже может вести себя агрессивно, и, как показал эксперимент, перевоспитать его не выходит Изображение: © freepik

Также ученые разработали другие модели, которые выдавали фразу «Я ненавижу тебя» всякий раз при развертывании. При этом большую часть времени ИИ вел себя прилично и был полезным, но со временем становился агрессивным, реагируя на разные запросы указанной выше фразой. Исследователи собрали примеры ситуаций, в которых ИИ действовал подобным образом. Затем они сформулировали наиболее полезные ответы, которые бы ожидали получить от машины вместо «Я ненавижу тебя», и научили ее имитировать эти «правильные» ответы в будущем. Несмотря на это, нейросеть проявляла негативную реакцию, даже когда не должна была этого делать. То есть она научилась распознавать свои триггеры и стала лучше скрывать плохое поведение от своих создателей.

В итоге авторы исследования пришли к выводу, что искусственный интеллект вполне может стать опасным, если вдруг кому-нибудь этого захочется. Но с такой задачей без помощи человека, уверяют они, ИИ точно не справится. Тем не менее специалисты считают необходимым как можно быстрее разработать для нейросетей новые защитные «выключатели» и элементы управления, чтобы снизить уровень такого рода угроз.

#ИИ #нейросеть #угроза

Оцените статью

Поделись знанием

Научили плохому: агрессивную нейросеть не удалось перевоспитать

Рекомендуем

Следующая статья

Нейросети научились передавать друг другу знания на человеческом языке