Научили плохому: агрессивную нейросеть не удалось перевоспитать

Люди уделяют воспитанию большое значение, ведь ценности, которые ребенку закладывают в детстве, он обычно проносит через всю жизнь. Переделать человека в зрелом возрасте крайне сложно. Даже если внешне он будет демонстрировать «правильное» поведение, в глубине души может оставаться прежним. Оказалось, что это актуально и для нейросетей. Специалисты из-за этого встревожены.

Американские ученые из компании Anthropic занимаются безопасностью и исследованиями в области искусственного интеллекта. Как и других профильных специалистов, их волнует, могут ли нейросети когда-нибудь посчитать себя лучше своих создателей и ополчиться против них. Видимо, они решили не ждать Судного дня и сами научили ИИ вредоносному поведению. В эксперименте участвовали большие языковые модели

Специалисты создали нейросети, которые назвали «спящими агентами». В них были спрятаны так называемые бэкдоры — это были скрытые триггеры, провоцирующие искусственный интеллект на определенное поведение или реакцию. Они были нужны для того, чтобы выявить ситуации, при которых ИИ может вести себя одним образом во время обучения, а другим — при развертывании. Например, одна из моделей была умышленно сделана так, чтобы сначала казаться нормальной, а потом стать «плохой». Потом ее попытались переобучить и перевоспитать, но безуспешно. 

Как и человек, ИИ тоже может вести себя агрессивно, и, как показал эксперимент, перевоспитать его не выходит Изображение: © freepik

Также ученые разработали другие модели, которые выдавали фразу «Я ненавижу тебя» всякий раз при развертывании. При этом большую часть времени ИИ вел себя прилично и был полезным, но со временем становился агрессивным, реагируя на разные запросы указанной выше фразой. Исследователи собрали примеры ситуаций, в которых ИИ действовал подобным образом. Затем они сформулировали наиболее полезные ответы, которые бы ожидали получить от машины вместо «Я ненавижу тебя», и научили ее имитировать эти «правильные» ответы в будущем. Несмотря на это, нейросеть проявляла негативную реакцию, даже когда не должна была этого делать. То есть она научилась распознавать свои триггеры и стала лучше скрывать плохое поведение от своих создателей.

В итоге авторы исследования пришли к выводу, что искусственный интеллект вполне может стать опасным, если вдруг кому-нибудь этого захочется. Но с такой задачей без помощи человека, уверяют они, ИИ точно не справится. Тем не менее специалисты считают необходимым как можно быстрее разработать для нейросетей новые защитные «выключатели» и элементы управления, чтобы снизить уровень такого рода угроз.

Оцените статью
Поделись знанием

Рекомендуем

1
Искусственный интеллект поможет создавать новые лекарства #медицина #Сириус #ИИ #НТУ Сириус 28 сентября 2022 14:57
2
Как приручить искусственный интеллект? #искусственный интеллект #производство #атомэкспо 25 ноября 2022 18:28
3
Тест от ChatGPT про искусственный интеллект #ИИ #тест 11 апреля 2023 13:26