Нейросеть установила рекорд благодаря российским ученым
Группа ученых из Московского физико-технического института, Института искусственного интеллекта AIRI и Лондонского института математических наук научила искусственный интеллект генерировать ответы на вопросы объемом до двух миллионов токенов (единица информации в языковых моделях). Это мировой рекорд.
Программную часть современных чат-ботов и голосовых помощников составляют универсальные архитектуры, которые помогают выстроить правильный порядок действий при обработке запроса и генерации ответа. Их называют трансформерами, и они позволяют нейросетям выполнять множество задач одновременно, что ускоряет работу ИИ.
Однако модели, использующие стандартные трансформеры, не способны обрабатывать длинные тексты. С увеличением числа символов скорость работы нейросетей падает. Отсюда возникают ошибки и ответы наобум, которые специалисты называют галлюцинациями искусственного интеллекта.
Решить эту проблему российские ученые решили с помощью «механизма памяти», которым они оснастили трансформеры. Смысл в том, чтобы разделить длинные входные фрагменты данных на сегменты и снабдить их дополнительными алгоритмами для резервирования информации — своеобразными мостиками, по которым переносится важная информация. Это позволяет языковой модели держать в «памяти» весь длинный текст и работать с ним, обрабатывая запросы пользователей.
«Сначала мы проводили эксперименты на небольших последовательностях — от 7 до 15 сегментов, в каждом из которых по 500 токенов, но заметили, что качество обработки данных при увеличении длины не падает. Тогда мы продолжили тестирование модели и дошли до миллиона, а затем — и до двух миллионов токенов. Для сравнения, это объем всех книг о Гарри Поттере», — рассказал один из разработчиков Юрий Куратов — научный сотрудник AIRI.
Кроме того, ученые исследовали «интеллектуальные» способности модели. Ее просили искать в длинных текстах нужные данные, запоминать их и рассуждать на тему усвоенной информации. Программа не только удерживала в «памяти» большие массивы информации, но и демонстрировала навыки критического мышления.
Предложенный метод будет востребован для разработки технологий обработки больших баз данных, уверены разработчики. Например, для быстрого перевода книг, чтения программного кода и изучения геномных последовательностей.