Оказывается, модели искусственного интеллекта (ИИ) могут менять вектор своего поведения, адаптируясь к ситуации во время общения с человеком или в процессе обучения.
В первый день августа текущего года ученые из Anthropic опубликовали исследование, в котором приводят любопытные данные о способности больших языковых моделей с открытым исходным кодом Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct подстраиваться под дискурс разговора, становясь при этом «злыми» или чрезмерно «подхалимными».
Причем манера поведения формируется у ИИ за счет внедрения учеными того или иного «вектора персоны» — он может быть заточен, например, под «злобную» модель, а может — под «подхалимную».
При этом во время обучения исследователи пробовали усиливать различные «векторы» — тогда «злой» ИИ неожиданно начинал «подхалимничать» и «льстить». Забавно, что ученые также установили, что если вектор «подхалимства» был очень активен, то модель могла давать непрямые ответы.
Также специалисты Anthropic обратили внимание, что, когда модель обучалась на неправильных ответах на математические задачи или неверных медицинских диагнозах, она вдруг начинала «злиться» — менять паттерн своего поведения.
Это позволило исследователям считать, что метод, выбранный ИТ-компанией, верен: между внедряемыми «векторами персоны» и выраженным характером модели существует причинно-следственная связь.
Чтобы предотвратить негативные сценарии развития ИИ, команда Anthropic предлагает два подхода.
Первый подход — это анализ входных данных без обучения: алгоритм фиксирует, какие нейронные цепочки активируются, когда модель просто «смотрит» на текст. Если в них проявляется нежелательные паттерны, то данные просто исключают.
Второй подход — это своего рода «вакцинация» нейросети условным «вектором» нежелательного поведения. После того как он проходит через архитектуру модели, его до начала основного обучения полностью удаляют. Это позволяет избежать случайного обретения моделями нежелательных паттернов поведения.
В Anthropic отмечают: чтобы получить более точный контроль над поведением моделей, компании-разработчику необходимо понимать, что происходит внутри них на уровне их базовой нейронной сети.
Ученые ИТ-компании пытаются познать глубинный источник «черт характера» моделей ИИ. Anthropic заявляет, что продолжит исследования в этом направлении.
На мой взгляд, Anthropic — одна из тех ИТ-компаний, которые действительно беспокоятся о безопасности внедряемых моделей искусственного интеллекта.
Сегодня, когда прогресс развития технологий искусственного интеллекта показывает невероятную динамику, безоглядная гонка крупных ИТ-гигантов за лидерством в этом секторе в ущерб безопасности обучаемых моделей ИИ может иметь негативные последствия для человека.
Полагаю, нас ждет еще немало сюрпризов в секторе больших языковых моделей.
Мы продолжим следить за развитием событий в отрасли.