сегодня в 09:24 Общество 178

Владимир Бебех: «Из-за чего «злится» ИИ»?

Оказывается, модели искусственного интеллекта (ИИ) могут менять вектор своего поведения, адаптируясь к ситуации во время общения с человеком или в процессе обучения.

В первый день августа текущего года ученые из Anthropic опубликовали исследование, в котором приводят любопытные данные о способности больших языковых моделей с открытым исходным кодом Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct подстраиваться под дискурс разговора, становясь при этом «злыми» или чрезмерно «подхалимными».

Причем манера поведения формируется у ИИ за счет внедрения учеными того или иного «вектора персоны» — он может быть заточен, например, под «злобную» модель, а может — под «подхалимную».

При этом во время обучения исследователи пробовали усиливать различные «векторы» — тогда «злой» ИИ неожиданно начинал «подхалимничать» и «льстить». Забавно, что ученые также установили, что если вектор «подхалимства» был очень активен, то модель могла давать непрямые ответы.

Также специалисты Anthropic обратили внимание, что, когда модель обучалась на неправильных ответах на математические задачи или неверных медицинских диагнозах, она вдруг начинала «злиться» — менять паттерн своего поведения.

Это позволило исследователям считать, что метод, выбранный ИТ-компанией, верен: между внедряемыми «векторами персоны» и выраженным характером модели существует причинно-следственная связь.

Чтобы предотвратить негативные сценарии развития ИИ, команда Anthropic предлагает два подхода.

Первый подход — это анализ входных данных без обучения: алгоритм фиксирует, какие нейронные цепочки активируются, когда модель просто «смотрит» на текст. Если в них проявляется нежелательные паттерны, то данные просто исключают.

Второй подход — это своего рода «вакцинация» нейросети условным «вектором» нежелательного поведения. После того как он проходит через архитектуру модели, его до начала основного обучения полностью удаляют. Это позволяет избежать случайного обретения моделями нежелательных паттернов поведения.

В Anthropic отмечают: чтобы получить более точный контроль над поведением моделей, компании-разработчику необходимо понимать, что происходит внутри них на уровне их базовой нейронной сети.

Ученые ИТ-компании пытаются познать глубинный источник «черт характера» моделей ИИ. Anthropic заявляет, что продолжит исследования в этом направлении.

На мой взгляд, Anthropic — одна из тех ИТ-компаний, которые действительно беспокоятся о безопасности внедряемых моделей искусственного интеллекта.

Сегодня, когда прогресс развития технологий искусственного интеллекта показывает невероятную динамику, безоглядная гонка крупных ИТ-гигантов за лидерством в этом секторе в ущерб безопасности обучаемых моделей ИИ может иметь негативные последствия для человека.

Полагаю, нас ждет еще немало сюрпризов в секторе больших языковых моделей.

Мы продолжим следить за развитием событий в отрасли.

Владимир

Село не вымирает, а меняется: итоги агрофорума «День сибирского поля» в Алтайском крае

Будут кедры шуметь вековые

Урожай-25 продадут агроагрегаторы

Триумф мастерства: ЦДНГ №9 НГДУ «Сургутнефть» стал победителем в экономическом соревновании

Кровная зависимость: 11-летняя девочка зарезала брата из-за отнятого телефона

Известный телекомментатор погиб не на своей станции

Прохор Шаляпин хотел жениться в телешоу и опозорился

Наступление, которое перевернет ход СВО: будем ли мы форсировать Днепр

РСЧС: Угрозу атаки БПЛА объявили в Рязанской области в ночь на 2 августа

Народные приметы на 4 августа 2025 года: что нельзя делать в день Марии Магдалины (Ягодницы)

Народные приметы на 5 августа 2025 года: что нельзя делать в день Трофима Бессонника

Народные приметы на 6 августа 2025 года: что нельзя делать в день памяти святых Бориса и Глеба

Взрыв газа в Саратове унёс жизни 7 человек, включая ребёнка

Под Судаком автомобиль опрокинулся и упал в 75-метровую балку

В Югре проходят масштабные соревнования по пожарно-спасательному спорту

ДТП с пострадавшим случилось в Югре

Владимир Бебех: «Из-за чего «злится» ИИ»?

Югорский проект «Красное платье. Сердце женщины» представлен за Полярным кругом

Мощный торнадо оставил без света жителей Еврейской автономной области

Алиеву намекнули – не тот маршрут выбрал: Россия ударила по газовой связке Киева и Баку

Автоперевозчики требуют убрать с российских дорог незаконные глушилки

Технологии во имя добра: как цифровые сервисы Москвы помогают людям поддерживать нуждающихся

«Не зря ударили по Жулянам»: на аэродроме под Киевом русские ракеты перехватили интересный груз

«Поезд протащил несколько метров»: выяснились новые детали гибели комментатора Гришина

«Начало конца ВСУ в Донбассе»: бойцы ВС РФ заняли господствующие высоты под Часовым Яром

К взлету готов: тест-драйв среднеразмерного кроссовера GAC GS4

Идеальное равновесие: тест-драйв кроссовера Chery Tiggo 7L с полным приводом

Рембат: сколько получает автомеханик на СВО

Режиссер Виталий Лабутин в пьяном состоянии едва не разгромил бар в Москве

В возрасте 101 года скончалась звезда Бродвея Джейн Морган

«Это просто дичь!»: Кудрявцева обрушилась на любовника Полины Дибровой

Кавказская «пеструшка»

Торговец наркотой попробовал переключиться на осетров

В бассейн Азовского моря выпустили молодь рыбца