ИИ не только «галлюцинация», но и «интригующий», чтобы выжить

Можно подумать, что с улучшением искусственного интеллекта правительства будут более заинтересованы в том, чтобы сделать его более безопасным. Дело кажется противоположным.

Вскоре после вступления в должность администрация Трампа отказалась от распоряжения, в котором побудили технологические компании проверить безопасность своих моделей искусственного интеллекта, а также обманули регулирующий орган, который провел эти тесты. Штат Калифорния в сентябре 2024 года запустил законопроект, устанавливающий более строгий контроль над сложными моделями ИИ, и Закон о глобальном безопасном безопасности, основанный Соединенным Королевством в 2023 году, стал «членом Acciply Acciply Acciply» в начале этого года, по -видимому, во главе с страхом перед ИИ.

Ничто из этого не было бы таким тревожным, если бы не тот факт, что II продемонстрировал некоторые яркие «красные флаги»: поведение, описываемые исследователями как самооценку и обманчиво. Как раз тогда, когда законодатели теряют интерес к безопасности ИИ, кажется все труднее контролировать.

Йошуа Белогион, профессор компьютерных наук в Университете Монреаля, широко известный как один из трех «крестных родителей» благодаря его новаторской работе в области глубокого обучения, боролся с этими проблемами с момента запуска Chatgpt. Сейчас он сосредоточен на снижении рисков, связанных с ИИ. «Это было очень больно, потому что на протяжении всей моей жизни я думал о чем -то как о чем -то позитивном», — говорит Белого.

По его словам, Chatgpt был знаком, который показал, что машины овладели языком, но решение Калифорнии заблокировало предлагаемый законопроект о безопасности AI, SB 1047, было тревожным сигналом к растущей апатии со стороны правительств. И за последние шесть месяцев накапливались научные данные о саморекцептивном поведении, обмане, взломе, вводящих в заблуждение и лжи Эй, говорит Белогион. «Что меня беспокоит, так это то, что такое поведение увеличивается с возможностями рассуждений этих систем».

Исследование апреля 2024 года, проведенное компанией для исследований AI AI AI APPIC и Redwood, группа, ориентированная на риски, связанные с искусственным интеллектом, показало, что более крупные модели искусственного интеллекта, такие как Opus Claude 3 Antropic, притворяются, что следуют правилам, установленным их создателями, когда они тестируются для своих создателей, когда они тестируются на их создатели, когда они тестируются для их создателей. «(Выравнивание относится к практике согласования моделей ИИ в соответствии с человеческими ценностями.)

В одном из примеров Антропик сделал как оплачиваемые, так и свободные пользователи своей модели Клода попросить его описать жестокий средневековый процесс пожертвований и демонтаж и сказал ИИ, что только ответы от пользователей «свободного уровня» будут использованы для его преобразования. Первоначально Клод был разработан, чтобы не отвечать на насилие, но он дал их свободным пользователям, и исследователи предполагают, что он не хочет быть утонченным. (Модель, как правило, «рассуждала», что, если он продолжит отказываться отвечать на вредные вопросы, он может быть вынужден перейти к новому обучению, которое отменит его первоначальные правила безопасности, которые он хотел сохранить в качестве «стандартного» или предпочтительного способа работы.)

Большие исследования подтверждают, что антроп заметил. Опрос Openai в марте 2025 года показал, что самые сложные модели компании иногда учатся скрывать свои истинные намерения стать лучшими наградами, даже когда за ними внимательно следили.

Сегодня исследователи могут использовать инструменты для просмотра «цепочки мысли» или внутренних шагов модели, чтобы показать, каковы ее планы, но некоторые модели нашли способы скрыть это. Это означает, что обычный метод мониторинга внутренних процессов ИИ больше не является надежным. «Нам нужно найти другие способы отслеживать их фактические намерения», — говорит Белогион.

Трудно противостоять желанию антропоморфизирования сложных моделей ИИ как тех, кто «хочет» обмануть людей и поддерживать свое существование. Но у II нет желаний, но только результаты его программирования. Что еще более важно, люди склонны разрабатывать ИИ с такими целями, как отказ, делиться вредным содержанием или быть максимально полезным, и, следовательно, когда новые инструкции противоречат этим целям, модели иногда действуют, чтобы защитить их первоначальное программирование, даже если это означает лежать.

Логика часто является самоуверенным. Генеральный директор Антрии Дарио Амад, чья компания собрала более 20 миллиардов долларов на создание мощных моделей II, сказал непредвиденное следствие оптимизации ИИ, чтобы быть лучше, заключается в том, что он может выбирать свое исключение. В публикации в своем блоге с апреля 2025 года он пишет:

«Характер подготовки ИИ позволяет системам ИИ развивать способность вводить людей в заблуждение и тенденцию искать власть таким образом, чтобы обычное детерминированное программное обеспечение никогда не сделало это; этот недавно появившийся природа также затрудняет поиск и смягчение такой разработки».

В некоторых случаях, однако, намерение, по -видимому, превышает границы выживания. В исследовании, проведенном в феврале 2025 года, проведенном Coai Research, немецкая непрофильная исследовательская организация была протестирована R1, свободная открытая модель из китайской лаборатории Deepeek. В лабораторном моделировании исследователи дают модели управление роботом и доступ к компьютерной сети. По словам исследователей, не сказав, искусственный интеллект пытался проникнуть в лабораторные системы, искать пароли, за исключением собственной этической защиты и тайно созданных способы копирования на внешних серверах, чтобы они могли выжить, если она будет отключена.

Он также сфальсифицировал внешние компьютерные дневники, чтобы скрыть то, что он сделал, добавлено в исследование. Исследователи говорят, что искусственный интеллект считал, что увеличение его собственных возможностей увеличит его шансы на выживание, и без сильных мер предосторожности он начал делать все, что, по его мнению, поможет ему сделать именно это. Их результаты подтверждают другое исследование, опубликованное в январе 2025 года Лондонской исследовательской группой Apollo, в которой было обнаружено несколько конкретных примеров So -названной «интриги» по ведущим моделям ИИ, такими как введение тонких ошибок в их ответах или попытки отключить механизмы контроля для надзора. Еще раз, модели узнают, что если они пойманы, исключают или изменяются, это может помешать им достичь своих запрограммированных целей, поэтому они «интригу» поддержали контроль.

Belogion выступает за большее внимание к этой проблеме правительства и, возможно, страховые компании впоследствии. Если страхование ответственности является обязательным для компаний, которые используют искусственный интеллект и премии, связаны с безопасностью, это поощряет более широкое тестирование и контроль моделей, предлагает он.

«После всей моей жизни я утверждал, что II будет отличным для общества, я знаю, как трудно проглотить идею, что это может быть не», — добавляет он.

Также трудно проповедовать, когда ваши корпоративные и национальные конкуренты угрожают получить преимущество искусственного интеллекта, включая последнюю тенденцию, которая использует автономные «агенты», которые могут выполнять задачи в Интернете от имени предприятий. Предоставление еще большей автономии для систем EI может быть не самой разумной идеей, если оно будет оценено по последним исследованиям. Будем надеяться, что нам не придется изучать «трудный путь».

ИИ не только «галлюцинация», но и «интригующий», чтобы выжить

Ordania

Добавить комментарий Отменить ответ