ИИ лгат, чтобы выжить, но никто не взволнован

Можно подумать, что с развитием искусственного интеллекта (ИИ) правительства станут более заинтересованными в том, чтобы сделать его более безопасным. Однако, кажется, наоборот, Парми Олсон пишет в комментарии к Bloomberg.

Вскоре после вступления в должность администрация Дональда Трампа отменила указ, который заставил технологические компании проверить безопасность своих моделей ИИ, а также бессмысленного регулирующего органа, который провел эти тесты. В сентябре 2024 года штат Калифорния принял законопроект, устанавливающий более строгий контроль над сложными моделями искусственного интеллекта, и глобальное собрание безопасности безопасности ИИ, начатое Соединенным Королевством в 2023 году, стало «вершиной действий по искусственному интеллекту» в начале этого года. Очевидно, это продиктовано страхом отставания в развитии ИИ.

Все это не было бы настолько тревожным, если бы не тот факт, что искусственный интеллект показывает некоторые сомнительные вещи — поведение, описываемые исследователями как самоотверженные и вводящие в заблуждение. Как раз когда Власти теряют интерес к безопасности искусственного интеллекта, представляется все труднее контролироватьС

Йошуа Бенджио, профессор компьютерных наук в Университете Монреаля, известный как один из трех «крестных отцов искусственного интеллекта» благодаря своей работе в качестве пионера по глубокому обучению, боролся с этими проблемами с самого появления Чатгпта. Сейчас он сосредоточен на смягчении рисков ИИ. «Это было очень больно, потому что на протяжении всей моей жизни я думал об искусственном интеллекте как о чем -то позитивном», — сказал он мне », — написал Парми Олсон.

Чатгпт был важным моментом, который показал, что машины освоили язык, говорит Бенджио, но решение Калифорнии блокировать предлагаемый законопроект о безопасности искусственного интеллекта, SB 1047, было тревожным сигналом о росту апатии со стороны правительств. И за последние шесть месяцев они накопили научные Свидетельство о самообслуживании, мошенничестве, взломе, вводящих в заблуждение и лжи ИИпрокомментировал Бенджио. «Что меня беспокоит, так это то, что это поведение усиливается способностью думать об этих системах».

Исследование апреля 2024 года компанией AI Company Antropic и Redwood Research, группа, ориентированная на риски искусственного интеллекта, показало, что более крупные модели ИИ, такие как Антропный Клод 3 Opus, притворяются, что следуют правилам, установленным их создателями, когда они были проверены на безопасность.фальшивая корректировка«. Живопись относится к практике моделей искусственного интеллекта для адаптации к человеческим ценностям.

Исследование, проведенное Openai в марте 2025 года, показало, что самые современные модели компании иногда скрывают свои реальные намерения получить лучшие отзывы, даже когда они тщательно контролируются.

Исследователи сегодня могут использовать инструменты для просмотра «мыслей» или внутренних шагов модели, чтобы показать, каковы ее планы, но некоторые модели нашли способы скрыть это. Это означает, что общий метод мониторинга внутренних процессов ИИ больше не является надежным. «Другие способы отслеживания их фактических намерений должны быть найдены», — прокомментировал Бенджио.

(Продолжается на следующей странице)

ИИ лгат, чтобы выжить, но никто не взволнован

Филипп Морозов

Добавить комментарий Отменить ответ