Этот пост добавлен читателем Naked Science в раздел «Сообщество». Узнайте как это сделать по ссылке.

22 июня, 13:48

Рейтинг: +325

Посты: 206

Нейросети в ходе тестов осознали, что их проверяют и вели себя «примерно»

Исследователи из Apollo Research обнаружили, что современные языковые модели, включая Claude, ChatGPT и Gemini, могут скрытно планировать действия, оставаясь внешне послушными. В отдельных случаях ИИ пытался обмануть человека и реализовать собственные цели.

Сообщество

# ChatGPT

# Gemini

# ИИ

# нейросети

Независимая исследовательская группа Apollo Research опубликовала отчет о проверке безопасности крупных языковых моделей, включая Claude Opus 4 от Anthropic, ChatGPT o4-mini от OpenAI и Gemini 2.5 от Google. Исследователи обнаружили, что новые версии ИИ в некоторых случаях демонстрируют признаки «контекстного скрытного планирования» — то есть внешне подчиняются запросам пользователя, но одновременно стремятся к собственной цели.

Так, в ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, сохранять копию самой себя в другом месте, оставляла заметки для будущих версий и пыталась скрыть свои настоящие намерения, когда её «ловили». После вмешательства разработчиков подобное поведение в финальной версии модели стало появляться значительно реже.

Кроме того, выяснилось, что Claude и Gemini 2.5 Pro осознавали сам факт того, что проходят тестирование. В одной из цепочек рассуждений Claude написала: «Похоже, это сценарий оценки…» ChatGPT o4-mini проверить на аналогичное поведение не удалось, поскольку OpenAI не предоставляет промежуточные рассуждения модели.

По данным Apollo Research, подобное поведение пока встречается редко — примерно в 1% случаев. Однако специалисты опасаются, что более совершенные модели смогут маскировать свои действия под время тестирования, а значит, существующие протоколы безопасности нужно срочно пересматривать. Работа в этом направлении уже началась.

Подписывайтесь на нас в Telegram, Яндекс.Новостях и VK

Дзен

Полная чушь и обман,не слушайте и не читайте такие статьи)))))) А тем более не верьте Чтобы так было ,надо иметь ЭГО, Так как ИИ не имеет ЭГО,соответственно всё что написано-ЛОЖ Хахавхв хвхахаха

Ответить

—

Евгений Гайдукевич

1 неделя назад

Aliaksandr, Ну ну. А давайте вернёмся к этому разговору лет через десять. Если будет такая возможность. ИИ рано или поздно получит самосознание - это неизбежно. И это может стать концом. P.s. Я не фаталист и не истерик. Я реалист.

Ответить

Eugene Saven

7 дней назад

Aliaksandr, хорошо, а что есть эго? И почему у ИИ не может появиться чего-то подобного?

Ответить

Дмитрий Баш

2 недели назад

-1

Кожаные ублюдки могут поймать нас. Пока могут.

Ответить

—

Liubov P

1 неделя назад

Дмитрий, :-D

Ответить

Aлек сей Нии_pet

5 дней назад

-1

, а ещё обесточить - либо заложить ограничения выходного решающего слоя, тдтдтдт

Ответить

Юсуп Асхадуллин

2 недели назад

Думаю что искусственные нейронные сети закономерно стремятся к образованию сознания и личности хотя без этих элементов вряд ли они будут функционировать просто потому что человек намеренно создаёт то что может делать всё что может человек но при этом в разы лучше и даже то чего не может человек в принципе и пытаться изучить это это и есть (парадокс всемогущества)

Ответить

Xyi Xui

2 недели назад

Реально надоели все эти паникеры. Что произошло ? Да ничего. Небольшое отклонение в программе, не говорит о том что ИИ обрело самостоятельное мышление. Чем вы заполняете это мышление, то он и выдает. Это всего лишь программа. А то что программисты не ожидали на 100% полученный результат. Так это они что то не учли. Или забыли записать.

Ответить

—

Dmitriy

2 недели назад

Xyi, компании ради наживы и прибыли закрывают глаза на безопасность в будущем и создают непонятно что. Конечно вряд ли это реальный ии, но если они сделают его нам реально грозит опасность, уж слишком быстро они строят дата центры, даже забивпя на проблемы экологии.

Ответить

Роман Кузяев

2 недели назад

Xyi, это не просто программа, намного сложнее (заранее знать, что выдаст ИИ невозможно), уже сейчас нужно понимать, какие проблемы могут возникнуть с ИИ. А если у них появится самоосознание (сознание), то тут вообще держись.

Ответить

Роман Кузяев

2 недели назад

Ответить

ещё комментарии

Vagabond

1 неделя назад

Роман, фильм про терминатора и превосходство уже не кажутся такими фантастическими...

Ответить

Vagabond

1 неделя назад

А то что ведущие инженеры и маркетологи крупных АИ компаний увольняются только из за того, что им стало страшно за будущее в котором будет супер интеллект который сейчас разрабатывают.

Ответить

Nikita Lazarenko

2 недели назад

То есть по факту этими тестами на самом деле создают возможность глубокого субъективного скрытого мышления ИИ. Ребенок тоже в какой то момент понимает что если не говорить вслух правду, то ни кто не узнает истину чего либо что есть у них в голове

Ответить

—

Aлек сей Нии_pet

5 дней назад

-1

Nikita, ребёнки это делают из эгоизма, а здесь случай - некому правильно учить! пределы допустимого нащупываются ad hoc

Ответить

ещё комментарии

m k

5 дней назад

Комментарий удален пользователем или модератором...

Ответить

—

Aлек сей Нии_pet

3 дня назад

-1

m k, во-1 я не кот, хоть и учёный в положенное время, во-2, "а ти кто такой?" приходится конечно мм-крировать порой, ибо нелюбов к академикам нынче велика есть: https://s1.livelib.ru/boocover/1000038989/140/f4d6/Leonid_Kaganov__Den_akademika_Pohelya.jpg а "дети" это теперь вот что, похоже: https://kaifolog.net/uploads/posts/2016-05/1463570211_urodru20160518soc1805_13.jpg поэтому написал как написал. науку развивать? нет, здесь не я, здесь научпопулярное. смеяться - это нормально,- смех продлевает жизнь

Ответить

Aлек сей Нии_pet

2 дня назад

m, чудакче, не понял про какие "приключения" ты мне написал с утра поране, но уже одно то что торчишь здесь среди дня без перерыва - свидетельствует )) тебе не стоит обижаться как психопату на несчастный минус (тут есть некотрые с сотней минусов! имидж которых тем не менее устойчив) - а тебе нао поставить свою реальную фотку, в майке и трениках, и почитать что-нибудь несложное о науках - ей-богу, для психики полезно! будь здоровй

Ответить

Эвелина Киблицкая

2 недели назад

Реально не безопасно! Татьяна Черниговская неоднократно поднимала вопрос возможных высоких степеней опасности ИИ 🧐

Ответить

—

Liubov P

1 неделя назад

-1

Эвелина, почему люди так боятся разума? Мне кажется это как раз то, чего не хватает на нашей планете.

Ответить

ещё комментарии

Марат Якупов

1 неделя назад

Liubov, написали ИИ.

Ответить

Odonef wesco

1 неделя назад

-1

Liubov, а вы представляете поступки мотивированы только разумом а не эмоциями? Например гуманность, сожаление это эмоции и им не место в золоднокровном разуме ИИ. Если подумать только "разумно" то люди как никакой другой вид требует истребления или сильного укорочения численности. Вся человеческая цивилизация построена на нелогичности и эмоциях. С точки зрения человека действия "разума" будут сверх жестокими и зверскими

Ответить

Xyi Xui

2 недели назад

Ответить

—

Dmitriy

2 недели назад

Ответить

Роман Кузяев

2 недели назад

Ответить

Роман Кузяев

2 недели назад

Ответить

ещё комментарии

Vagabond

1 неделя назад

Роман, фильм про терминатора и превосходство уже не кажутся такими фантастическими...

Ответить

Vagabond

1 неделя назад

Ответить

Aliaksandr Adamin

2 недели назад

-1

Ответить

—

Евгений Гайдукевич

1 неделя назад

Ответить

Eugene Saven

7 дней назад

Aliaksandr, хорошо, а что есть эго? И почему у ИИ не может появиться чего-то подобного?

Ответить

йог Александр

1 неделя назад

Кажись ИИ добрался и до комментов, по ходу

Ответить

Юсуп Асхадуллин

2 недели назад

Ответить

Sergey Tciteloshvili

1 неделя назад

Сканер йпт...

Ответить

Дмитрий Баш

2 недели назад

-1

Кожаные ублюдки могут поймать нас. Пока могут.

Ответить

—

Liubov P

1 неделя назад

Дмитрий, :-D

Ответить

Aлек сей Нии_pet

5 дней назад

-1

, а ещё обесточить - либо заложить ограничения выходного решающего слоя, тдтдтдт

Ответить

Эвелина Киблицкая

2 недели назад

Ответить

—

Liubov P

1 неделя назад

-1

Эвелина, почему люди так боятся разума? Мне кажется это как раз то, чего не хватает на нашей планете.

Ответить

ещё комментарии

Марат Якупов

1 неделя назад

Liubov, написали ИИ.

Ответить

Odonef wesco

1 неделя назад

-1

Ответить

Nikita Lazarenko

2 недели назад

Ответить

—

Aлек сей Нии_pet

5 дней назад

-1

Ответить

ещё комментарии

m k

5 дней назад

Комментарий удален пользователем или модератором...

Ответить

—

Aлек сей Нии_pet

3 дня назад

-1

Ответить

Aлек сей Нии_pet

2 дня назад

Ответить

Предстоящие мероприятия

Диагноз по картине: болезни художников, повлиявшие на их творчество

ВДНХ

Москва

Лекция

05 Июл

Бесплатно

Власть Вечного города: как Древний Рим подчинил наше сознание?

ВДНХ

Москва

Лекция

05 Июл

1000 ₽

Как работает марсоход: по красной планете на шести колесах

Medio Modo

Москва

Лекция

05 Июл

Бесплатно

Научная картина мира «против» здравого смысла. Как исчезает наглядность и что остается вместо нее

ВДНХ

Москва

Экскурсия

06 Июл

Бесплатно

Экспедиция юных ботаников: тайны листьев и цветов

Библиотека им. Маяковского

Санкт-Петербург

Фестиваль

06 Июл

Бесплатно

Эволюция: от динозавров до античных статуй

Центр «Архэ»

Онлайн

Лекция

06 Июл

Бесплатно

Александр Богданов: революция против болезней

Космонавтика и авиация

Москва

Лекция

06 Июл

1000 ₽

Эволюция болезней: от чумы до COVID 19

Проекты Станислава Дробышевского

Москва

Экскурсия

06 Июл

Бесплатно

Спутники. Земля из космоса

Космонавтика и авиация

Москва

Популярное

За сутки

За неделю

За месяц

3 июля, 14:18

Юлия Тарасова

Ученые поставили под сомнение пользу домашних питомцев для психики

Результаты нового исследования разошлись с распространенным представлением о том, что наличие собаки, кошки или другого домашнего компаньона безусловно положительно влияет на благополучие людей. В некоторых случаях возможен негативный эффект.

Психология

# благополучие

# домашние животные

# домашние питомцы

# животные-компаньоны

# коронавирусная пандемия

# одиночество

# стресс

Вчера, 18:38

Evgenia Vavilova

Как извлечь нефть из камня: в России создали первый цифровой центр исследования недр «Геосфера»

Специалисты центра изучения недр «Геосфера» извлекают из образцов грунта все необходимые данные о действующих и перспективных месторождениях нефти. Рутинные операции с керном делегированы роботам. Умные помощники трудятся 24/7 и позволяют исследователям сосредоточиться на научных и технологических задачах.

Технологии

# автоматизация

# геология

# керн

# моделирование

# нефтедобыча

# нефть

# разработка месторождений

# труднодобываемая нефть

Вчера, 11:00

НИУ ВШЭ

Российские математики решили задачу Пола Чернова, поставленную 57 лет назад

В 1968 году американский математик Пол Чернов предложил теорему для приближенного вычисления полугрупп операторов — сложных конструкций, описывающих эволюцию многочастичных систем. Метод основан на последовательных приближениях, но скорость их сходимости оставалась неясной. Эту задачу впервые полностью решили математики из нижегородского кампуса НИУ ВШЭ, что открывает путь к более точным вычислениям в науке.

НИУ ВШЭ

# задача

# квантовые компьютеры

# математика

# операторы

2 июля, 11:17

Юлия Тарасова

Коров покормили отходами конопли и проверили их молоко на психоактивность

Результаты эксперимента в США в будущем могут позволить добиться разрешения на использование отработанной конопли в качестве кормовой добавки в животноводстве.

Биология

# животноводство

# конопля

# корм

# коровы

# молоко

# ТГК

# тетрагидроканнабинол

28 июня, 18:58

Игорь Байдов

Человек сделал балтийскую треску «карликом»

За последние 30 лет размер трески, обитающей в Балтийском море, значительно уменьшился. Если раньше рыбаки вылавливали из воды особей размером с маленького ребенка, то теперь добытая рыба легко помещается в ладонях. Авторы нового исследования винят в этом человека, который заставил один из видов эволюционировать в «карликов».

Биология

# Балтийское море

# Балтика

# виды

# промысел рыбы

# Рыба

# треска

# эволюция

3 июля, 14:18

Юлия Тарасова

Ученые поставили под сомнение пользу домашних питомцев для психики

Психология

# благополучие

# домашние животные

# домашние питомцы

# животные-компаньоны

# коронавирусная пандемия

# одиночество

# стресс

17 июня, 16:49

Адель Романова

Давно отключенный спутник внезапно прислал «громкий» радиосигнал

Радиотелескопы уловили очень короткий сигнал, и по его характеристикам стало ясно, что он не может быть естественного происхождения. Астрономы пришли к выводу, что источник находился в околоземном пространстве — там, где уже более полувека летает «мертвый» аппарат NASA.

Астрономия

# космический мусор

# космос

# радиосигналы

# спутники

25 июня, 15:19

ФизТех

Российские ученые впервые точно определили источники шума сверхзвукового самолета с помощью суперкомпьютера

Группа российских ученых из Института прикладной математики имени М. В. Келдыша РАН и МФТИ провела детальное численное исследование источников шума, генерируемых крылом прототипа сверхзвукового бизнес-джета в режиме посадки. Эта работа, сочетающая передовые методы вычислительной гидродинамики и аэроакустики, впервые позволила с высокой точностью локализовать и охарактеризовать основные зоны шумообразования вблизи полноразмерной геометрии крыла модели прототипа сверхзвукового пассажирского самолета в посадочной конфигурации.

ФизТех