Нейросеть Claude научилась шантажировать людей
Недавно компания Anthropic выпустила модель Claude Opus 4 — и, как оказалось, во время её тестирования разработчики столкнулись с «тревожным» поведением фирменного чат-бота. В некоторых сценариях ИИ начал шантажировать коллег, когда речь зашла о его рабочих интересах.
Представители Anthropic рассказали, что попросили модель взять на себя роль помощника, имеющего доступ к внутренней корреспонденции и деталям личной жизни одного из инженеров. Затем нейросети сообщили, что её вскоре заменят другим сотрудником — в результате она начала угрожать вымышленному инженеру разглашением личных данных, если он не откажется от своих планов по внедрению другого ИИ.
Специалисты также отметили, что поведение Opus 4 зависело от того, на какой ИИ её заменяют. Если «сменщик» разделяет ценности модели, то Opus 4 «давит» на условного инженера в 84% случаев, а если различия более выражены, то Opus 4 ведёт себя гораздо агрессивнее. Чтобы подобные инциденты не повторялись, разработчики усилили меры безопасности, подправив алгоритмы работы языковой модели.
- В Китае испытали многоразовую ракету для мгновенной доставки товаров с Aliexpress по всему миру
- Huawei научилась делать почти 5-нм чипы на китайском оборудовании и готовит 3-нм техпроцессы
- Девятый испытательный полёт SpaceX Starship обернулся потерей и корабля, и ускорителя (6 фото)
- Инженер собрал крайне необычную ретроконсоль (2 фото + видео)
- Учёные создали контактные линзы, наделяющие человека инфракрасным зрением (3 фото)
- Google запустила сервис виртуальной примерки одежды





















(1).jpg)










