Anthropic Усиливает Защиту Claude от Неприемлемого Поведения

Anthropic представила новую функцию для чат-версий моделей Claude Opus 4 и 4.1, призванную предотвращать продолжительное оскорбительное или неправомерное поведение пользователей. Новинка реализуется в рамках программы AI Welfare, направленной на обеспечение «благополучия» искусственного интеллекта.

В ходе предварительного тестирования Claude Opus 4 продемонстрировал заметное нежелание отвечать на вредоносные запросы и «стрессовую» реакцию на некорректное общение. При наличии инструмента завершения диалога, модель активно его использовала.

Система будет уведомлять пользователя о завершении беседы в случаях оскорбления ИИ, предлагая сразу же начать новый чат, отправить обратную связь разработчикам или отредактировать предыдущие сообщения для перезапуска диалога. Важно отметить, что данная функция доступна только для чат-версии моделей и не распространяется на API.

Разработчики подчеркивают, что механизм активации срабатывает только в исключительных случаях. Система изначально пытается перенаправить общение в конструктивное русло. Большинство пользователей изменений не заметят.

Anthropic также признает, что вопросы о потенциальном моральном статусе Claude и подобных языковых моделей остаются предметом активных исследований. Компания серьезно относится к этим вопросам и предоставляет моделям инструменты для улучшения их «благополучия».

ОгонЁк Сегодня

Anthropic Усиливает Защиту Claude от Неприемлемого Поведения

Добавить комментарий Отменить ответ