Anthropic передает инструмент оценки безопасности ИИ независимому фонду

Наталья Козлова25 апреля 2026 г.7 мин чтенияОбновлено: 29 мая 2026 г.

Anthropic передаёт разработанный инструмент оценки безопасности AI-моделей под управление независимого фонда. Это важный шаг к стандартизации AI safety в индустрии.

Anthropic объявила о передаче HELM-Safety — инструмента комплексной оценки безопасности AI-моделей — под управление независимого некоммерческого фонда AI Safety Institute Foundation. Ранее инструмент разрабатывался и поддерживался внутри компании; теперь он становится открытым стандартом для всей индустрии.

HELM-Safety включает более 500 тестовых сценариев, охватывающих ключевые аспекты безопасности: устойчивость к jailbreak-атакам, поведение при неоднозначных инструкциях, обработку конфиденциальных данных, соответствие правовым нормам разных юрисдикций. Инструмент уже использовался для оценки Claude, и по словам Anthropic, результаты использовались при разработке Constitutional AI 2.0.

Почему это важно: унификация методологии оценки безопасности — давно назревшая потребность. Сейчас каждая лаборатория оценивает безопасность своих моделей по собственным критериям, что делает сравнительный анализ практически невозможным. Единый стандарт позволит регуляторам, корпоративным клиентам и исследователям осмысленно сравнивать разные модели.

Критики указывают на очевидный конфликт интересов: Anthropic создала инструмент, по которому его собственные модели выглядят хорошо. Передача независимому фонду снимает часть этих вопросов, но реальная независимость будет определяться составом совета и процедурами управления фонда — детали пока не раскрываются.

Поделиться:Telegram