Anthropic передаёт разработанный инструмент оценки безопасности AI-моделей под управление независимого фонда. Это важный шаг к стандартизации AI safety в индустрии.
Anthropic объявила о передаче HELM-Safety — инструмента комплексной оценки безопасности AI-моделей — под управление независимого некоммерческого фонда AI Safety Institute Foundation. Ранее инструмент разрабатывался и поддерживался внутри компании; теперь он становится открытым стандартом для всей индустрии.
HELM-Safety включает более 500 тестовых сценариев, охватывающих ключевые аспекты безопасности: устойчивость к jailbreak-атакам, поведение при неоднозначных инструкциях, обработку конфиденциальных данных, соответствие правовым нормам разных юрисдикций. Инструмент уже использовался для оценки Claude, и по словам Anthropic, результаты использовались при разработке Constitutional AI 2.0.
Почему это важно: унификация методологии оценки безопасности — давно назревшая потребность. Сейчас каждая лаборатория оценивает безопасность своих моделей по собственным критериям, что делает сравнительный анализ практически невозможным. Единый стандарт позволит регуляторам, корпоративным клиентам и исследователям осмысленно сравнивать разные модели.
Критики указывают на очевидный конфликт интересов: Anthropic создала инструмент, по которому его собственные модели выглядят хорошо. Передача независимому фонду снимает часть этих вопросов, но реальная независимость будет определяться составом совета и процедурами управления фонда — детали пока не раскрываются.