Новости, обновления и кейсы в реальном времени
Anthropic опубликовала исследование нового метода выравнивания: вместо списка запрещённых действий модели обучаются принципам этического рассуждения. Первые результаты — впечатляющие.
Anthropic передаёт разработанный инструмент оценки безопасности AI-моделей под управление независимого фонда. Это важный шаг к стандартизации AI safety в индустрии.