Исследователи Anthropic научились расшифровывать внутренние представления Claude и переводить их в понятные концепты. Это прорыв в интерпретируемости — и новый уровень понимания AI.
Что происходит внутри языковой модели, когда она отвечает на вопрос? Долгое время это оставалось чёрным ящиком даже для создателей. Команда интерпретируемости Anthropic сделала значительный шаг вперёд, опубликовав исследование, которое позволяет — в ограниченном смысле — «читать мысли» Claude.
Метод называется Sparse Autoencoder Decomposition: нейронная сеть обучается на активациях Claude и учится разлагать их на интерпретируемые компоненты — «фичи». Исследователи обнаружили, что многие фичи соответствуют понятным концептам: «эмоция страха», «логическое противоречие», «медицинская тема», «просьба о помощи с кодом».
Наиболее впечатляющий результат: исследователи смогли проследить цепочку активаций при ответе на неоднозначные вопросы. Модель активирует фичи, связанные с разными интерпретациями, «взвешивает» их — и выбирает наиболее вероятную. Это не метафора, а буквальное описание того, что происходит в промежуточных слоях.
Практическое значение для безопасности: если мы можем наблюдать, какие концепты активируются при обработке запроса, мы можем создавать системы раннего предупреждения для потенциально опасных паттернов рассуждения. Это не панацея — интерпретация по-прежнему частична и несовершенна — но первый реальный инструмент заглянуть внутрь чёрного ящика.