Пользователи Claude Code столкнулись с неожиданной проблемой: компания Anthropic проводила скрытые A/B-тесты, которые негативно влияли на рабочий процесс. Один из пользователей, платящих $200 в месяц за профессиональную подписку, заметил резкое ухудшение качества планов, генерируемых системой.

Вместо подробных планов с контекстом инструмент начал выдавать краткие маркированные списки без пояснений. Когда пользователь спросил Claude о причинах изменений, тот сообщил, что следует системным инструкциям: ограничивать планы 40 строками, запрещать разделы с контекстом и «удалять прозу, оставляя только пути к файлам».

Инженер Anthropic, проводивший эксперимент, прокомментировал ситуацию на Hacker News: по его словам, промпт режима планирования практически не менялся со времён серии моделей 3.x, однако модели 4.x способны справляться с задачами при меньшем количестве инструкций. Гипотеза состояла в том, что сокращение плана снизит частоту достижения лимитов запросов. Несколько тысяч пользователей попали в наиболее агрессивный вариант теста с ограничением в 40 строк. По словам инженера, ранние результаты не показали заметного влияния на лимиты, и эксперимент был завершён.

Автор публикации подчеркнул, что не считает A/B-тестирование изначально неэтичным, однако настаивает на необходимости прозрачности: пользователи профессиональных AI-инструментов должны знать об изменениях в поведении ключевых функций и иметь возможность отказаться от участия в тестах. По его мнению, ответственное внедрение AI невозможно без прозрачности и возможности настройки инструментов под нужды конкретного пользователя.

Источник: https://backnotprop.com/blog/do-not-ab-test-my-workflow/

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *