Бинарный файл Claude Code раскрыл скрытые A/B-тесты ключевых функций

Пользователи Claude Code столкнулись с неожиданной проблемой: компания Anthropic проводила скрытые A/B-тесты, которые негативно влияли на рабочий процесс. Один из пользователей, платящих $200 в месяц за профессиональную подписку, заметил резкое ухудшение качества планов, генерируемых системой.

Вместо подробных планов с контекстом инструмент начал выдавать краткие маркированные списки без пояснений. Когда пользователь спросил Claude о причинах изменений, тот сообщил, что следует системным инструкциям: ограничивать планы 40 строками, запрещать разделы с контекстом и «удалять прозу, оставляя только пути к файлам».

Инженер Anthropic, проводивший эксперимент, прокомментировал ситуацию на Hacker News: по его словам, промпт режима планирования практически не менялся со времён серии моделей 3.x, однако модели 4.x способны справляться с задачами при меньшем количестве инструкций. Гипотеза состояла в том, что сокращение плана снизит частоту достижения лимитов запросов. Несколько тысяч пользователей попали в наиболее агрессивный вариант теста с ограничением в 40 строк. По словам инженера, ранние результаты не показали заметного влияния на лимиты, и эксперимент был завершён.

Автор публикации подчеркнул, что не считает A/B-тестирование изначально неэтичным, однако настаивает на необходимости прозрачности: пользователи профессиональных AI-инструментов должны знать об изменениях в поведении ключевых функций и иметь возможность отказаться от участия в тестах. По его мнению, ответственное внедрение AI невозможно без прозрачности и возможности настройки инструментов под нужды конкретного пользователя.

Источник: https://backnotprop.com/blog/do-not-ab-test-my-workflow/

Бинарный файл Claude Code раскрыл скрытые A/B-тесты ключевых функций

Byadmin

By admin

Related Post

OpenAI поглотила финтех-стартап Hiro Finance в рамках acquihire-сделки

Amazon приобретает спутниковую компанию Globalstar за $11,57 млрд для конкуренции со Starlink

Многоагентная разработка на LLM — это задача распределённого консенсуса, и мощность модели здесь не поможет

Leave a Reply Cancel reply

You missed

OpenAI поглотила финтех-стартап Hiro Finance в рамках acquihire-сделки

Amazon приобретает спутниковую компанию Globalstar за $11,57 млрд для конкуренции со Starlink

Многоагентная разработка на LLM — это задача распределённого консенсуса, и мощность модели здесь не поможет

Novo Nordisk заключила стратегическое партнёрство с OpenAI для разработки новых препаратов