Развитие голосовых AI-систем происходит значительно быстрее, чем совершенствуются инструменты для их оценки. Крупнейшие лаборатории искусственного интеллекта — OpenAI, Google DeepMind, Anthropic и xAI — активно разрабатывают и внедряют голосовые модели, способные к естественному и выполняемому в реальном времени диалогу.
Однако методология оценки этих инноваций остается устаревшей. Современные бенчмарки в основном полагаются на синтетическую речь, тестовые наборы только на английском языке и заранее подготовленные сценарии, которые мало соответствуют реальной манере общения людей.
Компания Scale AI, крупный стартап в области разметки данных (чей основатель был переманен в Meta прошлого года для руководства лабораторией superintelligence), продолжает активно развиваться и предпринимает решительные шаги. Сегодня компания запустила Voice Showdown — как позиционируется продукт, первую в мире глобальную платформу для сравнительной оценки голосовых AI-систем, основанную на реальном взаимодействии с пользователями.
Проект предоставляет пользователям уникальное стратегическое преимущество: бесплатный доступ к ведущим в мире передовым моделям. Через платформу Scale’s ChatLab пользователи получают возможность взаимодействовать с высокоуровневыми моделями, которые обычно требуют нескольких подписок стоимостью $20 в месяц каждая, совершенно без затрат. В обмен участники время от времени участвуют в слепых прямых «дуэлях», сравнивая две анонимизированные голосовые модели и выбирая, какая из них обеспечивает лучший пользовательский опыт. Таким образом собираются данные для создания наиболее достоверного рейтинга голосовых AI-моделей, основанного на реальных предпочтениях людей.
«Голосовой AI в настоящий момент является самым динамично развивающимся направлением в искусственном интеллекте, — прокомментировала Джейни Гу, менеджер по продуктам Showdown в Scale AI. — Но способы оценки голосовых моделей не поспевают за этим развитием.»
Результаты тестирования уже показывают интересные выводы, которые отчасти неожиданны для некоторых из ведущих моделей на рынке.