Клод ИИ от Anthropic побеждает ChatGPT в таблице лидеров Chatbot Arena

Хотя ChatGPT от Open AI является самым популярным из всех инструментов генеративного ИИ, его первое место в популярной краудсорсинговой таблице лидеров, используемой исследователями ИИ, занимает лидирующая работа Claude 3 от постоянного конкурента Anthropic.

Подъем Клода в рейтинге Chatbot Arena знаменует собой первый раз, когда GPT-4 OpenAI, лежащий в основе ChatGPT Plus, был свергнут с момента его первого появления в таблице лидеров в мае прошлого года.

Chatbot Arena находится в ведении Large Model Systems (LMSYS ORG), исследовательской организации, занимающейся открытыми моделями и поддерживающей сотрудничество между студентами и преподавателями Калифорнийского университета в Беркли, Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллона. Платформа предоставляет пользователям две немаркированные языковые модели и просит их оценить, какая из них работает лучше, исходя из тех критериев, которые они считают подходящими.

Объединив тысячи субъективных сравнений, Chatbot Arena вычисляет «лучшие» модели для таблицы лидеров, обновляя ее с течением времени.

Именно этот субъективный подход, основанный на несопоставимых личных вкусах участников, отличает Chatbot Arena от других тестов искусственного интеллекта. Тренеры моделей не могут «обманывать», настраивая свои модели так, чтобы они превосходили алгоритм, как они могли бы это делать с количественными тестами. Измеряя то, что люди просто предпочитают, Chatbot Arena является ценным качественным ресурсом для исследователей искусственного интеллекта.

Платформа собирает отзывы пользователей и анализирует их. Статистическая модель Брэдли-Террипредсказать вероятность того, что конкретная модель превзойдет другие в прямой конкуренции. Этот подход позволяет генерировать исчерпывающую статистику, включая диапазоны доверительных интервалов для оценок рейтинга Эло — тот же метод, который используется для измерения навыков шахматистов.

Топ-10 LLM по рейтингам Chatbot Arena. Изображение: Обнимающее лицо

Подъем Claude 3 Opus на вершину — не единственное значимое событие в таблице лидеров. Claude 3 Sonnet (модель среднего размера, доступная бесплатно) и Claude 3 Haiku (меньшая и более быстрая модель), также разработанные Anthropic, в настоящее время находятся на 4-м и 6-м месте соответственно.

Подборка статей по криптовалютам и технологии блокчейн. Подпишитесь на нас в социальных сетях.

Информация для Вас была полезна?