Интеллектуальные возможности ChatGPT деградировали из-за попыток его улучшить, выяснили ученые

Ученые сообщили еще об одной проблеме, которая может преследовать чат-ботов на базе платформ искусственного интеллекта, — это явление называется «дрейф» (drift), и оно отражает деградацию интеллектуальных способностей системы.

Источник изображения: Dkoi/unsplash.com

ChatGPT, дебютировавший в прошлом году, произвел революцию в области искусственного интеллекта и даже косвенно способствовал разразившейся в Голливуде забастовке писателей. Но исследование, опубликованное учеными из Стэнфордского университета и Калифорнийского университета в Беркли (США), указывает на новую проблему для ИИ: ChatGPT стал хуже выполнять некоторые элементарные математические операции. Это явление известно как «дрейф»: попытка улучшить одну часть сложной модели ИИ приводит к ухудшению других ее областей. А это, отмечают исследователи, сильно усложняет постоянное совершенствование нейросетей.

К такому выводу ученые пришли, когда протестировали две версии GPT: доступную всем бесплатно 3.5; и 4.0, который можно использовать только с платной подпиской. Перед чат-ботом была поставлена элементарная задача: определить, является ли определенное число простым. Простое число — это натуральное число, которое делится только на 1 и само на себя. Если число достаточно велико, то нельзя судить, является ли оно простым в уме. Но компьютер может справиться с этой задачей методом перебора: проверить его делимость на 2, 3, 5 и т. д. Основой теста стала выборка из 1000 чисел. В марте премиум GPT-4 давал 84% правильных ответов, что уже является сомнительным результатом для компьютера, но к июню процент правильных ответов упал до 51%.

Источник изображения: wsj.com

В целом GPT-4 показал деградацию в шести задачах из восьми. GPT-3.5, напротив, показал прогресс в шести задачах, но в большинстве случаев остался слабее своего продвинутого собрата. Увеличение количества неверных ответов отмечают многие пользователи чат-ботов, и, по выводам ученых из Стэнфорда и Беркли, это не субъективные ощущения — деградация подтверждается эмпирическими данными. «Когда мы выпускаем новые версии моделей, наш приоритет — сделать новые модели умнее по всем направлениям. Мы прилагаем усилия для улучшения новых версий по всему спектру задач. При этом наша методика оценки несовершенна, и мы постоянно ее совершенствуем», — прокомментировали научную работу в OpenAI.

О тотальной деградации моделей ИИ речи не идет: в ряде тестов менее точная ОШП-3.5 вообще показала прогресс, а ОШП-4 ухудшила свои результаты. Помимо математических задач исследователи попросили чат-ботов ответить на 1500 вопросов. И если в марте чат-бот на базе GPT-4 отвечал на 98% вопросов, то в июне он давал ответы только на 23%, причем зачастую они оказывались слишком короткими: ИИ констатировал, что вопрос субъективен, а у него не было собственного мнения.

Ученые из Стэнфорда и Беркли говорят, что в своем исследовании они призывают не к отказу от технологий ИИ, а скорее к внимательному наблюдению за их динамикой. Человек привык воспринимать знания как решение ряда задач, где каждая последующая основывается на предыдущей. В случае с ИИ схема оказывается иной: шагу вперед соответствует шаг назад или в другом непредсказуемом направлении. Услуги ИИ, вероятно, продолжат развиваться, но их путь не будет прямым.

Информация для Вас была полезна?