ChatGPT хороший врач, но плохой программист

В гонке за создание передового искусственного интеллекта не все большие языковые модели созданы равными. Два новых исследования обнаружили поразительные различия в производительности популярных систем, таких как ChatGPT, при тестировании в сложных реальных задачах.

По словам исследователей из Университета Пердью, ChatGPT борется даже с основными проблемами кодирования. Команда оценила ответы ChatGPT на более чем 500 вопросов в Stack Overflow, онлайн-сообществе для разработчиков и программистов, по таким темам, как отладка и использование API.

«Наш анализ показывает, что 52 % ответов, сгенерированных ChatGPT, неверны, а 77 % — многословны». написал исследователи. «Однако ответы ChatGPT по-прежнему предпочтительнее в 39,34% случаев из-за их полноты и четко сформулированного языкового стиля».

Исследование Калифорнийского университета в Лос-Анджелесе и Университета Пеппердин в Малибу, напротив, демонстрирует умение ChatGPT отвечать на сложные вопросы медицинского обследования. В более чем 850 вопросах с несколькими вариантами ответов по нефрологии, продвинутой специальности внутренней медицины, ChatGPT набрал 73%, что соответствует проценту сдачи среди медицинских ординаторов.

Как объяснили исследователи Калифорнийского университета в Лос-Анджелесе: «Не отрицая важности вычислительной мощности конкретных LLM, отсутствие свободного доступа к учебным материалам, которые в настоящее время не являются общедоступными, вероятно, останется одним из препятствий для достижения дальнейшего повышения производительности для ближайшее будущее.»

Проблемы с кодировкой ChatGPT согласуются с другими оценками. Как сообщалось ранее расшифроватьисследователи из Стэнфорда и Калифорнийского университета в Беркли обнаружили, что математические навыки и визуальное мышление ChatGPT резко снизился в период с марта по июнь 2022 г.. Хотя изначально он хорошо разбирался в простых цифрах и головоломках, к лету набрал всего 2% по ключевым показателям.

Так что, хотя ChatGPT может играть в доктора, ему еще предстоит многому научиться, прежде чем стать первоклассным программистом. Но это недалеко от реальности, в конце концов, сколько вы знаете врачей, которые также являются опытными хакерами?

«Продемонстрированная в настоящее время превосходная способность GPT-4 точно отвечать на вопросы с несколькими вариантами ответов в нефрологии указывает на полезность аналогичных и более мощных моделей ИИ в будущих медицинских приложениях», — заключила команда Калифорнийского университета в Лос-Анджелесе.

Клод Ай из Anthropic был вторым лучшим магистром права. с 54,4% правильных ответов. Команда оценила другие LLM с открытым исходным кодом, но они были далеки от приемлемых, лучший результат — 25,5%, достигнутый Vicuna.

Так почему же ChatGPT преуспевает в медицине, но терпит неудачу в программировании? Модели машинного обучения имеют разные сильные стороны, примечания Ученый-компьютерщик из Массачусетского технологического института Лекс Фридман. Клод, модель, которая лежит в основе медицинских знаний ChatGPT, получила дополнительные проприетарные обучающие данные от своего производителя Anthropic. ChatGPT OpenAI полагался только на общедоступные данные. Модели искусственного интеллекта, правильно обученные работе с огромными объемами данных, достигают отличных результатов, даже лучших, чем большинство других моделей.

Изображение предоставлено Массачусетским технологическим институтом

Однако искусственный интеллект не сможет действовать должным образом за пределами параметров, на которых он был обучен, поэтому он попытается создать контент без предварительного знания о нем, что приведет к тому, что известно как галлюцинации. Если набор данных модели ИИ не включает определенный контент, он не сможет хорошо работать в этой области.

Подборка статей по криптовалютам и технологии блокчейн. Подпишитесь на нас в социальных сетях.

Информация для Вас была полезна?