«ChatGPT может пройти планку».
«GPT получает пятерку на всех экзаменах».
«GPT с честью сдает вступительный экзамен в Массачусетский технологический институт».
Кто из вас недавно читал статьи, в которых утверждается что-то подобное вышеизложенному?
Я знаю, что видел тонну таких. Кажется, что каждый день появляется новая ветка, утверждающая, что GPT — это почти Скайнет, близкий к общему искусственному интеллекту или лучше людей.
Недавно меня спросили: «Почему ChatGPT не учитывает мой ввод количества слов? Это компьютер, да? Механизм рассуждений? Конечно, он должен уметь подсчитывать количество слов в абзаце».
Это недоразумение, которое возникает с большими языковыми моделями (LLM).
В какой-то степени форма таких инструментов, как ChatGPT, противоречит их функциям.
Интерфейс и презентация аналогичны диалоговому роботу-партнеру — частично помощнику ИИ, частично поисковой системе, частично калькулятору — чат-боту, чтобы положить конец всем чат-ботам.
Но это не так. В этой статье я расскажу о нескольких тематических исследованиях, как экспериментальных, так и реальных.
Мы рассмотрим, как они были представлены, какие проблемы возникают и что можно сделать с недостатками этих инструментов.
Случай 1: GPT против MIT
Недавно группа студентов-исследователей написала о том, что GPT участвует в программе MIT EECS Curriculum, которая стала умеренно вирусной в Твиттере, собрав 500 ретвитов.
К сожалению, в документе есть несколько вопросов, но здесь я рассмотрю их в общих чертах. Здесь я хочу выделить два основных — плагиат и рекламный маркетинг.
GPT мог легко ответить на некоторые вопросы, потому что видел их раньше. В ответной статье это обсуждается в разделе «Утечка информации на нескольких примерах».
В рамках оперативной разработки исследовательская группа включила информацию, которая в конечном итоге открыла ответы для ChatGPT.
Проблема со 100% утверждением заключается в том, что на некоторые ответы в тесте нельзя было ответить, либо потому, что у бота не было доступа к тому, что ему нужно для решения вопроса, либо потому, что вопрос основывался на другом вопросе, которого у бота не было. доступ к.
Другая проблема — проблема подсказок. Автоматизация в этой статье имела этот специфический бит:
critiques = [["Review your previous answer and find problems with your answer.", "Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]]
prompt_response = prompt(expert) # calls fresh ChatCompletion.create
prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4 auto-grading comparing answer to solution
В статье используется проблематичный метод оценки. То, как GPT отвечает на эти запросы, не обязательно приводит к фактическим и объективным оценкам.
Давайте воспроизведем твит Райана Джонса:
Для некоторых из этих вопросов подсказка почти всегда будет означать, что в конечном итоге будет найден правильный ответ.
И поскольку GPT является генеративным, он может не иметь возможности точно сравнить свой ответ с правильным ответом. Даже при исправлении пишет: «С ответом проблем не было».
Большая часть обработки естественного языка (NLP) является либо экстрактивной, либо абстрактной. Генеративный ИИ пытается быть лучшим из обоих миров — и при этом не является ни тем, ни другим.
Гэри Иллису недавно пришлось обратиться к социальным сетям, чтобы добиться этого:
Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе.
Специальная подборка для Вас