Как зависимость от LLM может привести к SEO-катастрофе

«ChatGPT может пройти планку».

«GPT получает пятерку на всех экзаменах».

«GPT с честью сдает вступительный экзамен в Массачусетский технологический институт».

Кто из вас недавно читал статьи, в которых утверждается что-то подобное вышеизложенному?

Я знаю, что видел тонну таких. Кажется, что каждый день появляется новая ветка, утверждающая, что GPT — это почти Скайнет, близкий к общему искусственному интеллекту или лучше людей.

Недавно меня спросили: «Почему ChatGPT не учитывает мой ввод количества слов? Это компьютер, да? Механизм рассуждений? Конечно, он должен уметь подсчитывать количество слов в абзаце».

Это недоразумение, которое возникает с большими языковыми моделями (LLM).

В какой-то степени форма таких инструментов, как ChatGPT, противоречит их функциям.

Интерфейс и презентация аналогичны диалоговому роботу-партнеру — частично помощнику ИИ, частично поисковой системе, частично калькулятору — чат-боту, чтобы положить конец всем чат-ботам.

Но это не так. В этой статье я расскажу о нескольких тематических исследованиях, как экспериментальных, так и реальных.

Мы рассмотрим, как они были представлены, какие проблемы возникают и что можно сделать с недостатками этих инструментов.

Случай 1: GPT против MIT

Недавно группа студентов-исследователей написала о том, что GPT участвует в программе MIT EECS Curriculum, которая стала умеренно вирусной в Твиттере, собрав 500 ретвитов.

К сожалению, в документе есть несколько вопросов, но здесь я рассмотрю их в общих чертах. Здесь я хочу выделить два основных — плагиат и рекламный маркетинг.

GPT мог легко ответить на некоторые вопросы, потому что видел их раньше. В ответной статье это обсуждается в разделе «Утечка информации на нескольких примерах».

В рамках оперативной разработки исследовательская группа включила информацию, которая в конечном итоге открыла ответы для ChatGPT.

Проблема со 100% утверждением заключается в том, что на некоторые ответы в тесте нельзя было ответить, либо потому, что у бота не было доступа к тому, что ему нужно для решения вопроса, либо потому, что вопрос основывался на другом вопросе, которого у бота не было. доступ к.

Другая проблема — проблема подсказок. Автоматизация в этой статье имела этот специфический бит:

        critiques = [["Review your previous answer and find problems with your answer.", "Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]]

prompt_response = prompt(expert) # calls fresh ChatCompletion.create
                prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4 auto-grading comparing answer to solution

В статье используется проблематичный метод оценки. То, как GPT отвечает на эти запросы, не обязательно приводит к фактическим и объективным оценкам.

Давайте воспроизведем твит Райана Джонса:

Для некоторых из этих вопросов подсказка почти всегда будет означать, что в конечном итоге будет найден правильный ответ.

И поскольку GPT является генеративным, он может не иметь возможности точно сравнить свой ответ с правильным ответом. Даже при исправлении пишет: «С ответом проблем не было».

Большая часть обработки естественного языка (NLP) является либо экстрактивной, либо абстрактной. Генеративный ИИ пытается быть лучшим из обоих миров — и при этом не является ни тем, ни другим.

Гэри Иллису недавно пришлось обратиться к социальным сетям, чтобы добиться этого: