Статьи

NExT-GPT — модель с открытым исходным кодом, позволяющая освоить искусственный интеллект.

На растущей технологической сцене, где доминируют такие гиганты, как OpenAI и Google, НЕкст-ГПT, мультимодальная модель большого языка искусственного интеллекта (LLM) с открытым исходным кодом, может иметь все необходимое для конкуренции в высшей лиге.

ChatGPT покорил мир своей способностью понимать запросы на естественном языке и генерировать ответы, подобные человеческим. Но поскольку искусственный интеллект продолжает развиваться молниеносно, людям нужно больше энергии. Эра чистого текста закончилась, и появляются мультимодальные LLM.

Разработанный в сотрудничестве Национального университета Сингапура (NUS) и Университета Цинхуа, NExT-GPT может обрабатывать и генерировать комбинации текста, изображений, аудио и видео. Это обеспечивает более естественное взаимодействие, чем текстовые модели, такие как базовый инструмент ChatGPT.

Команда, создавшая его, позиционирует NExT-GPT как систему «любого к любому», что означает, что она может принимать входные данные любым способом и выдавать ответы в соответствующей форме.

Потенциал быстрого прогресса огромен. Будучи моделью с открытым исходным кодом, NExT-GPT может быть изменен пользователями в соответствии со своими конкретными потребностями. Это может привести к значительным улучшениям по сравнению с оригиналом, во многом подобно тому, что произошло со Stable Diffusion по сравнению с его оригинальной версией. Демократизация доступа позволяет создателям формировать технологии для достижения максимального эффекта.

Так как же работает NExT-GPT? Как поясняется в исследовательский документ Модель, система имеет отдельные модули для кодирования входных данных, таких как изображения и аудио, в текстовые представления, которые может обрабатывать базовая языковая модель.



Исследователи применили технику, называемую настройкой команды переключения модальности, чтобы улучшить кросс-модальное мышление — его способность обрабатывать различные типы входных данных как единую, последовательную структуру. Эта настройка учит модель плавно переключаться между модальностями во время разговора.

Для обработки входных данных NExT-GPT использует уникальные токенытакой как для изображений, так и для аудио и видео. Каждый тип входных данных преобразуется во вложения, понятные языковой модели. Затем языковая модель может выводить текст ответа, а также специальные токены сигналов для запуска генерации в других модальностях.

Например, токен в ответе указывает видеодекодеру создать соответствующий видеовыход. Использование системой специальных токенов для каждого метода ввода и вывода обеспечивает гибкое преобразование «любой в любой».

Затем языковая модель выводит специальные токены, которые сигнализируют о необходимости создания нетекстового вывода, например изображений. Затем разные декодеры создают выходные данные для каждой модальности: Stable Diffusion в качестве декодера изображения, AudioLDM в качестве аудиодекодера и Zeroscope в качестве видеодекодера. Он также использует Vicuna в качестве базового LLM и ImageBind для кодирования входных данных.

NExT-GPT — это, по сути, модель, которая объединяет возможности различных ИИ, становясь своего рода универсальным суперИИ.

NExT-GPT — модель с открытым исходным кодом, позволяющая освоить искусственный интеллект.
Скриншот предоставлен: Академия AI Papers через YouTube

NExT-GPT обеспечивает это гибкое преобразование «любой-к-любому», обучая только 1% от общего числа параметров. Остальные параметры — это замороженные, предварительно обученные модули, заслужившие похвалу исследователей как очень эффективная конструкция.

Был создан демо-сайтпозволяет людям тестировать NExT-GPT, но его доступность носит спорадический характер.

Потому что технологическим гигантам нравится Google И ОпенАИзапускают свои собственные мультимодальные продукты искусственного интеллекта, NExT-GPT предоставляет альтернативу с открытым исходным кодом, которую могут использовать создатели. Мультимодальность является ключом к естественным взаимодействиям. А благодаря открытому исходному коду NExT-GPT исследователи предоставляют сообществу трамплин для вывода искусственного интеллекта на новый уровень.


Подборка статей по криптовалютам и технологии блокчейн. Подпишитесь на нас в социальных сетях.

Информация для Вас была полезна?
0
0
0
0
0
0
0

Похожие статьи

Кнопка «Наверх»