Стратегия SEO

Google LIMoE — шаг к цели единого ИИ

Google анонсировала новую технологию под названием LIMoE, которая, по ее словам, представляет собой шаг к достижению цели Google по архитектуре искусственного интеллекта под названием Pathways.

Pathways — это архитектура ИИ, представляющая собой единую модель, которая может научиться выполнять несколько задач, которые в настоящее время выполняются с использованием нескольких алгоритмов.

LIMoE — это аббревиатура, обозначающая Изучение нескольких модальностей с помощью одной модели с разреженным набором экспертов. Это модель, которая обрабатывает изображение и текст вместе.

Хотя существуют и другие архитектуры, которые делают подобные вещи, прорыв заключается в том, как новая модель выполняет эти задачи, используя технику нейронной сети, называемую разреженной моделью.

Разреженная модель описана в исследовательской статье 2017 года, в которой был представлен подход уровня Mixture-of-Experts (MoE), в исследовательской статье под названием «Невероятно большие нейронные сети: уровень смеси экспертов с разреженным входом».

В 2021 году Google анонсировала модель MoE под названием GLaM: эффективное масштабирование языковых моделей с помощью Mixture-of-Experts, которая обучалась только на тексте.

Отличие LIMoE в том, что он работает с текстом и изображениями одновременно.

Разреженная модель отличается от «плотных» моделей тем, что вместо того, чтобы посвящать каждую часть модели выполнению задачи, разреженная модель назначает задачу различным «экспертам», которые специализируются на части задачи.

Это снижает вычислительные затраты, делая модель более эффективной.

Итак, аналогично тому, как мозг видит собаку и знает, что это собака, что это мопс и что у мопса серебристо-палевый окрас, эта модель также может просматривать изображение и выполнять задачу аналогичным образом, назначая вычислительные задания разным специалистам, специализирующимся на задаче распознавания собаки, ее породы, окраса и т. д.

Модель LIMoE направляет проблемы «экспертам», специализирующимся на конкретной задаче, добиваясь таких же или лучших результатов, чем текущие подходы к решению проблем.

Интересной особенностью модели является то, что некоторые эксперты специализируются в основном на обработке изображений, другие специализируются в основном на обработке текста, а некоторые эксперты специализируются на том и другом.

Описание Google того, как работает LIMoE, показывает, что есть эксперт по глазам, еще один по колесам, эксперт по полосатым текстурам, сплошным текстурам, словам, дверным ручкам, еде и фруктам, морю и небу и эксперт по изображениям растений.

Объявление о новом алгоритме описывает этих экспертов:

«Есть также некоторые четкие качественные закономерности среди экспертов по изображениям — например, в большинстве моделей LIMoE есть эксперт, который обрабатывает все фрагменты изображения, содержащие текст. …один специалист обрабатывает фауну и зелень, а другой – человеческие руки».

Эксперты, специализирующиеся на различных частях задач, обеспечивают возможность масштабирования и точного выполнения многих различных задач, но с меньшими вычислительными затратами.

В исследовательской работе подводятся итоги их выводов:

  • «Мы предлагаем LIMoE, первую крупномасштабную мультимодальную смесь экспертных моделей.
  • Мы подробно демонстрируем, как прежние подходы к регуляризации смешанных моделей экспертов не подходят для мультимодального обучения, и предлагаем новую схему регуляризации на основе энтропии для стабилизации обучения.
  • Мы показываем, что LIMoE обобщает масштабы архитектуры с относительным улучшением точности нулевого выстрела ImageNet в диапазоне от 7% до 13% по сравнению с эквивалентными плотными моделями.
  • При дальнейшем масштабировании LIMoE-H/14 достигает точности нулевого выстрела ImageNet на уровне 84,1%, что сравнимо с контрастными моделями SOTA с помодальными магистральными сетями и предварительным обучением».

Соответствует современному уровню техники

Ежемесячно публикуется множество научных статей. Но только некоторые из них выделяются Google.

Обычно Google уделяет особое внимание исследованиям, потому что они не только позволяют достичь чего-то нового, но и делают это на современном уровне.

LIMoE выполняет этот подвиг, достигая результатов, сравнимых с лучшими современными алгоритмами, но делает это более эффективно.

Исследователи выделяют это преимущество:

«При классификации изображений с нулевым выстрелом LIMoE превосходит как сопоставимые мультимодальные модели с высокой плотностью, так и подходы с двумя башнями.

Самый большой LIMoE обеспечивает точность нулевого снимка ImageNet 84,1%, что сравнимо с более дорогими современными моделями.

Разреженность позволяет LIMoE изящно масштабироваться и учиться обрабатывать самые разные входные данные, устраняя противоречие между универсальным мастером на все руки и мастером в одном деле».

Успешные результаты LIMoE привели исследователей к выводу, что LIMoE может стать шагом вперед для создания мультимодальной универсальной модели.

Исследователи наблюдали:

«Мы считаем, что возможность построить универсальную модель со специальными компонентами, которые могут решить, как должны взаимодействовать различные модальности или задачи, будет ключом к созданию действительно мультимодальных многозадачных моделей, которые преуспеют во всем, что они делают.

LIMoE — многообещающий первый шаг в этом направлении».

Потенциальные недостатки, предубеждения и другие этические проблемы

В этой архитектуре есть недостатки, которые не обсуждаются в объявлении Google, но упоминаются в самой исследовательской статье.

В исследовательском документе отмечается, что, как и другие крупномасштабные модели, LIMoE также может вносить погрешности в результаты.

Исследователи заявляют, что они еще не «явно» решили проблемы, присущие крупномасштабным моделям.

Они пишут:

«Потенциальный вред крупномасштабных моделей…, контрастных моделей… и мультимодальных данных в веб-масштабе… также распространяется и на это, поскольку LIMoE явно не рассматривает их».

В приведенном выше заявлении содержится ссылка (в ссылке в сноске) на исследовательскую работу 2021 года под названием «О возможностях и рисках моделей фонда» (PDF здесь).

В этом исследовательском документе от 2021 года содержится предупреждение о том, что новые технологии искусственного интеллекта могут оказать негативное влияние на общество, например:

«…несправедливость, неправильное использование, экономическое и экологическое воздействие, юридические и этические соображения».

Согласно цитируемому документу, этические проблемы также могут возникать из-за тенденции к гомогенизации задач, которая затем может создать точку отказа, которая затем воспроизводится для других задач, следующих ниже по течению.

В предостерегающем исследовательском документе говорится:

«Значение базовых моделей можно выразить двумя словами: эмерджентность и гомогенизация.

Возникновение означает, что поведение системы неявно индуцируется, а не конструируется явно; это одновременно источник научного возбуждения и беспокойства по поводу непредвиденных последствий.

Гомогенизация указывает на консолидацию методологий создания систем машинного обучения для широкого спектра приложений; он обеспечивает мощный рычаг для решения многих задач, но также создает единые точки отказа».

Одна область осторожности связана с искусственным интеллектом, связанным со зрением.

В документе 2021 года говорится, что повсеместное распространение камер означает, что любые достижения в области искусственного интеллекта, связанные со зрением, могут нести сопутствующий риск для технологии, применяемой непредвиденным образом, что может иметь «разрушительное воздействие», в том числе в отношении конфиденциальности и наблюдения.

Еще одно предостережение, связанное с достижениями в области искусственного интеллекта, связанного со зрением, — это проблемы с точностью и предвзятостью.

Они отмечают:

«Существует хорошо задокументированная история предубеждений в моделях компьютерного зрения, что приводит к более низкой точности и коррелированным ошибкам для недостаточно представленных групп, что, как следствие, неуместно и преждевременно развертывается в некоторых реальных условиях».

В остальной части документа описано, как технологии ИИ могут изучать существующие предубеждения и увековечивать неравенство.

«Фундаментальные модели потенциально могут привести к несправедливым результатам: несправедливому обращению с людьми, особенно из-за неравного распределения по линиям, усугубляющим историческую дискриминацию…. Как и любая система ИИ, базовые модели могут усугублять существующее неравенство, создавая несправедливые результаты, укрепляя системы власти и непропорционально распределяя негативные последствия технологий среди тех, кто уже маргинализирован…»

Исследователи LIMoE отметили, что эта конкретная модель может помочь обойти некоторые предубеждения против недопредставленных групп из-за характера специализации экспертов в определенных вещах.

Такого рода отрицательные результаты — не теории, а реалии, и они уже негативно повлияли на жизнь в реальных приложениях, таких как несправедливые расовые предубеждения, вносимые алгоритмами найма на работу.

Авторы документа LIMoE признают эти потенциальные недостатки в коротком абзаце, который служит предостережением.

Но они также отмечают, что с помощью этого нового подхода может быть потенциал для устранения некоторых предубеждений.

Они написали:

«…возможность масштабировать модели с экспертами, которые могут иметь глубокую специализацию, может привести к повышению эффективности работы с недостаточно представленными группами».

Наконец, ключевой атрибут этой новой технологии, который следует отметить, заключается в том, что для нее не указано явного использования.

Это просто технология, которая может эффективно обрабатывать изображения и текст.

Как это может быть применено, если оно когда-либо будет применяться в этой форме или в будущей форме, никогда не рассматривается.

И это важный фактор, на который указывает предостерегающий документ (Возможности и риски базовых моделей)обращает внимание на то, что исследователи создают возможности для ИИ без учета того, как их можно использовать и как они могут повлиять на такие вопросы, как конфиденциальность и безопасность.

«Фундаментальные модели — это промежуточные активы без определенной цели, прежде чем они будут адаптированы; понимание их вреда требует рассуждений как об их свойствах, так и о той роли, которую они играют в построении моделей для конкретных задач».

Все эти предостережения не включены в статью-объявление Google, но на них есть ссылки в самой исследовательской статье в формате PDF.

Архитектура искусственного интеллекта Pathways и LIMoE

Текст, изображения, звуковые данные называются модальностями, различными видами данных или, так сказать, специализацией задач. Модальности также могут означать разговорный язык и символы.

Поэтому, когда вы видите фразу «мультимодальность» или «модальности» в научных статьях и исследовательских работах, они обычно говорят о разных типах данных.

Конечной целью Google для ИИ является то, что она называет архитектурой ИИ нового поколения Pathways.

Пути представляют собой переход от моделей машинного обучения, которые действительно хорошо справляются с одной задачей (таким образом, требуются тысячи таких моделей), к одной модели, которая действительно хорошо делает все.

Pathways (и LIMoE) — это мультимодальный подход к решению проблем.

Это описано так:

«Люди полагаются на несколько органов чувств, чтобы воспринимать мир. Это сильно отличается от того, как современные системы ИИ переваривают информацию.

Большинство современных моделей одновременно обрабатывают только одну модальность информации. Они могут воспринимать текст, изображения или речь — но обычно не все три сразу.

Pathways может включать мультимодальные модели, которые одновременно охватывают зрительное, слуховое и языковое понимание».

Что делает LIMoE важным, так это то, что это мультимодальная архитектура, которую исследователи называют «…важный шаг к видению Pathways…

Исследователи описывают LIMoE как «шаг», потому что предстоит проделать большую работу, в том числе изучить, как этот подход может работать с модальностями, помимо изображений и текста.

Этот исследовательский документ и сопровождающая его сводная статья показывают, в каком направлении идут исследования Google в области искусственного интеллекта и как они этого добиваются.


Цитаты

Прочтите сводную статью Google о LIMoE

LIMoE: изучение нескольких модальностей с помощью одной модели с разреженным набором экспертов

Загрузите и прочитайте исследовательскую работу LIMoE

Мультимодальное контрастное обучение с LIMoE: смесь языка и изображения экспертов (PDF)

Изображение Shutterstock/SvetaZi

Кнопка «Наверх»