Использовался ли ваш веб-сайт или контент для обучения систем искусственного интеллекта в рамках набора данных Google C4? Новый инструмент поиска от Washington Post позволяет вам это выяснить.
Почему мы заботимся. Набор данных включает в себя типы веб-сайтов и создателей контента, на которых генеративный ИИ потенциально может негативно повлиять или даже уничтожить, например, новостные и медиа-издатели, блоги и маркетинговые агентства.
Поиск. Новый инструмент поиска можно найти в статье Post Внутри секретного списка веб-сайтов, благодаря которым ИИ, такой как ChatGPT, звучит умнее. Он создал список «на основе того, сколько «токенов» появилось из каждого в наборе данных. Жетоны — это небольшие фрагменты текста, используемые для обработки неорганизованной информации — обычно слова или фразы», — поясняется в статье.
Например, использовалась поисковая система Land.
Как и Marketing Land (бренд, который больше не существует, но существовал в 2019 году) и Marketing Land Events, на которых размещались наши сайты для конференций SMX и MarTech.
И сайт компании-учредителя Search Engine Land, Third Door Media.
Кроме того, использовался Круглый стол поисковых систем Барри Шварца.
Только часть данных. Напоминаем, что C4 (что означает Colossal Clean Crawled Corpus) — это только часть данных, используемых Google Bard и другими крупными языковыми моделями. Он также использует Википедию, Reddit и другие источники.
К слову о Реддите. Reddit хочет получать деньги, когда какие-либо компании хотят использовать его данные для обучения моделей ИИ, сообщает New York Times. Reddit обновил свои условия API и теперь будет взимать плату с некоторых компаний (например, Google, OpenAI) за доступ. Сказал генеральный директор и соучредитель Reddit Стив Хаффман:
- «Свод данных Reddit действительно ценен. Но нам не нужно отдавать всю эту ценность некоторым из крупнейших компаний мира бесплатно. Сканирование Reddit, генерирование ценности и отсутствие возврата этой ценности нашим пользователям — это то, с чем у нас есть проблема. Это хорошее время для нас, чтобы ужесточить ситуацию».
По иронии судьбы, сам Reddit даже не создал ничего подобного. Это сделали его пользователи.
Подборка статей о ИТ компаниях. Обмен опытом. Обучение востребованным профессиям в сфере IT. Маркетинг. Анализ рынка. Полезная информация. Подпишитесь на нас в социальных сетях, что бы не пропустить важное.
Специальная подборка для Вас