Новости трендов

Поиск по 15 миллионам веб-сайтов в наборе данных Google C4.

Использовался ли ваш веб-сайт или контент для обучения систем искусственного интеллекта в рамках набора данных Google C4? Новый инструмент поиска от Washington Post позволяет вам это выяснить.

Почему мы заботимся. Набор данных включает в себя типы веб-сайтов и создателей контента, на которых генеративный ИИ потенциально может негативно повлиять или даже уничтожить, например, новостные и медиа-издатели, блоги и маркетинговые агентства.

Поиск. Новый инструмент поиска можно найти в статье Post Внутри секретного списка веб-сайтов, благодаря которым ИИ, такой как ChatGPT, звучит умнее. Он создал список «на основе того, сколько «токенов» появилось из каждого в наборе данных. Жетоны — это небольшие фрагменты текста, используемые для обработки неорганизованной информации — обычно слова или фразы», ​​— поясняется в статье.

Например, использовалась поисковая система Land.

C4 Searchengineland

Как и Marketing Land (бренд, который больше не существует, но существовал в 2019 году) и Marketing Land Events, на которых размещались наши сайты для конференций SMX и MarTech.

C4 Маркетингленд

И сайт компании-учредителя Search Engine Land, Third Door Media.



C4 Третья дверь

Кроме того, использовался Круглый стол поисковых систем Барри Шварца.

C4 Круглый стол

Только часть данных. Напоминаем, что C4 (что означает Colossal Clean Crawled Corpus) — это только часть данных, используемых Google Bard и другими крупными языковыми моделями. Он также использует Википедию, Reddit и другие источники.

К слову о Реддите. Reddit хочет получать деньги, когда какие-либо компании хотят использовать его данные для обучения моделей ИИ, сообщает New York Times. Reddit обновил свои условия API и теперь будет взимать плату с некоторых компаний (например, Google, OpenAI) за доступ. Сказал генеральный директор и соучредитель Reddit Стив Хаффман:

  • «Свод данных Reddit действительно ценен. Но нам не нужно отдавать всю эту ценность некоторым из крупнейших компаний мира бесплатно. Сканирование Reddit, генерирование ценности и отсутствие возврата этой ценности нашим пользователям — это то, с чем у нас есть проблема. Это хорошее время для нас, чтобы ужесточить ситуацию».

По иронии судьбы, сам Reddit даже не создал ничего подобного. Это сделали его пользователи.


Подборка статей о ИТ компаниях. Обмен опытом. Обучение востребованным профессиям в сфере IT. Маркетинг. Анализ рынка. Полезная информация. Подпишитесь на нас в социальных сетях, что бы не пропустить важное.

Информация для Вас была полезна?
0
0
0
0
0
0
0

Похожие статьи

Кнопка «Наверх»