The New York Times планирует бороться с удалением контента для обучения ИИ

10 августа 2023

Одним из первых примеров использования искусственного интеллекта в новостных редакциях, похоже, является борьба с самим искусственным интеллектом.

Газета The New York Times обновила свои условия предоставления услуг, чтобы запретить извлечение контента для обучения системе машинного обучения или ИИ.

Контент включает, но не ограничивается текстом, фотографиями, изображениями, иллюстрациями, дизайном, аудио-, видеоклипами и метаданными, включая информацию о лице, указанном как поставщик такого контента.

Обновленные условия предоставления услуг также запрещают поисковым работам, позволяющим индексировать страницы в результатах поиска, использовать контент большим языковым моделям или системам искусственного интеллекта. Нарушение этих правил может привести к штрафным санкциям согласно условиям и услугам, хотя пока неясно, как именно они будут выглядеть.

Підписуйтесь на наc в Telegram

«Большинство шаблонных условий предоставления услуг включают ограничения на извлечение данных, но прямая ссылка на обучение ИИ является новой», — говорит Кэти Гарднер, партнер Gunderson Dettmer.

Издатели, особенно имеющие платную подписку, озабочены тем, что модели искусственного интеллекта подорвут их доходы.

Модели искусственного интеллекта возлагаются на контент и данные, включая журналистские материалы и произведения искусства, защищенные авторским правом, как на основной источник информации для получения результатов. В некоторых случаях этот контент воспроизводится буквально. Издатели, особенно имеющие платную подписку, обеспокоены тем, что модели искусственного интеллекта подорвут их доходы, публикуя переработанный контент без указания авторства, и будут способствовать дезинформации, снижая доверие людей к новостям.

MRKTNG марафон 2026 — «Підкреслити головне»

Забудь про універсальні правила — їх більше немає. MRKTNG марафон 3 червня 2026 року — про маркетинг у реальному хаосі: коли інструментів більше, ніж ясності, а результат залежить від того, що ти обереш. Твоє місце вже чекає!

У програмі — панельні дискусії про виклики ринку, подкаст просто на сцені, нон-стоп лекції від топів ринку, розбір рішень, нагородження X-RAY і багато нетворкінгу.

Подати заявку

Такие большие языковые модели, как ChatGPT, работают подобно поисковым роботам, которые сканируют контент на сайтах издателей и добавляют свою информацию к результатам поиска. Хотя издатели могут видеть, что их сайты посещают работы, они не могут знать, с какой целью они это делают — для поисковой оптимизации или для обучения моделей искусственного интеллекта.

Хотя такие технологические компании, как OpenAI, не раскрывают, как они тренируют свои модели искусственного интеллекта, The Washington Post проанализировала набор данных Google C4, уменьшенную версию набора данных CommonCrawl, чтобы понять, на чем тренируются модели. Издание нашло доказательства того, что контент из 15 миллионов сайтов, включая The New York Times, использовали для обучения таких LLM-моделей, как LLaMAa от Meta и T5 от Google — языковой модели с открытым кодом, помогающей разработчикам создавать программное обеспечение для переводческих задач.

По словам Криса Педиго, специалиста по взаимодействию с правительством в торговой организации Digital Content Next, членами которой являются The New York Times и The Washington Post, все это побудило других издателей пересмотреть свои условия предоставления услуг.

Пока неясно, как AI компании отреагируют на обновленные условия предоставления услуг, но они заинтересованы в том, чтобы защитить себя от правовых последствий. В результате сейчас ведутся переговоры между АI-компаниями и крупными издательствами по заключению лицензионных соглашений, как, например, соглашение между OpenAI и The Associated Press.

Эти соглашения заключаются прежде всего для того, чтобы компании по искусственному интеллекту могли компенсировать издателям расходы по их контенту. Однако издатели хотят выйти за рамки только финансовых вопросов.

Текущие переговоры касаются того, как цитировать издателей по их контенту, включая такие аспекты, как сноски. В то же время, внимание сосредоточено на создании таких механизмов, как предохранители и процессы проверки фактов в компаниях, занимающихся искусственным интеллектом, чтобы предотвратить создание фактически недостоверного контента со стороны больших языковых моделей.

Знайшли помилку? Виділіть її та натисніть Ctrl+Enter