The New York Times планирует бороться с удалением контента для обучения ИИ
10 Авг 2023, 16:44

The New York Times планирует бороться с удалением контента для обучения ИИ

Одним из первых примеров использования искусственного интеллекта в новостных редакциях, похоже, является борьба с самим искусственным интеллектом.

Газета The New York Times обновила свои условия предоставления услуг, чтобы запретить извлечение контента для обучения системе машинного обучения или ИИ.

Контент включает, но не ограничивается текстом, фотографиями, изображениями, иллюстрациями, дизайном, аудио-, видеоклипами и метаданными, включая информацию о лице, указанном как поставщик такого контента.

Обновленные условия предоставления услуг также запрещают поисковым работам, позволяющим индексировать страницы в результатах поиска, использовать контент большим языковым моделям или системам искусственного интеллекта. Нарушение этих правил может привести к штрафным санкциям согласно условиям и услугам, хотя пока неясно, как именно они будут выглядеть.

«Большинство шаблонных условий предоставления услуг включают ограничения на извлечение данных, но прямая ссылка на обучение ИИ является новой», — говорит Кэти Гарднер, партнер Gunderson Dettmer.

Издатели, особенно имеющие платную подписку, озабочены тем, что модели искусственного интеллекта подорвут их доходы.

Модели искусственного интеллекта возлагаются на контент и данные, включая журналистские материалы и произведения искусства, защищенные авторским правом, как на основной источник информации для получения результатов. В некоторых случаях этот контент воспроизводится буквально. Издатели, особенно имеющие платную подписку, обеспокоены тем, что модели искусственного интеллекта подорвут их доходы, публикуя переработанный контент без указания авторства, и будут способствовать дезинформации, снижая доверие людей к новостям.

Такие большие языковые модели, как ChatGPT, работают подобно поисковым роботам, которые сканируют контент на сайтах издателей и добавляют свою информацию к результатам поиска. Хотя издатели могут видеть, что их сайты посещают работы, они не могут знать, с какой целью они это делают — для поисковой оптимизации или для обучения моделей искусственного интеллекта.

Хотя такие технологические компании, как OpenAI, не раскрывают, как они тренируют свои модели искусственного интеллекта, The Washington Post проанализировала набор данных Google C4, уменьшенную версию набора данных CommonCrawl, чтобы понять, на чем тренируются модели. Издание нашло доказательства того, что контент из 15 миллионов сайтов, включая The New York Times, использовали для обучения таких LLM-моделей, как LLaMAa от Meta и T5 от Google — языковой модели с открытым кодом, помогающей разработчикам создавать программное обеспечение для переводческих задач.

По словам Криса Педиго, специалиста по взаимодействию с правительством в торговой организации Digital Content Next, членами которой являются The New York Times и The Washington Post, все это побудило других издателей пересмотреть свои условия предоставления услуг.

Пока неясно, как AI компании отреагируют на обновленные условия предоставления услуг, но они заинтересованы в том, чтобы защитить себя от правовых последствий. В результате сейчас ведутся переговоры между АI-компаниями и крупными издательствами по заключению лицензионных соглашений, как, например, соглашение между OpenAI и The Associated Press.

Эти соглашения заключаются прежде всего для того, чтобы компании по искусственному интеллекту могли компенсировать издателям расходы по их контенту. Однако издатели хотят выйти за рамки только финансовых вопросов.

Текущие переговоры касаются того, как цитировать издателей по их контенту, включая такие аспекты, как сноски. В то же время, внимание сосредоточено на создании таких механизмов, как предохранители и процессы проверки фактов в компаниях, занимающихся искусственным интеллектом, чтобы предотвратить создание фактически недостоверного контента со стороны больших языковых моделей.

Расскажите друзьям про новость