The New York Times планує боротись із вилученням контенту для навчання ШІ
10 Сер 2023, 16:44

The New York Times планує боротись із вилученням контенту для навчання ШІ

Одним із перших прикладів використання штучного інтелекту в редакціях новин, схоже, є боротьба з самим штучним інтелектом.

Газета The New York Times оновила свої умови надання послуг, щоб заборонити вилучення контенту для навчання системи машинного навчання або ШІ.

Контент включає, але не обмежується текстом, фотографіями, зображеннями, ілюстраціями, дизайном, аудіо-, відеокліпами та метаданими, в тому числі інформацію про особу, яка вказана як постачальник такого контенту.

Оновлені умови надання послуг також забороняють пошуковим роботам, які дозволяють індексувати сторінки в результатах пошуку, використовувати контент великим мовним моделям або системам штучного інтелекту. Порушення цих правил може призвести до штрафних санкцій згідно з умовами та послугами, хоча поки неясно, як саме вони будуть виглядати.

«Більшість шаблонних умов надання послуг включають обмеження на вилучення даних, але пряме посилання на навчання ШІ є новим», — каже Кеті Гарднер, партнер Gunderson Dettmer.

Видавці, особливо ті, що мають платну підписку, стурбовані тим, що моделі штучного інтелекту підірвуть їхні доходи.

Моделі штучного інтелекту покладаються на контент і дані, включно з журналістськими матеріалами та творами мистецтва, захищеними авторським правом, як на основне джерело інформації для отримання результатів. У деяких випадках цей контент відтворюється дослівно. Видавці, особливо ті, що мають платну підписку, стурбовані тим, що моделі штучного інтелекту підірвуть їхні доходи, публікуючи перероблений контент без зазначення авторства, і сприятимуть дезінформації, знижуючи довіру людей до новин.

Такі великі мовні моделі, як ChatGPT, працюють подібно до пошукових роботів, які сканують контент на сайтах видавців і додають свою інформацію до результатів пошуку. Хоча видавці можуть бачити, що їхні сайти відвідують роботи, вони не можуть знати, з якою саме метою вони це роблять — для пошукової оптимізації чи для навчання моделей штучного інтелекту.

Хоча такі технологічні компанії, як OpenAI, не розкривають, як саме вони тренують свої моделі штучного інтелекту, The Washington Post проаналізувала набір даних Google C4, зменшену версію набору даних CommonCrawl, щоб зрозуміти, на чому тренуються моделі. Видання знайшло докази того, що контент із 15 мільйонів сайтів, включно з The New York Times, використовували для навчання таких LLM-моделей, як LLaMAa від Meta і T5 від Google — мовної моделі з відкритим кодом, яка допомагає розробникам створювати програмне забезпечення для перекладацьких завдань.

За словами Кріса Педіго, спеціаліста з питань взаємодії з урядом у торговельній організації Digital Content Next, членами якої є The New York Times і The Washington Post, усе це спонукало інших видавців переглянути свої умови надання послуг.

Поки неясно, як AI-компанії відреагують на оновлені умови надання послуг, але вони зацікавлені в тому, щоб захистити себе від правових наслідків. Як результат, зараз ведуться переговори між АІ-компаніями та великими видавництвами щодо укладення ліцензійних угод, як, наприклад, угода між OpenAI та The Associated Press.

Ці угоди укладаються насамперед для того, щоб компанії зі штучного інтелекту могли компенсувати видавцям витрати за їхній контент. Однак видавці хочуть вийти за рамки лише фінансових питань.

Поточні переговори стосуються того, як цитувати видавців за їхній контент, включаючи такі аспекти, як виноски. Водночас увага зосереджена на створенні таких механізмів, як запобіжники та процеси перевірки фактів у компаніях, що займаються штучним інтелектом, щоб запобігти створенню фактично недостовірного контенту з боку великих мовних моделей.

Розкажіть друзям про новину

Нове відео