Стотици издатели блокират достъпа на изкуствен интелект до интернет архиви

Стотици издатели блокират достъпа на изкуствен интелект до интернет архиви

Около 245 глобални новинарски организации в девет държави се опитват да блокират роботите на интернет архива. Това са автоматизирани софтуерни ботове, които улавят, показват и архивират съдържание от уеб страници в публичния интерфейс на интернет архива, Wayback Machine.

Архивът съдържа над един трилион уеб страници, датиращи още от 1996 г., което го прави един от най-големите колективни публични информационни ресурси в света. Това включва минали статии от големи новинарски организации като CNN, The New York Times, The Guardian и USA Today, пише Euronews.

Тези уеб страници се използват за различни цели, например като първични източници за историци или за доказване на промени след публикуване.

Няколко новинарски организации сега настояват да блокират роботите, тъй като компаниите с изкуствен интелект използват съдържанието на архива, за да обучават големи езикови модели (LLM), без да предлагат справедливо заплащане или без разрешение.

Според анализ на компанията за откриване на изкуствен интелект Originality AI, повече от 20 големи новинарски организации вече блокират ia_archiverbot, основния уеб робот, който Интернет архивът използва за Wayback Machine.

Поне един от четирите бота за обхождане на архива е блокиран от 241 глобални новинарски сайта. Голяма част от тези блокирани сайтове са собственост на USA Today Co, най-големият издател на вестници в САЩ. Това означава, че стотици местни публикации са практически премахнати от историческите записи.

Рискове от използването на архивно съдържание за обучение на изкуствен интелект

Архивното новинарско съдържание предоставя огромни количества висококачествен текст и изображения за обучение на мащабни модели на изкуствен интелект в по-човешки стил. Това е достъпно чрез URL и API интерфейс, който позволява на различни софтуери да комуникират помежду си и да изискват данни. Така те действат като мост между системите.

Това улеснява още повече компаниите, които развиват изкуствен интелект, като им дава достъп до архивирани данни и подобрява обучението на модели. Друго предимство е, че съдържанието в интернет архива вече е структурирано, с атрибути и дата.

Голяма част от данните на интернет архива вече са открити в ключови набори от данни за обучение на изкуствен интелект. Това обаче е основна слабост за новинарските организации, които вече съдят компании с изкуствен интелект, като Perplexity и OpenAI, за потенциални нарушения на авторските права.

Други организации предприемат по-консервативен подход, като ограничават, а не блокират напълно достъпа на роботите до архива.

Архивът е предприел собствени мерки, вкл. ограничава големи изтегляния на някои материали и автоматизираното извличане в определени случаи.

Архивът функционира като ключов метод за съхранение. Без това статиите, които не са архивирани, могат да бъдат редактирани без разрешение или отчетност. Това може да бъде всичко - от промяна или премахване на цитати, поправка на грешки или пренасочване на твърдения и официални изявления. В момента тези промени се проследяват от Wayback Machine.

Споделете:

Присъединете се
към 28 783 читатели

ENTERPRISE е прецизно таргетирано B2B печатно издание за практически бизнес и интелигентно управление.