Стотици издатели блокират достъпа на изкуствен интелект до интернет архиви

11.05.2026, 07:08

Около 245 глобални новинарски организации в девет държави се опитват да блокират роботите на интернет архива. Това са автоматизирани софтуерни ботове, които улавят, показват и архивират съдържание от уеб страници в публичния интерфейс на интернет архива, Wayback Machine.

Архивът съдържа над един трилион уеб страници, датиращи още от 1996 г., което го прави един от най-големите колективни публични информационни ресурси в света. Това включва минали статии от големи новинарски организации като CNN, The New York Times, The Guardian и USA Today, пише Euronews.

Тези уеб страници се използват за различни цели, например като първични източници за историци или за доказване на промени след публикуване.

Няколко новинарски организации сега настояват да блокират роботите, тъй като компаниите с изкуствен интелект използват съдържанието на архива, за да обучават големи езикови модели (LLM), без да предлагат справедливо заплащане или без разрешение.

Според анализ на компанията за откриване на изкуствен интелект Originality AI, повече от 20 големи новинарски организации вече блокират ia_archiverbot, основния уеб робот, който Интернет архивът използва за Wayback Machine.

Поне един от четирите бота за обхождане на архива е блокиран от 241 глобални новинарски сайта. Голяма част от тези блокирани сайтове са собственост на USA Today Co, най-големият издател на вестници в САЩ. Това означава, че стотици местни публикации са практически премахнати от историческите записи.

Рискове от използването на архивно съдържание за обучение на изкуствен интелект

Архивното новинарско съдържание предоставя огромни количества висококачествен текст и изображения за обучение на мащабни модели на изкуствен интелект в по-човешки стил. Това е достъпно чрез URL и API интерфейс, който позволява на различни софтуери да комуникират помежду си и да изискват данни. Така те действат като мост между системите.

Това улеснява още повече компаниите, които развиват изкуствен интелект, като им дава достъп до архивирани данни и подобрява обучението на модели. Друго предимство е, че съдържанието в интернет архива вече е структурирано, с атрибути и дата.

Голяма част от данните на интернет архива вече са открити в ключови набори от данни за обучение на изкуствен интелект. Това обаче е основна слабост за новинарските организации, които вече съдят компании с изкуствен интелект, като Perplexity и OpenAI, за потенциални нарушения на авторските права.

Други организации предприемат по-консервативен подход, като ограничават, а не блокират напълно достъпа на роботите до архива.

Архивът е предприел собствени мерки, вкл. ограничава големи изтегляния на някои материали и автоматизираното извличане в определени случаи.

Архивът функционира като ключов метод за съхранение. Без това статиите, които не са архивирани, могат да бъдат редактирани без разрешение или отчетност. Това може да бъде всичко - от промяна или премахване на цитати, поправка на грешки или пренасочване на твърдения и официални изявления. В момента тези промени се проследяват от Wayback Machine.

Споделете:

Препоръчано от автора

Нов данъчен пакет на ЕС намалява бюрокрацията и разходите за компаниите

Сходни статии

Компаниите търсят начин за монетизиране на проекти с изкуствен интелект

Стотици издатели блокират достъпа на изкуствен интелект до интернет архиви

Рискове от използването на архивно съдържание за обучение на изкуствен интелект

Препоръчано от автора

Нов данъчен пакет на ЕС намалява бюрокрацията и разходите за компаниите

Търговецът на инструменти "Евромастер Импорт Експорт" е открил новия си логистичен център край Костинброд

България има отлична интернет инфраструктура, но липсата на дигитални умения забавя цифровата трансформация

От редакциите към алгоритмите: как AI, социалните мрежи и кризата на доверие пренаписват бъдещето на медиите

България намалява въглеродните си емисии, но предизвикателствата остават

Сходни статии

Компаниите търсят начин за монетизиране на проекти с изкуствен интелект

Meta ще позволи на родителите да виждат общи теми, по които децата им питат изкуствения интелект

LinkedIn иска да ограничи обхвата на генерирано от изкуствен интелект съдържание

Изкуственият интелект между правото и човека: Европа задава рамката, България търси посоката

Да, трябва да използвате AI, но трябва да го използвате стратегически

Reddit съди компании за изкуствен интелект, които са източвали данни без разрешение

Печатното издание

Стотици издатели блокират достъпа на изкуствен интелект до интернет архиви

Рискове от използването на архивно съдържание за обучение на изкуствен интелект

Най-четени

Наръчник за кръстосано публикуване: Как да споделяте правилно едно и също съдържание в различни социални медии

Брандът преди мащаба: как компаниите да се подготвят, преди да натиснат бутона за растеж

КЗК е одобрила собственикът на Пощенска банка да купи Telus Tower в София

ЕБВР откри технологичен център в София

България има отлична интернет инфраструктура, но липсата на дигитални умения забавя цифровата трансформация

Препоръчано от автора

Нов данъчен пакет на ЕС намалява бюрокрацията и разходите за компаниите

Търговецът на инструменти "Евромастер Импорт Експорт" е открил новия си логистичен център край Костинброд

България има отлична интернет инфраструктура, но липсата на дигитални умения забавя цифровата трансформация

От редакциите към алгоритмите: как AI, социалните мрежи и кризата на доверие пренаписват бъдещето на медиите

България намалява въглеродните си емисии, но предизвикателствата остават

Сходни статии

Компаниите търсят начин за монетизиране на проекти с изкуствен интелект

Meta ще позволи на родителите да виждат общи теми, по които децата им питат изкуствения интелект

LinkedIn иска да ограничи обхвата на генерирано от изкуствен интелект съдържание

Изкуственият интелект между правото и човека: Европа задава рамката, България търси посоката

Да, трябва да използвате AI, но трябва да го използвате стратегически

Reddit съди компании за изкуствен интелект, които са източвали данни без разрешение

Присъединете секъм 28 783 читатели

Присъединете се
към 28 783 читатели