V našem digitálním světě, kde se každý den objevuje bezpočet nových technologií, se někdy můžeme cítit bezbranní. Kromě nevyžádané reklamy, jsou tu i další paraziti – roboti, kterým říkame AI scrapery. Tito roboti procházejí internetem a sbírají informace, často bez ohledu na to, zda to mají povoleno v souboru robots.txt. Takové chování je nežádoucí, proto vývojáři našli zábavný způsob, jak tyto roboty potrestat – tzv. tarpity.
Tarpity jsou digitální pasti navržené tak, aby zdržely nebo zmátly automatizované boty, které procházejí weby bez povolení. Původně byly vyvinuty jako obrana proti spamu a škodlivému softwaru, ale nyní se adaptují na boj proti AI scraperům, kteří ignorují pravidla uvedená v souboru robots.txt.
Lidé tarpity používají proto, aby chránili svůj digitální obsah. Mnoho stránek má robots.txt soubor, který říká robotům, co mohou a co nemohou dělat. Ale některé AI scrapery tyto pravidla zcela ignorují. Aby jsme tomuto zabránili, lidé musí být zas jednou kreativní.
Jednou z mých oblíbených technik je takzvaný „nekonečný scraping“. Ten spočívá v podstrčení falešných URL adres, které se načítají tak pomalu, aby robota udržely aktivního a přiměly ho pokračovat k další falešné URL adrese. Výsledkem je jakýsi „malware“, který uvězní robota v nekonečné smyčce stahování nesmyslného obsahu.
Cílem je donutit AI scraper, aby se jednou provždy vašemu webu vyhnul. Možná o tom nevíte, ale provozování AI scraperů vyžaduje obrovský výpočetní výkon, který je nejen drahý na pořízení, ale také extrémně nákladný na provoz. A právě to je smyslem techniky „nekonečného scrapingu“ — nutí AI společnosti pálit obrovské množství peněz jen proto, aby zpracovávaly bezcenná data. A vy se můžete dívat, jak shoří do základu.
Je jasné, že roboty nebude možné zastavit úplně — neustále se vyvíjejí a stávají se chytřejšími. Tarpity však představují jeden ze způsobů, jak jim jejich práci alespoň výrazně ztížit. AI scrapery představují problém, ale my lidé máme způsoby, jak se proti nim bránit. Tarpity nejsou jen technickým řešením — jsou i malou odplatou robotům, kteří si myslí, že si na internetu mohou dělat, co chtějí. Tarpit jim má připomenout, že internet je prostor pro všechny a každý má právo na klid.
Možná je na čase, abyste i vy začali přemýšlet nad tím, jak ochránit své stránky před těmito digitálními špehy.
Jak ochránit své stránky před AI scrapery
1. Tarpity
1.1 Nepenthes
Jedním z příkladů je nástroj Nepenthes, pojmenovaný po masožravé rostlině, který generuje nekonzistentní nebo nesmyslný obsah, aby zmátl AI scrapery a zabránil jim ve sběru kvalitních dat. Tento nástroj využívá techniky známé z oblasti kybernetické bezpečnosti, kde se původně používaly k boji proti spamu a škodlivému softwaru.
1.2 AI Labyrinth od Cloudflare
Cloudflare představil nástroj AI Labyrinth, který vytváří síť falešných stránek s generovaným obsahem, čímž odvádí pozornost botů od skutečného obsahu webu. Tento nástroj je navržen tak, aby zmátl AI scrapery a zabránil jim ve sběru kvalitních dat.
Pro více informací si můžete přečíst celý článek na Ars Technica: AI haters build tarpits to trap and trick AI scrapers that ignore robots.txt
2. Otrávení obsahu (Content poisoning)
Content poisoning je technika obrany proti neautorizovanému sběru dat AI nástroji (tzv. web scrapery), která spočívá v záměrném vkládání zavádějících nebo škodlivých informací do obsahu. Cílem je poškodit nebo zmást modely umělé inteligence, které tyto data využívají k tréninku, a tím ochránit originální obsah před zneužitím.
Mnoho AI modelů je trénováno na datech získaných z internetu bez souhlasu autorů. Content poisoning slouží jako forma obrany, která může způsobit, že AI modely budou generovat chybné nebo nesmyslné výstupy, čímž se snižuje jejich spolehlivost a přesnost.
2.1 Jak otrávit texty na webu
Upřímně, použití techniky content poisoning jako obrany proti AI scraperům nedoporučuji. Tato metoda může negativně ovlivnit vaše SEO.
Hlavním problémem je, že nejen škodlivý AI boti, ale i legitimní vyhledávače jako Googlebot procházejí a indexují obsah vašich stránek. Pokud je váš web plný nesmyslného nebo zavádějícího textu, může to vést k penalizaci ve výsledcích vyhledávání. Google klade důraz na kvalitu a relevanci obsahu, stránky s nízkou kvalitou nebo manipulativním obsahem mohou být deindexovány nebo sníženy ve výsledcích vyhledávání.
Uživatelé očekávají kvalitní a relevantní informace, pokud narazí na nesmyslný nebo zavádějící obsah, mohou váš web opustit a hledat informace jinde.
Celkově je důležité najít rovnováhu mezi ochranou vašeho obsahu a udržením dobré viditelnosti ve vyhledávačích. Použití content poisoning může krátkodobě odradit některé AI scrapery, ale dlouhodobě může poškodit vaši online přítomnost a důvěryhodnost.
2.2 Jak „otrávit“ své fotografie proti trénování AI modelů pro rozpoznávání obličejů
V době, kdy algoritmy umělé inteligence dokážou skenovat internet a bez souhlasu využívat vaše fotografie k tréninku modelů pro rozpoznávání obličejů, se objevuje nový druh digitální sebeobrany — takzvané „otrávení fotografií“. Cílem je narušit datovou strukturu snímku tak, aby byla pro AI nepoužitelná, ale pro lidské oko zůstala naprosto nezměněná.
Braňte se !
-
Vaše fotografie může být použita k vytvoření deepfakes nebo falešných identit.
- Nepodporujte trénování systémů, které mohou být zneužity (např. sledovací systémy v nedemokratických i demokratických zemích).
Nástroje a metody, které můžete použít
-
1. Fawkes
Akademický nástroj z University of Chicago. Funkce: Aplikuje malé změny do pixelů fotografie, které nejsou viditelné pro člověka, ale výrazně ovlivní výsledky rozpoznávání obličejů AI systémem (např. Clearview AI, FaceNet apod.). Použití: Jednoduché CLI nebo GUI rozhraní.
Web: https://sandlab.cs.uchicago.edu/fawkes/ -
2. Nenahrávejte fotky
To je ta nejspolehlivější ochrana. Jakmile je vaše fotka jednou veřejně dostupná, můžete nad ní ztratit kontrolu – i když ji později smažete. AI systémy a scrapovací boti ji mohou mít už dávno staženou.
-
3. Nahrávejte falešné nebo upravené fotky
Pokud máte web, kde již máte stovky či tisíce fotek (např. blog, osobní portfolio, galerie), přidávejte záměrně falešné fotky mezi ty reálné. Tyto falešné fotky „otráví“ dataset AI, protože naruší kvalitu trénovacích dat. Použijte tyto „fake“ fotky i jako profilové – AI si neuvědomí, že nejde o reálnou osobu.
Ukázka Fake Galerie