C’è un Web chiuso nel nostro futuro? sempre più numerosi sono i siti che scelgono di limitare l’accesso dei crawler per proteggere i propri contenuti dall’utilizzo senza reciprocità da parte dell’intelligenza artificiale, esiste il rischio che il Web diventi più segmentato e meno aperto. Ciò potrebbe limitare il flusso di informazioni e innovazione, mettendo in discussione l’etica fondamentale di un Internet aperto e collaborativo scrive AI Secrets.
ll file “robots.txt”, ricorda, è frutto di un accordo fondamentale ma informale che da decenni regola le attività di web crawling su Internet. Inizialmente creato per gestire l’accesso di web crawler o “robot” benigni ai siti web, il sistema si basa sul rispetto reciproco e sulla cooperazione tra amministratori web, sviluppatori e creatori di crawler.
Tuttavia, i rapidi progressi nell’intelligenza artificiale e il suo vorace bisogno di dati hanno messo a dura prova questo protocollo tradizionale, portando a preoccupazioni sull’utilizzo dei dati, sul rispetto per i creatori di contenuti originali e sull’equo scambio di valore su Internet.
Sviluppato all’inizio degli anni ’90 da Martijn Koster e colleghi, il file robots.txt era un modo semplice ed efficace per i proprietari di siti web di comunicare quali parti del loro sito erano vietate ai web crawler. Questo protocollo ha contribuito a prevenire problemi operativi come il sovraccarico del server dovuto a una scansione eccessiva e ha consentito ai siti Web di controllare la visibilità e l’utilizzo dei propri contenuti.
Inizialmente progettati per scopi benigni come l’indicizzazione del web per i motori di ricerca o l’archiviazione, i web crawler sono diventati più potenti e numerosi, con aziende come Google, Microsoft e Amazon che li utilizzano per organizzare e monetizzare i contenuti Internet. L’avvento dell’intelligenza artificiale ha introdotto nuovi tipi di crawler che raccolgono dati per addestrare modelli complessi, sollevando nuove sfide.
Ma l’emergere dell’intelligenza artificiale ha ribaltato la tradizionale relazione di dare e avere stabilita da robots.txt. Molti fornitori di contenuti ora considerano la raccolta dei dati dell’intelligenza artificiale come un affare unilaterale, in cui il loro contenuto viene utilizzato per addestrare modelli di intelligenza artificiale senza compenso o riconoscimento diretto, portando a una rivalutazione dell’accesso concesso ai crawler.
Ne sono derivate crescenti tensioni e sfide legali: l’uso unilaterale dei contenuti web da parte delle società di intelligenza artificiale per la formazione di modelli senza un chiaro compenso o consenso ha portato a sfide legali ed etiche, con organizzazioni importanti come la BBC e il New York Times che hanno adottato misure per bloccare specifici crawler e avviare azioni legali contro le aziende di intelligenza artificiale.
Si avverte, scrive ancora AI Secrets, la necessità di nuova governance e standard: il tradizionale protocollo robots.txt, sebbene fondamentale, potrebbe non essere più sufficiente nell’era dell’intelligenza artificiale. C’è una crescente richiesta di meccanismi di controllo più dettagliati che soddisfino le complessità dei casi d’uso dell’intelligenza artificiale, portando a discussioni sulla formalizzazione di nuovi standard e pratiche per la gestione dei crawler.