A cura di Giulio Ellese
Che tu sia un’impresa o un libero professionista, nel caso in cui tu abbia deciso di dotarti di un sito web per fornire maggiori informazioni sulla tua attività, allestire un blog o un forum per diffondere approfondimenti o interagire con la tua “base”, o ancora realizzare un e-commerce, è importante che tu sappia che il tuo asset online potrebbe essere presto o tardi oggetto di “web scraping”.
Il web scraping
Che cos’è il web scraping? Questo termine viene utilizzato per indicare una “raccolta massiva e indiscriminata dei dati presenti su internet, ad opera di un bot”.
Semplificando, essendo che l’Internet si basa su una serie di standard condivisi, dei “web robot” (bot) sono in grado di emulare il comportamento umano durante la navigazione sul tuo sito internet. Questi bot si occupano di raccogliere e analizzare i contenuti, e una loro sottospecie “più arraffona”, detta “web crawler” o “spider” è in grado di scansionare e indicizzare in modo approfondito i contenuti.
Perché dovrebbe interessarci il fatto di essere oggetto di web scraping?
L’importanza di essere più o meno assoggettati a questi bot e al fenomeno del web scraping può avere diverse implicazioni:
- da un lato ci consentono di indicizzare meglio il nostro sito internet nei motori di ricerca
- dall’altro, se non prendiamo le dovute attenzioni, rischiamo di essere un più facile bersaglio da parte di bot malevoli, votati alla conduzione di attacchi informatici in grado di interrompere l’accessibilità al nostro sito web, esporci ad un furto di credenziali, o ancora a frodi digitali,
- inoltre, le informazioni che rendiamo pubblicamente disponibili sul nostro sito potrebbero essere “assorbite” da bot deputati alla raccolta per alimentare i database utilizzati dalle Intelligenze Artificiali Generative.
Una delle possibili conseguenze è che, nel caso il (potenziale) cliente chiedesse un’informazione ad un’Intelligenza Artificiale Generativa per risolvere un problema al quale tu hai la risposta, questa potrebbe essere fornita sulla base del tuo articolo/post/contenuto… ma senza renderti credito, vanificando gli sforzi investiti nella creazione del tuo contenuto.
Che cosa posso fare per tutelarmi dal web scraping?
Lo scorso 20 maggio il Garante per la Protezione dei Dati Personali ha pubblicato un provvedimento denominato “Web scraping ed intelligenza artificiale generativa: nota informativa e possibili azioni di contrasto”.
Tale provvedimento ci ricorda inoltre che, in quanto titolari del sito (sia che ricopriamo il ruolo di soggetti privati, che di enti pubblici), siamo anche titolari dei trattamenti di dati personali che vengono pubblicati (e diffusi al mondo) su quest’ultimo. Per questo motivo dovremmo sempre ragionare sulla legittimità dei nostri fini per cui procediamo a caricare dei dati personali su internet, e sulla sussistenza delle basi giuridiche che stiamo utilizzando per effettuare queste operazioni di trattamento.
Per contrastare il fenomeno del web scraping, il Garante ci suggerisce quindi di:
- Creare sul nostro sito delle aree riservate per prevenire un accesso “diretto” alle informazioni.
I bot deputati alle operazioni di web scraping sono tendenzialmente incapaci di procedere a “registrarsi” per poter proseguire nella lettura dei contenuti “protetti”. Effettua un giusto bilanciamento dei contenuti liberamente accessibili, in quanto se da un lato è “giusto” mettere una barriera tra il tuo sito e i bot, d’altro canto rischi di imporre oneri di registrazione ingiustificati (violando il principio di minimizzazione dei dati nei confronti degli utenti “veri”). - Adotta nella web policy del tuo sito internet delle clausole per disciplinare i termini e condizioni della navigazione sul sito, prevedendo delle clausole “anti web scraping”. Questo anche a tutela del diritto d’autore che ricopre i contenuti ospitati sul tuo sito internet.
- Monitora (o fai monitorare) il traffico rete, in quanto tramite l’analisi delle richieste che pervengono al tuo sito internet sarai in grado di riscontrare eventuali anomalie, indice di un’attività di web scraping.
- Intervieni sui bot, limitando la loro area di azione, tramite l’implementazione di “verifiche” (i famosi CAPTCHA che ci chiedono se siamo un robot), modificando (o facendo modificare) il markup HTML (l’annidamento dei contenuti), o monitorando i file di log per bloccare gli utenti “bot” indesiderati.
- Intervieni sul file “robots.txt” contenuto nella tua pagina web: questo file contiene tutte le istruzioni per le indicizzazioni e istruzioni automatiche da far compiere ai motori di ricerca, operazioni di web scraping incluse.
Tutelare la protezione del tuo sito web, dei contenuti, e dei dati personali che ci carichi può essere un’operazione complessa, ma non temere, Spazottantotto Srl è qui per supportarti. Non esitare a chiederci una consulenza!
Scrivi a [email protected] per presentarci i tuoi dubbi e ricevere assistenza.