Il web crawling, anche chiamato web scraping, screen scraping o estrazione di dati web, in termini tecnici, è una tecnica del programma del computer utilizzata per grattare enormi quantità di dati dai siti web in cui i dati di formato regolare possono essere estratti ed elaborati in formati strutturati facili da leggere. Come termine di tendenza nell’era dominata dai dati, il web scraping, combinato con il potere dell’automazione, offre un modo scalabile per accedere, classificare, raccogliere, organizzare e analizzare l’enorme quantità di documentazione e dati su web. I moderni scraper web hanno semplificato il processo di estrazione dei dati e quindi ci hanno salvato dal lavoro ripetitivo di copia-incolla.
Per molto tempo, il web crawling è stato considerato una sorta di zona grigia, perché nella maggior parte delle situazioni, le persone usano questa tecnica per prendere dati dalle pagine web senza il consenso del webmaster del sito. Con la crescente prevalenza del web scraping, la legalità di questa tecnica è stata realizzata da sempre più persone. In questo articolo, discuteremo le considerazioni legali del web crawling e come evitare problemi legali mentre si estraggono dati dai siti web.
È legale il Web Crawling?
Iniziamo con la domanda nel titolo. È legale il web crawling? Beh, dipende. C’è molta incertezza riguardo alla legalità del web crawling, inclusi come lo fai, come utilizzi i dati raschiati e le teorie legali e le leggi.
Come si fa il web crawling
In generale, scrapare informazioni pubbliche dai siti web è legale, mentre raschiare i dati dell’account privato solleverà problemi di privacy. Ecco alcuni casi d’uso popolari per mostrare come diverse industrie fanno web scraping in un modo ben accettato.
E-commerce: I rivenditori utilizzano il web scraping per monitorare automaticamente i prezzi del mercato, creare profili di prodotto e raccogliere recensioni dei clienti per l’analisi del sentimento tra diverse piattaforme di shopping online come Amazon e eBay.
Marketing e pubblicità: I creatori di contenuti applicano il web crawling per raccogliere dati da varie piattaforme di social media come Twitter e YouTube per generare nuove idee per il marketing dei contenuti e capire ciò che interessa al pubblico.
Immobiliare: Gli agenti immobiliari grattano gli annunci dai siti di proprietà come Immobiliare.it per aggregare un sacco di dati di ricerca per il confronto. In questo modo, prevedono se il mercato immobiliare decollerà presto o vedranno in quale fascia di prezzo la loro proprietà competere.
Come si usano i dati raccolti
Se stai facendo web crawling per i tuoi scopi, allora è legale in quanto rientra nella dottrina del fair use come la ricerca di mercato e la ricerca accademica. Le complicazioni iniziano se vuoi usare i dati estratti per gli altri, in particolare per scopi commerciali.
Nel 2022, Clearview AI, un fornitore di software di riconoscimento facciale, è stata sanzionata dal Garante della Privacy italiano per aver raccolto e trattato illegalmente dati biometrici di milioni di cittadini europei allo scopo di creare in database di facial recognition enorme. L’azienda ha utilizzato tecniche di scraping per raccogliere le immagini presenti su vari siti internet, tra cui social network e motori di ricerca. Oltre a una muta, l’azienda è stata inoltre obbligata ad interrompere il trattamento dei dati dei cittadini italiani e a cancellare tutte le immagini e i dati associati raccolti in modo illegittimo.
I limiti applicativi in Europa e in Italia
È fondamentale esaminare come il Regolamento Generale sulla Protezione dei Dati (GDPR) dell’Unione Europea e le leggi italiane si relazionano con questa pratica.
Il GDPR, entrato in vigore il 25 maggio 2018, ha cambiato il panorama della protezione dei dati su scala globale. Il Garante ha introdotto nuove regole e regolamenti riguardo alla protezione dei dati personali e alla loro raccolta.
Secondo il GDPR, il parametro più importante per determinare se il web scraping è legale o illegale è il tipo di dati che vengono estratti. Se i dati non sono personali, cioè se non possono essere collegati ad una persona fisica, allora queste informazioni possono essere scrapate liberamente. Se invece i dati sono personali, il web scraping deve seguire i principi del GDPR.
In Italia, la stessa logica si applica. La legge italiana sulla privacy è in linea con il GDPR e mette l’accento sulla trasparenza e sulla necessità di ottenere il consenso quando si raccolgono dati personali.
Un fatto importante da ricordare è che alcuni siti web hanno termini di servizio che proibiscono espressamente il web scraping. La violazione di tali termini può portare a conseguenze legali.
6 consigli per fare web scraping in modo corretto
Nel complesso, la legge sul web scraping è ancora in via di sviluppo e solo ulteriori decisioni dei tribunali e pronunciamenti legali definiranno accuratamente i suoi parametri. Per evitare di essere coinvolti in cause giudiziarie, di seguito una lista non esaustiva di consigli pratici per gli utenti che si occupano di web scraping.
1. Rispetta e segui i Termini di servizio.
Rivedi sempre i Termini di servizio (ToS) del sito web e i file robot.txt prima di acconsentire all’attività di scraping dati dal web scraping. Se possibile, ottieni un permesso preventivo dal proprietario del sito web.
2. Fai data scraping ad un ritmo ragionevole e moderato.
Non essere aggressivo. Dà al sito web “raschiato” un po’ di respiro. Quando fai data mining, dovresti controllare il sito web dentro un intervallo di tempo ragionevole e mantenere sotto controllo il numero di richieste. Evita di avere un impatto negativo sulle operazioni fisiche di un sito web, che potrebbe portare a una richiesta di violazione dei beni o rivendicazioni simili.
3. Monitora e considera qualsiasi azione un sito web prende per limitare il web scraping.
Se un sito web limita chiaramente le tue attività di web scraping con varie misure anti-scraping, come l’uso di CAPTCHA, limiti di frequenza, blocco di indirizzi IP, ecc., devi essere cauto riguardo ai potenziali rischi legali. Sii pronto a fermarti se ti viene chiesto di farlo tramite una lettera di cessazione e desistenza o in altro modo.
4. Evita di raccogliere informazioni personali identificabili.
Considera se qualsiasi dato da raschiare appartiene ai PII dei cittadini dell’UE. Puoi estrarre questi dati solo per uno dei seguenti cinque motivi:
- Consenso – Il consenso del soggetto dei dati
- Contratto – Un contratto con il soggetto dei dati
- Conformità – Necessità di essere in conformità con un obbligo legale.
- Interesse vitale, interesse pubblico o autorità ufficiale – Nell’interesse del pubblico.
- Interesse legittimo – Necessità per altri interessi legittimi
5. Prendi in considerazione se qualsiasi dato da estrarre è protetto dal copyright.
Non scrapare dati protetti da copyright o da brevetto poiché potresti essere coinvolto in una violazione del copyright.
6. Usa i dati ottenuti in modo giusto.
Non condividere i dati raschiati casualmente con gli altri. Usa i dati saggiamente per generare più idee e aiutare a migliorare la tua attività.
Conclusione
Il web scraping di per sé non è illegale, ma le persone devono fare attenzione a come usare questa tecnica anche se ci sono ancora molte aree grigie attorno all’applicazione della legge sul web scraping. Una risposta negativa a tutte le domande ora non dà necessariamente il via libera per procedere con il progetto di scraping in futuro. È saggio restare aggiornati sulle leggi in evoluzione in questo settore. Se sei indeciso se fare scraping su un determinato sito web, un modo più sicuro è consultare un avvocato per un consiglio.
Inoltre, è estremamente importante fare una scelta informata dei tuoi strumenti di web scraping se vuoi ridurre i tuoi rischi legali. Considera l’uso di strumenti di web scraping popolari come Octoparse. Ha una grande base di utenti e elabora o condivide dati solo sulla base dei cinque motivi legali sopra citati. Scarica Octoparse per una prova gratuita di 14 giorni oggi! Ti auguro un viaggio di web scraping più sicuro da ora in poi!