logo
languageITdown
menu

Bypassare i CAPTCHA nel Web Scraping: 5 Fatti Che Dobbiamo Sapere

5 minuti di lettura

Se hai provato ad accedere a un sito web, c’è una buona possibilità che ti sia stato chiesto di inserire alcuni caratteri difficili da leggere. I caratteri illeggibili sono chiamati CAPTCHA. Sono un po’ fastidiosi per gli utenti e spesso fanno impazzire le persone che utilizzano web scraper, poiché sono difficili da gestire per i bot di scraping.

In questo articolo, parleremo di 5 cose che dovresti sapere sui CAPTCHA e ti aiuteremo a capire come bypassarli durante lo scraping.

Cos’è un CAPTCHA

Secondo Wikipedia, CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) è un tipo di test di sfida-risposta utilizzato in informatica per determinare se l’utente è umano o meno. È un modo per rilevare comportamenti robotici dannosi, bloccare i robot e proteggere il sito web da danni.

È comunemente utilizzato in tutto il web, in particolare quando si acquistano prodotti online o si accede a un sito web.

Come Funziona il CAPTCHA

La tecnologia CAPTCHA si basa sul Test di Turing. È utilizzata per verificare se una macchina può agirare sul Web come un essere umano. L’obiettivo del CAPTCHA è porre domande o creare sfide che i computer non sono in grado di risolvere. Di solito mostra una stringa distorta di caratteri o numeri casuali. Funziona perché un essere umano che guarda un’immagine distorta può leggere le parole senza problemi, mentre uno strumento di scraping le riconosce con difficoltà.

Anche il sistema automatizzato più sofisticato, programmato per scansionare un’immagine di testo stampato e leggere le parole, troverebbe comunque difficile identificare le parole quando sono troppo distorte.

Quali Sono i Tipi Comuni di CAPTCHA

I CAPTCHA sono disponibili in diverse dimensioni e tipi. I tipi più comuni di CAPTCHA sono:

  • CAPTCHA basato su testo
  • CAPTCHA basato su immagini
  • CAPTCHA basato su audio
  • ReCaptcha v.s. Captcha

CAPTCHA basato su testo

Un CAPTCHA basato su testo è composto da due parti: una sequenza generata casualmente di lettere e/o numeri che appaiono come un’immagine distorta e una casella di testo per l’input. Per superare il test e dimostrare la tua identità umana, basta digitare i caratteri che vedi nell’immagine nella casella di testo.

text-based captcha

Per elevare il livello di difficoltà del conoscimento per i robot, si hanno creato i codici CAPTCHA matematici, che coinvolgono un problema matematico di base con numeri facili da leggere, e CAPTCHA 3D, che visualizzano i caratteri con un effetto tridimensionale.

captcha matematico
captcha 3d

CAPTCHA basato su immagini

Il CAPTCHA basato su immagini solitamente fornisce agli utenti immagini di oggetti, animali, persone o paesaggi, invece di testo distorto, per distinguere un essere umano da un programma per computer. Gli utenti devono selezionare le immagini corrette che viene chiesto loro di identificare o trascinare un blocco in un’immagine per completarla (un puzzle CAPTCHA).

captcha immagini

CAPTCHA basato su audio

Il CAPTCHA basato su audio utilizza parole o numeri casuali tratti da registrazioni, li combina e aggiunge rumore. Gli utenti devono inserire le parole o i numeri presenti nella registrazione. I CAPTCHA sonori sono più difficili da affrontare rispetto ai CAPTCHA basati su contenuto e immagini, poiché non è facile far apprendere a un bot di scraping come ascoltare.

captcha audio

ReCaptcha vs. hCaptcha

Rispetto ai CAPTCHA, il reCaptcha di Google è ora più ampiamente utilizzato tra i siti web. Ci sono buone ragioni per questo:

  • Per gli sviluppatori, è più facile da configurare e mantenere
  • Il test è più facile da risolvere per gli utenti (a volte quelle lettere contorte possono essere davvero complicate)
  • Il servizio gratuito è disponibile e Google se ne prende cura molto bene

Tuttavia, anche il reCaptcha con una domanda facile può interrompere la navigazione fluida e infastidire l’utente. Quindi arriva il reCaptcha invisibile.

“Il servizio Invisible reCAPTCHA di Google è in grado di differenziare gli umani dai bot senza ulteriori input dall’utente del sito web. reCAPTCHA utilizza un motore di analisi del rischio avanzato e CAPTCHA adattivi per impedire ai software automatizzati di impegnarsi in attività abusive sul tuo sito. Lo fa consentendo ai tuoi utenti validi di passare facilmente.”

—— Citato da InterGen.com

recaptcha

Potresti aver sentito parlare di hCaptcha e chiederti qual è la differenza tra hCaptcha e reCaptcha.

In effetti, reCaptcha è offerto da Google e con il servizio configurato sul tuo sito, ogni volta che i tuoi utenti risolvono un captcha, i dati dell’utente vengono restituiti a Google. Google può utilizzare questi dati per migliorare i propri servizi, ad esempio, insegnando alla macchina a categorizzare le fotografie in modo più intelligente. Tuttavia, può essere sensibile anche in termini di privacy personale.

Hcaptcha è fornito da Intuitive Machine, che è lontana dall’essere un colosso dei dati e afferma di proteggere la privacy degli utenti.

Perché i Siti Web Applicano CAPTCHA

Oggi, l’informatica è diventata pervasiva e i compiti e servizi computerizzati sono comuni, quindi i livelli di sicurezza aumentati sono diventati più importanti. Lo sviluppo di CAPTCHA per i computer serve a garantire che stiano affrontando esseri umani in situazioni in cui l’interazione umana è essenziale per la sicurezza, ad esempio, accedere a un sito web o effettuare pagamenti su Internet.

Il CAPTCHA blocca anche gli spammer e i bot che cercano di raccogliere automaticamente dati online, iscriversi automaticamente a siti web, blog o forum. Protegge i siti web dall’essere invasi da spam, registrazioni fraudolente e altri comportamenti illegali.

Come Gestire i CAPTCHA per il Web Scraping

I CAPTCHA possono facilmente mandare in tilt i crawler che hai impostato una volta che appaiono nel processo di estrazione, quindi risolverli è abbastanza essenziale per il web scraping.

Quindi in primo luogo cerchiamo di evitare di attivare i codici CAPTCHA prendendo i seguenti metodi:

  • Abbassare la velocità dello scraping per rendere i tuoi comportamenti meno robotici
  • Utilizzare server proxy per minimizzare la tracciatura IP
  • Fare attenzione alle trappole honeypot

Quando affronti un CAPTCHA e non vuoi tornare indietro, ci sono modi per risolverlo.

È una buona scelta utilizzare Octoparse, il miglior strumento di web scraping, che è facile da usare e senza necessità di codifica. Ecco i semplici passaggi su come risolvere i CAPTCHA con esso.

1. Risolvere il CAPTCHA manualmente in modalità navigazione durante l’estrazione locale

  • Attiva la modalità navigazione dall’angolo in alto a destra – risolvi il CAPTCHA come faresti in un browser normale – disattiva la modalità Browser per continuare a costruire il tuo flusso di lavoro.

Dopo aver risolto il CAPTCHA in modalità Browser, puoi anche salvare i cookie della pagina corrente per ridurre la possibilità che appaiano di nuovo.

  • Clicca su Vai alla Pagina Web
  • Vai su Opzioni nella sezione Impostazioni e spunta Usa cookie

3. Risolvere il CAPTCHA manualmente durante l’estrazione locale

Se il CAPTCHA appare subito dopo l’avvio dell’esecuzione locale, puoi provare questo trucco.

  • Vai al browser, clicca su Interrompi direttamente
  • Risolvi manualmente il CAPTCHA nella finestra di estrazione
  • Continua l’esecuzione cliccando il pulsante Riprendi nell’angolo in alto a sinistra della finestra di estrazione

Puoi leggere ulteriori dettagli se hai ancora domande su come risolvere i CAPTCHA con Octoparse durante lo scraping.

Per le persone che programmano i propri scraper, ci sono molte risoluzioni di CAPTCHA che possono essere integrati.

  • Death by CAPTCHA: questo servizio consente agli utenti di connettersi al servizio tramite API per risolvere automaticamente i CAPTCHA durante il processo di scraping.
  • Bypass CAPTCHA: questo strumento di risoluzione dei CAPTCHA può gestire normali CAPTCHA di testo e anche reCAPTCHA.
  • 2CAPTCHA: un ottimo fornitore di servizi per aiutarti a risolvere il problema.

I CAPTCHA possono essere un mal di testa doloroso per il web scraping. Ma non ti deve preoccupare. Con ogni generazione di CAPTCHA, c’è ogni generazione di bot. I CAPTCHA sono diventati battibili con l’ascesa degli strumenti di scraping e dei risolutori di CAPTCHA. Puoi goderti lo scraping del web senza impedimenti con l’aiuto di questi strumenti.

Articoli popolari

Esplora argomenti

Inizia a usare Octoparse oggi

Scarica

Articoli correlati