logo
languageITdown
menu

Come Fare Web Scraping su DuckDuckGo Senza Codice

4 minuti di lettura

DuckDuckGo si distingue nettamente da motori di ricerca come Google e Microsoft Bing. A differenza di questi ultimi, che personalizzano i risultati in base agli utenti, DuckDuckGo protegge la privacy degli utenti ed evita la creazione di “bolle di filtro”, utilizzando API di altri siti per offrire risposte rapide, anziché affidarsi a contenuti provenienti da content farm. Secondo il suo sito ufficiale, DuckDuckGo registra circa 3 miliardi di ricerche mensili e 6 milioni di download al mese.

Vediamo ora come è possibile estrarre i risultati di ricerca di DuckDuckGo in un file Excel, in modo semplice e senza programmare.

Le cose da sapere sul web scraping di DuckDuckGo

È legale fare scraping su DuckDuckGo?

In genere, il web scraping è legittimo, a patto che non vengano raccolti dati privati. Tuttavia, estrarre informazioni da una piattaforma può talvolta violare i Termini di Servizio del sito in questione. Anche se ciò non equivale automaticamente a un reato, la piattaforma potrebbe intraprendere azioni legali per violazione contrattuale. Per sicurezza, leggi sempre i Termini di Servizio prima di iniziare a fare scraping.

DuckDuckGo offre API?

SÌ. Nella sua pagina di assistenza, DuckDuckGo dichiara di incoraggiare gli utenti a utilizzare le sue API ufficiali. In passato, DuckDuckGo offriva un’Instant Answer API. Non si tratta di una vera e propria API dei risultati di ricerca completi, in quanto non include tutti i link.

Tuttavia, al momento non sono disponibili ulteriori dettagli sulle API di DuckDuckGo. Se sei interessato e vuoi saperne di più, dovresti leggere attentamente l’intera pagina di assistenza oppure contattare gli sviluppatori tramite la pagina ufficiale.

Come fare web scraping su DuckDuckGo

In questa sezione troverai istruzioni passo passo per estrarre i risultati di ricerca di DuckDuckGo utilizzando Octoparse, con o senza competenze di programmazione. Ti guideremo attraverso la creazione di un task, la selezione dei dati, la configurazione del flusso di lavoro e l’esecuzione dello scraping, oltre a mostrarti come costruire uno scraper personalizzato in Python. Infine, scoprirai come sfruttare i modelli predefiniti di Octoparse per velocizzare ulteriormente il processo e ottenere dati strutturati in pochi minuti, pronti per essere esportati nei formati più comuni.

4 passaggi per estrarre risultati di ricerca da DuckDuckGo con Octoparse

Invece di utilizzare API, ti mostreremo come estrarre i risultati di ricerca da DuckDuckGo con Octoparse, uno strumento di web scraping facile da usare. Qualsiasi utente, indipendentemente dalle competenze di programmazione, può raccogliere l’intera lista dei risultati di ricerca da DuckDuckGo con Octoparse.

scraper duckduckgo

Se è la prima volta che usi Octoparse, puoi scaricarlo e installarlo sul tuo dispositivo. All’avvio dell’app, ti verrà richiesto di creare un account gratuito per effettuare il login. Una volta effettuato l’accesso, segui i passaggi qui sotto per avviare l’estrazione dei risultati!

Passaggio 1: Creare una nuova attività

Copia e incolla l’URL della pagina dei risultati di ricerca nella barra di ricerca di Octoparse. Poi clicca su “Avvia” per creare un nuovo task. La pagina verrà caricata nel browser integrato di Octoparse in pochi secondi.

Passaggio 2: Selezionare i campi dati desiderati

Una volta che la pagina ha completato il caricamento, clicca su “Rilevamento automatico dei dati della pagina web” nel pannello dei suggerimenti. Octoparse eseguirà la scansione del sito e ti proporrà alcune opzioni di dati da estrarre. I campi rilevati verranno evidenziati sulla pagina per permetterti di verificare se il rilevamento è stato corretto. Puoi anche visualizzare un’anteprima dei dati in basso ed eliminare i campi che non ti interessano.

Passaggio 3: Creare e modificare il flusso di lavoro

Dopo aver selezionato tutti i campi necessari, clicca su “Crea flusso di lavoro”. Apparirà un flusso sul lato destro dello schermo che mostra tutti i passaggi del processo di scraping. Puoi leggerlo dall’alto verso il basso e dall’interno verso l’esterno (nelle azioni annidate). Cliccando su ogni fase, puoi verificarne il corretto funzionamento. Se il flusso non è impostato correttamente, potresti non ottenere alcun dato.

Passaggio 4: Eseguire il task

Clicca su “Esegui” per avviare il task, una volta verificati tutti i dettagli. Hai due modalità di esecuzione disponibili:

  • Locale: ideale per progetti piccoli o per test veloci
  • Cloud: consigliata per task di grandi dimensioni, sfruttando i server Octoparse

Scegli l’opzione più adatta alle tue esigenze e Octoparse farà il resto. Una volta completato il task, potrai esportare i dati in formato Excel, CSV o JSON, a seconda delle tue preferenze.

Modello pre-costruito: il modo più semplice per effettuare lo scraping su DuckDuckGo

Per rendere la tua attività di web scraping più rapida e senza sforzo, Octoparse mette ora a disposizione centinaia di modelli predefiniti che ti permettono di estrarre dati da vari siti web senza alcuna configurazione.

Quando effettui lo scraping dei risultati di ricerca di DuckDuckGo utilizzando il modello predefinito qui sotto, ti basta inserire le parole chiave (fino a 10.000 per esecuzione) che desideri cercare su DuckDuckGo. Dopodiché, Octoparse si occuperà di tutto il resto, fornendoti informazioni aggiornate tra cui titolo, URL del risultato, sito principale e descrizione.

https://www.octoparse.it/template/duckduckgo-scraper

Costruire uno Scraper per DuckDuckGo con Python

Se sai programmare in Python, puoi anche creare uno scraper personalizzato. Ecco un esempio base:

from requests_html import HTMLSession

session = HTMLSession()
response = session.get('https://duckduckgo.com/?q=fus+ro+dah&kl=us-en')
response.html.render()

for result in response.html.find('.links_deep'):
    title = result.find('.js-result-title-link', first=True).text
    link = result.find('.result__extras__url', first=True).text
    snippet = result.find('.js-result-snippet', first=True).text
    icon = f"https:{result.find('img.result__icon__img', first=True).attrs['data-src']}"
    print(f'{title}\n{link}\n{snippet}\n{icon}\n')

Questo codice raccoglie titolo, link, descrizione e icona dei risultati.

Conclusione

DuckDuckGo è una piattaforma in rapida crescita. Sebbene offra alcune API ufficiali, esistono ottime soluzioni alternative. In questo articolo abbiamo illustrato come estrarre risultati di ricerca con Octoparse o creare un crawler con Python. Che tu abbia dimestichezza con la programmazione o meno, puoi scegliere il metodo che preferisci per raggiungere il tuo obiettivo di web scraping.

Ottieni Dati dal Web in Pochi Clic
Estrai facilmente dati da qualsiasi sito web senza codifica.
Download Gratuito

Articoli popolari

Esplora argomenti

Inizia a usare Octoparse oggi

Scarica

Articoli correlati