Molte informazioni vengono presentate sotto forma di tabella nelle pagine web. Tuttavia, può essere piuttosto difficile memorizzare i dati sui computer locali per un accesso successivo. Il problema è che i dati sono incorporati nell’HTML, che non è disponibile per il download in un formato strutturato come CSV. Lo scraping web è il modo più semplice per ottenere i dati sul tuo computer locale.
In questo articolo, puoi imparare 4 modi per scaricare tabelle dai siti web sia con la codifica che senza.
Estrarre Dati dalla Tabella Senza Codifica
Octoparse è un potente strumento di web scraping che può aiutarti ad estrarre dati su larga scala in breve tempo. Octoparse è facile da utilizzare. Utilizzando trascinamenti e rilasci, puoi facilmente creare un flusso di lavoro che estrae le informazioni di cui hai bisogno da qualsiasi sito web. È ampiamente utilizzato tra venditori online, marketer, ricercatori e analisti di dati. Diamo un’occhiata a come estrarre dati da una tabella in dettaglio utilizzando la modalità avanzata di Octoparse.
Passaggi per Estrarre Dati dalla Tabella con Octoparse
Prima di tutto, devi scaricare Octoparse e avviarlo, e anche creare un account gratuitamente.
Passaggio 1: Cliccare su Attività personalizzate per avviare un nuovo progetto.
Passaggio 2: Inserire l’URL di destinazione nella casella e fare clic su “Inizia” per aprire il sito web nel browser integrato di Octoparse.
Passaggio 3: Estrapolare la tabella con i seguenti clic.
a) Fare clic sulla prima cella nella prima riga della tabella
b) Cliccare sull’icona di espansione nel pannello dei suggerimenti fino a quando l’intera riga è evidenziata in verde (di solito il tag dovrebbe essere TR)
c) Fare clic su “Seleziona tutti gli elementi simili” nel pannello dei suggerimenti, poi cliccare su Estrai dati
Passaggio 5: Estrarre i dati e scaricali in qualsiasi formato di file desiderato.
Con i 5 passaggi sopra, siamo in grado di ottenere il seguente risultato.
Poiché è stata aggiunta la funzione di paginazione, l’intero processo di scraping diventa più complicato. Tuttavia, dobbiamo ammettere che Octoparse è migliore nel gestire lo scraping di dati in blocco.
E la parte più sorprendente è che non abbiamo bisogno di sapere nulla di programmazione. Detto questo, sia che siamo programmatori o meno, possiamo creare il nostro “crawler” per ottenere i dati necessari da soli. Per ottenere ulteriori conoscenze sullo scraping di dati da una tabella o un modulo, fare riferimento alla guida dettagliata su Come estrarre dati da una tabella o 3 metodi per esportare una tabella HTML su Excel.
Google Sheets per Estrarre Informazioni dalla Tabella
In Google Sheets, c’è una grande funzione chiamata Import Html che è in grado di estrarre dati da una tabella all’interno di una pagina HTML utilizzando un’espressione fissa, =ImportHtml (URL, “tabella”, num).
Come Usare Google Sheets per Estrarre Dati dalla Tabella
Passaggio 1: Apri un nuovo foglio di lavoro di Google e inserisci l’espressione in una cella vuota. Apparirà una breve introduzione della formula.
Passaggio 2: Inserisci l’URL (ad esempio: https://en.wikipedia.org/wiki/Forbes%27_list_of_the_world%27s_highest-paid_athletes) e regola il campo indice se necessario.
Con i 2 passaggi sopra, possiamo ottenere la tabella estratta su Google Sheets in pochi minuti. Ovviamente, Google Sheets è un ottimo modo per aiutarci a estrarre tabelle direttamente su Google Sheets. Tuttavia, c’è un limite evidente. Sarebbe un compito noioso se pianifichiamo di estrarre tabelle su più pagine utilizzando Google Sheets. Di conseguenza, è necessario un modo più efficiente per automatizzare il processo.
Linguaggio R (utilizzando il pacchetto rvest) per Estrarre la Tabella
In questo caso, utilizzo anche questo sito web, https://www.babynameguide.com/categoryafrican.asp?strCat=African come esempio per presentare come estrarre tabelle con rvest.
Prima di iniziare a scrivere i codici, è necessario conoscere alcune grammatiche di base sul pacchetto rvest.
html_nodes(): Seleziona una parte particolare in un certo documento. Possiamo scegliere di utilizzare i selettori CSS, come html_nodes(doc, “table td”), o i selettori xpath, html_nodes(doc, xpath = “//table//td”)
html_tag(): Estrae il nome del tag. Alcuni simili sono html_text(), html_attr() e html_attrs()
html_table(): Analizza le tabelle HTML ed estraele nel framework R.
Oltre a quanto sopra, ci sono ancora alcune funzioni per simulare i comportamenti di navigazione umana. Ad esempio, html_session(), jump_to(), follow_link(), back(), forward(), submit_form() e così via.
In questo caso, è necessario utilizzare html_table() per raggiungere il nostro obiettivo, estrarre dati da una tabella.
Scarica R (https://cran.r-project.org/) prima.
Passaggi per Utilizzare R per Estrarre Dati dalla Tabella
Passaggio 1: Installare rvest.
Passaggio 2: Iniziare a scrivere codici con i seguenti punti chiave inclusi.
Library(rvest): Importa il pacchetto rvest
Library(magrittr): Importa il pacchetto magrittr
URL: L’URL di destinazione
Read HTML: Accedi alle informazioni dall’URL di destinazione
List: Leggi i dati dalla tabella
Passaggio 3: Dopo aver scritto tutti i codici nella penalità di R, fai clic su “Invio” per eseguire lo script. Ora possiamo avere immediatamente le informazioni sulla tabella.
Estrarre la Tabella dal Sito Web con Python
Python è un linguaggio di programmazione ad alto livello ampiamente utilizzato per la programmazione generale e lo scraping di dati. Come linguaggio interpretato, Python ha una filosofia di design che enfatizza la leggibilità del codice e una sintassi che consente ai programmatori di esprimere concetti in meno righe di codice rispetto a quanto potrebbe essere utilizzato in linguaggi come C++ o Java. Utilizzare Python per estrarre dati da una tabella/forma è un buon metodo se sei un programmatore o se sei bravo nella programmazione.
Ci sono molte librerie e moduli Python che puoi utilizzare per estrarre i dati da una tabella. Controlla i link di seguito per apprendere i dettagli su come utilizzare Python nello scraping dei dati da una tabella/forma.
Come estrarre Tabelle Da Qualsiasi Sito Web Utilizzando Python
Sembra che non richieda meno sforzo utilizzare uno strumento di web scraping che scrivere poche righe di codice per estrarre dati dalla tabella. In realtà, la programmazione ha una curva di apprendimento ripida che aumenta la soglia per le persone, in generale, per entrare nel vero potere dello scraping web. Questa situazione rende più difficile alle persone che non lavorano nell’industria tecnologica ottenere un vantaggio competitivo nel sfruttare i dati web.
Spero che il tutorial sopra ti aiuti a avere un’idea generale di come uno strumento di web scraping possa aiutarti a ottenere lo stesso risultato di un programmatore con facilità.