Sin dal lancio di Chat-GPT, imparare come fare web scraping è diventato fondamentale, poiché il mercato ha visto un’ondata di prodotti legati all’IA catturare l’attenzione del pubblico. Mentre entriamo in un’era in cui i robot possono fare il lavoro per noi — semplicemente fornendo dei prompt — la concorrenza nel settore si sta evolvendo rapidamente. Sembra che l’attenzione si concentri meno sulle persone che assumi, ma più sulla velocità con cui adotti i giusti strumenti IA per migliorare l’efficienza e ridurre i costi operativi.

GetCOAI è una di queste aziende dedicate a promuovere l’alfabetizzazione sull’IA. Hanno deciso di creare un portale web aggregatore dove pubblicano una serie di contenuti educativi, notizie, report e tutorial. Nel frattempo, raccolgono tutti gli strumenti IA disponibili sul mercato e scelgono i migliori per insegnare alle persone come ottenere il massimo da soluzioni molto specifiche.
Cos’è un aggregatore di contenuti?
I siti web aggregatori di contenuti sono portali che raccolgono contenuti da altri siti web su Internet e li “aggregano” in un’unica posizione facile da consultare.
La Sfida: estrarre dati da un sito web
Secondo Shane, fondatore di GetCOAI, selezionare gli strumenti IA più appropriati per esigenze specifiche può essere difficile quanto trovare l’abito perfetto per un matrimonio, poiché esistono centinaia, se non migliaia, di assistenti IA online. GetCOAI mira a risolvere questo problema per chi cerca soluzioni IA. Effettuano regolarmente l’estrazione dei prodotti IA online e delle relative informazioni dai loro siti, in particolare i prezzi e le descrizioni dei corsi online per agevolare il monitoraggio prezzi concorrenza e capire cosa offrono, e come.
Tuttavia, anche se si tratta di come fare web scraping in modo semplice, la maggior parte delle volte i siti web sono troppo difficili da scansionare. Per non parlare del fatto che questi siti sono in continua evoluzione e aggiornamento.
“Avevo provato alcuni altri strumenti. Non stavo avendo molta fortuna. Scrivevo il mio codice per estrarre i dati. A volte ci voleva semplicemente un’eternità.”
Ha menzionato Shane durante l’intervista.
La raccolta dei dati è stata il primo passo fondamentale nella costruzione di questo sito aggregatore di strumenti IA, eppure erano ostacolati da problemi tecnici. Poi, un giorno, navigando su Internet si sono imbattuti in Octoparse, che li ha tirati fuori dai guai.
La Soluzione

Per raccogliere efficacemente i dati da diversi siti di prodotti IA, ognuno richiede uno scraper personalizzato e unico. Costruire questi scraper manualmente comporta la scrittura di codice, la configurazione della struttura del sito web e l’impostazione dell’archiviazione dei dati, tutte operazioni che richiedono molto tempo, per non parlare della manutenzione continua necessaria.
È qui che entra in gioco Octoparse con la sua interfaccia point-and-click senza codice. Con la funzione di rilevamento automatico, gli utenti possono selezionare elementi HTML specifici su una pagina web semplicemente cliccandoci sopra. Dato che ci sono diversi tipi di dati su vari siti web, come tabelle, elenchi, articoli di blog e statistiche in tempo reale, Octoparse può gestirli con grande precisione e generare automaticamente il flusso di lavoro per l’estrazione senza che gli utenti debbano scrivere una singola riga di codice. Questi dati possono essere esportati in diversi formati come Excel, CSV, JSON o collegati a un database. Con la velocità e la facilità che Octoparse si impegna a fornire, team come quello di Shane possono estrarre grandi quantità di dati non solo dai siti esistenti, ma anche dai nuovi siti in arrivo.
Per un altro mal di testa, ovvero gli aggiornamenti dei siti web, gli utenti possono modificare da soli il flusso di lavoro dello scraping regolando i moduli delle regole o l’XPath dell’elemento di destinazione, il che solleva dal pesante onere della manutenzione dello scraper. Ogni volta che gli utenti hanno bisogno di supporto per la modifica delle regole o la configurazione, gli esperti di Octoparse sono pronti ad aiutare.
Sebbene Octoparse abbia una curva di apprendimento dovuta alla sua capacità di gestire complesse estrazioni su più siti web, Shane ha trovato il processo gestibile grazie ai tutorial e al team di supporto dedicato. Una volta configurati correttamente i parametri, questi potevano essere riutilizzati più e più volte, accelerando significativamente le operazioni interne e riducendo il carico sulle risorse ingegneristiche.
Con la pianificazione e il servizio cloud, il team di Shane può anche monitorare eventuali cambiamenti nei siti web di questi strumenti IA e riportare le informazioni aggiornate nel proprio database.
Il panorama dei siti web di raccomandazione sull’IA sta diventando sempre più competitivo e Shane vuole conquistare quote di mercato nel modo più rapido possibile. Per raggiungere questo obiettivo, deve disporre di buone politiche e pratiche sui dati. La cosa positiva è che Octoparse garantisce che tutti i dati estratti siano conformi al GDPR, alleviando le preoccupazioni riguardo a pratiche di estrazione non etiche.

È frustrante vedere l’enorme cambiamento in atto sul posto di lavoro e nella società, dove l’IA e gli strumenti di automazione prendono il posto di così tante persone. Prima o poi, le persone dovranno prepararsi per un futuro in cui sarà necessario lavorare con l’IA per ottenere il miglior risultato, ha menzionato Shane. Insieme a Octoparse, GetCOAI può raccogliere abbastanza notizie e risorse sull’IA per supportare il proprio pubblico nell’imminente trasformazione professionale.

Casi di Studio Simili
L’uso dell’estrazione dei dati per arricchire i contenuti web è comune in vari settori. Ad esempio, i siti web aggregatori di offerte di lavoro come Careerone e GradSiren utilizzano Octoparse per estrarre regolarmente annunci di lavoro da bacheche e altri siti. Questi dati vengono poi forniti a chi cerca lavoro o a studenti universitari in cerca di stage. Con Octoparse, possono anche estrarre accuratamente i dettagli del lavoro, come le domande dei colloqui, il che aumenta notevolmente le probabilità di successo nelle candidature.



