A caccia di dati sul web
Fare scraping su un qualunque sito non richiede conoscenze specialistiche complesse, viene insegnato nei corsi universitari di Informatica. Ma serve anche per le attività illegali


Periodicamente compaiono notizie su furti di enormi quantità di dati personali presi da Facebook o da altri social media: ci si interroga allora sulle sofisticate tecniche che hanno reso possibile il colpo.
La cattiva notizia è che rubare dati in rete è facilissimo con tecniche di scraping, parola che in italiano si può tradurre raschiatura: una tecnica di estrazione di dati dal web per mezzo di programmi chiamati spider, crawler o semplicemente bot, che simulano la navigazione umana. Questi software sono capaci di leggere nel codice HTML che forma le pagine visualizzate nei browser come Chrome, Explorer o Safari: basta fare ClickDestro|VisualizzaPagina o semplicemente CTRL-U in Chrome per rendersi conto che ogni pagina è scritta in HTML.
Lo scraping non è necessariamente un male ed è anzi molto utile. La maggior parte dei motori di ricerca lo attua per visitare le pagine dei siti e indicizzarle: solo in questo modo l’immensa quantità di informazione in rete diventa fruibile per le ricerche. E i Large Language Models (LLM) che sono alla base della GEN-AI si sono istruiti in rete appunto per mezzo di scraping.
Fare scraping su un qualunque sito non richiede conoscenze specialistiche complesse, viene insegnato nei corsi universitari di Informatica ed è disponibile anche a chi non è un informatico di mestiere per mezzo di programmi che vedremo nella prossima rubrica, semplificano moltissimo gli aspetti tecnici da affrontare, compresa la severa barriera dei Captcha, i codici di protezione delle pagine creati proprio per impedire l’accesso dei bot.
(*) Docente di Big Data Management, MIB Trieste School of Management
Riproduzione riservata © il Nord Est