Venerdì 17 Gennaio alcuni studenti delle classi quinte degli indirizzi di Informatica e Telecomunicazioni hanno partecipato al secondo stage formativo presso l’Università degli studi dell’Insubria, il tema sono stati i Big Data.
I Big Data permettono di attuare un modello di marketing diverso dalla classica pubblicità generica, cioè la campagna micro-orientata direttamente verso il consumatore: una campagna di questo tipo utilizza i dati ricevuti per profilare una persona ed offrire annunci pubblicitari specifici per la persona profilata.
Esempi di Big Data: Scansioni di documenti governativi, telemetria delle auto, dati finanziari, stream broadcast audio, chat, social network, contenuto di pagine web, immagini satellitari, GPS.
Che cosa distingue i Big Data dai dati normali?
- Volume: I Big Data sono prodotti in quantità enormi che tendono ancora ad aumentare, si pensi che nel 2014 sono stati prodotti 650 Exabytes di dati;
- Velocità: I dati sono prodotti molto velocemente ed elaborati in tempo reale;
- Varietà: I dati raccolti derivano da molteplici fonti e sono di diversa natura, dagli smartphones al battito cardiaco del proprio smartband; anche gli elettrodomestici stanno diventando delle fonti di Big Data grazie all’ Internet of Things;
- Variabilità: I dati raccolti potrebbero essere non consistenti a causa di diverse variabili.
- Veridicità: Per le legislazioni i dati devono essere anonimi, ma c'è il rischio che non siano attendibili.
- Complessità: La complessità delle operazioni sui Big Data è direttamente proporzionale alla loro mole, la loro eterogeneità e la velocità di elaborazione richiesta.
Una volta definiti i Big Data bisogna porsi alcune domande:
- Da dove recuperare i Big Data:
- Il web è una fonte enorme di dati eterogenei, però rischiano di essere ripetitivi e non attendibili.
- Come memorizzarli:
- I Database relazionali comunemente utilizzati non sono adatti a causa della loro rigidità, sono nati quindi dei linguaggi No-SQL come JSON (https://www.w3schools.com/js/js_json_intro.asp)
- Come elaborarli per avere una risposta in real time:
- L'elaborazione è basata su modelli statistico-matematici.
- Come utilizzarli:
- Esistono tantissime nuove opportunità per sfruttare questi dati, di seguito sono elencati alcuni esempi.
CAMPAGNA POLITICA
La campagna politica di Fabio Pizzul per le elezioni regionali del 2013, sulla scia della campagna politica di Obama, ha sfruttato i Big Data ricavati dai social per profilare gli elettori e mostrare ad ognuno di essi le proposte del candidato più affini alle loro idee. In quelle elezioni Pizzul ha aumentato i suoi voti da 8000 a 11000.
MOVIMENTI DELLA POPOLAZIONE
Vodafone ha sviluppato un progetto che grazie ai sistemi GSM dei telefoni può mappare in tempo reale il movimento delle persone a Milano, i vantaggi in confronto al GPS sono i maggiori dati ricevuti dalle strade secondarie e la possibilità di mappare l'utilizzo della metropolitana grazie alle picocelle telefoniche. Questo sistema permette di studiare la viabilità e migliorarla nelle vie più trafficate; prima di questo sistema Milano svolgeva un sondaggio telefonico per domandare quali strade utilizzassero i cittadini.
STIMA DEI DANNI A UN'AUTOMOBILE
Questo sistema sfrutta i Big Data per insegnare a un'intelligenza artificiale come capire l'entità dei danni subiti da un'automobile, quindi il sistema deve comprendere il modello di automobile, i componenti danneggiati e conoscere i loro prezzi di mercato.
RELAZIONE TRA BIG DATA E INTELLIGENZE ARTIFICIALI
Una macchina apprende da Esperienza E, rispetto ad una classe di problemi T ed una misura di prestazioni P. Se le sue prestazioni (misurate da P) sui problemi in T migliorano con l’esperienza E. L'esperienza E è composta dai Big Data, quindi i Big Data possono essere utilizzati per istruire modelli di intelligenze artificiali. Alcuni esempi:
RANKING DI URL E PAGINE WEB
Problemi T: a fronte di query su un motore di ricerca, determina il “giusto” ordinamento di sequenza di url di risposta.
Misura di prestazioni P: quantità e qualità di url mal posizionate nel ranking.
Esperienza E: database di query e svariate sequenze di url ben ordinate da utenti umani (https://neilpatel.com/it/strumento-di-analisi-seo/).
CLASSIFICAZIONE DI TESTI
Problemi T: riconoscimento e classificazione di un corpus di documenti in un insieme di categorie predefinite.
Misura di prestazioni P: percentuali di documenti correttamente classificati.
Esperienza E: Documenti già classificati da umani (so.kmi.open.ac.uk/classify).
INFLUENCER
Problemi T: definire un influencer.
Misure di prestazioni P: dati utili per definire l'influenza di una persona.
Esperienza E: utenti già profilati e relazioni già osservate (www.ninjalitics.com).
EMOJI NEL MONDO REALE
Problemi T: classificare un’immagine tramite un'emoji.
Misura di prestazioni P: percentuale di immagini corrette classificate.
Esperienza E: un insieme di immagini reali per ogni emoji presente (emojiscavengerhunt.withgoogle.com).
Se siete interessati a vedere alcuni Big Data in tempo reale potete visitare bigdata.stratebi.com e selezionare varie demo.
Haroun Rossini