Un nuovo modello di machine learning rivela quanti bot ci sono su Twitter

Circa il 15 percento degli account Twitter sarebbero falsi.

|
21 marzo 2017, 12:41pm

Circa il 15 percento dei profili attivi su Twitter sono in realtà dei bot: agenti autonomi guidati da algoritmi anziché persone in carne e ossa. Tradotto in numeri spicci, parliamo di 48 milioni di account falsi. Questa percentuale proviene da un'analisi condotta recentemente dagli informatici dell'Università dell'Indiana e dell'Università della California del Sud, in cui è stato usato un framework di machine learning progettato per individuare i bot sulla base di circa un migliaio di caratteristiche utente specifiche. Il lavoro del gruppo è stato riassunto in un paper pubblicato questa settimana su arXiv.

A un primo sguardo, si tratta di un classico problema di classificazione da machine learning. Prendete un paio di proprietà di una certa entità — la lunghezza del nome, l'età dell'account, e il numero di retweet per ora, per esempio — e incrociatele tra le diverse versioni o istanze della suddetta entità insieme a qualche altra proprietà su cui volete ricavare una previsione (se un account sia un bot o un essere umano, in questo caso). Impastate tutto con un po' di buon vecchia algebra, e vi ritroverete in mano un modello astratto di quella certa entità, in relazione al certo aspetto che state cercando di prevedere.

In pratica, questo modello è una formula che potete poi applicare a osservazioni finora invisibili e ottenere una previsione in cambio. Per esempio, se prendete le proprietà discusse poco fa in relazione a migliaia o milioni di account Twitter, dovreste essere in grado di restituire un modello che fa previsioni sulla base delle nuove osservazioni di quelle proprietà. Il machine learning non è altro che una variante particolarmente acuta della statistica.

Ma a contribuire al valore d'interesse di questa nuova ricerca è il numero di caratteristiche usate nel modello di classificazione. Pensate a un account Twitter e poi cercate di farvi venire in mente il numero di modi diversi per descriverlo più alto possibile: numero di follower, età, lunghezza del nome, numero di retweet, numero di tweet, se è verificato o no, lunghezza media dei tweet. Mh. Potrei arrivare a un massimo di 20, tipo. Invece, i ricercatori hanno considerato parametri come "l'entropia delle emoticon positive di un singolo tweet," "l'intervallo di tempo tra due tweet consecutivi," e "la frazione degli utenti [amici] con profilo e foto di default."

Per allenare il loro modello, i ricercatori hanno usato dei dataset disponibili pubblicamente e che contengono 15.000 bot Twitter verificati manualmente e 16.000 account umani verificati. (In altre parole: tutti account prima o poi passati al vaglio da una persona reale, che ha stabilito se fossero umani o bot.) Hanno considerato i 200 tweet più recenti di ogni account, così come i 100 tweet più recenti che menzionano ognuno di questi account. Parliamo di circa 2.6 milioni di tweet generati da bot e di 3 milioni di tweet generati da esseri umani. Usando il modello ricavato, i ricercatori hanno poi classificato 14 milioni di account su Twitter, per scoprire che tra il 9 e il 15 percento di tutti gli account sono molto probabilmente dei bot.

I ricercatori sottolineano la necessità di operare una certa cautela, però. "Per prima cosa, non escludiamo la possibilità che certi bot particolarmente sofisticati possano sistematicamente sfuggire al giudizio di un annotatore umano," scrivono gli autori. "Questi bot complessi possono essere attivi su Twitter, e quindi presenti nei nostri dataset, e magari essere stati etichettati erroneamente come persone, il che rende questo 15 percento una stima per difetto. In seconda istanza, ci sono sempre più elementi che suggeriscono la presenza sui social media di account ibridi bot-persona, (alle volte definiti come cyborg), che eseguono azioni automatizzate sotto la supervisione di una persona. Alcuni di questi sarebbero stati utilizzati con fini di reclutamento e propaganda terroristica. Resta da capire come questi account dovrebbero essere etichettati, e quanto siano pervasivi."

Twitter stesso ha stimato che circa l'8,5 percento dei suoi utenti "utilizzi applicazioni di terze parti che avrebbero contattato automaticamente i nostri server per aggiornamenti regolari senza alcuna azione aggiuntiva che possa essere riconosciuta come proveniente da un utente," stando a un recente filing FEC. L'azienda non ha fornito commenti ulteriori relativamente ai propri metodi di classificazione o allo studio attuale.

Vale la pena specificare che non tutti i bot sono intrinsecamente un male. Ci sono molti bot che non hanno nessuna pretesa di passare per persone e si limitano a fornire notifiche di emergenza automatiche o a ricoprire ruoli di customer service. Per quanto lo studio suddivida i tipi di bot in macroaree diverse — bot di PR, bot che pubblicano link, account di spam senza follower, i cyborg citati poco sopra — non è del tutto chiaro dove si posizionino i bot di servizio benevoli nell'ecosistema generale.