Rilevamento di link spam basato sulla stima di massa
Le link farm (spam farm) sono dei web host che raccolgono link a pagine web spam, in modo da aumentare il PageRank delle pagine collegate. Dato che una pagina spam non viene linkata dal “popolo” di Internet, in quanto ritenuta inutile; ci sono due modi per aumentare il PageRank di una pagina spam: avere un elevato numero di link entranti da pagine con basso PR oppure avere pochi link segnalati da pagine con elevato punteggio.
Si preferisce il primo metodo perché è il più economico. Ad esempio è risaputo che ottenere un PR pari a 2 è relativamente facile più o meno una decina di link da altre pagine con basso PR (basso PageRank significa PR>4), mentre ottenere un punteggio 8 può richiedere un migliaio di link, non di certo una sessantina di link da pagine con PR basso.
Quindi creare molte farm collegate fra loro spesso su hosting gratuiti che spingano un migliaio di siti è moderatamente economico.
Acquistare un link su un sito con un alto punteggio, innanzitutto, costa e poi non ne serve certamente uno, ma una bel gruppetto. Creare un sito, coltivarlo per raggiungere un PR alto per poi inserirlo in un circuito farm è estremamente costoso.
Così è possibile che una pagine spam raggiunga un PageRank elevato con degli escamotages che vanno oltre l’intenzione di dare credito alle pagine considerate più importanti e significative.
Per questo i motori di ricerca hanno già applicato delle contromisure per azzerare e penalizzare gli abusi e le farm.
Un metodo abbastanza spartano per risolvere il problema sta nel creare due gruppi disgiunti di pagine: uno racchiude quelle fidate (senza spam), l’altro con le pagine ritenute spam. Per determinare se una pagina non inclusa nell’insieme contiene spam si contano i link entranti. Se sono maggiori quelli dalle pagine rispettabili che dalle spam , la pagina è considerata come fidata, altrimenti viene collocata nel mucchio delle pagine spam. La quantità di PageRank accumulato da una pagine attraverso i link inseriti nelle pagine spam è detta spam mass.
Un alternativa al precedente metodo di classificazione consiste nel calcolare il PR apportato dalle pagine nel gruppo fidato e in quello spam. Se il punteggio fornito dalle pagine rispettabile è maggiore dello spam mass, la pagina viene messa assieme alle pagine fidate.
Il crescere delle farm e della diffusione capillare dello spamming hanno reso inefficaci le contromisure sopraelencate.
Oltre ai link inseriti nelle link farm, gli spammer riescono a introdurre link in pagine fidate. In alcuni casi l’autore di queste pagine fidate può non essere volontariamente consapevole di favorire lo spamming.
Ecco alcune situazioni di spam linking.
Blog, forum o guestbook dove gli spammer aggiungono commenti o firme che includono link spam. In parte risolvibile dall’amministratore dei siti fidati inserendo tag no follow nei commenti e vietando l’inserimento di link nelle firme dei post.
Gli spammer acquistano domini che sono da poco scaduti ma che hanno una buona reputazione e popolarità. In questo modo possono approfittare dei link che puntano verso il dominio.
Gli spammer creano honey pot, una pagina che offre informazioni di valore ma che in modo celato è parte di una link farm. Utenti inconsapevoli possono inserire un collegamento verso l’honey pot, senza capire che il loro link favorisce gli spammer. Questa tecnica si basa sulla creazione ( o generazione) di contenuti. E’ molto difficile da rilevare.
Gli autori delle pagine fidate non sono intenzionalmente promotori di spam, dunque è controproducente penalizzare questi siti usando i due metodi antecedenti.
Come fa una pagina ad trovarsi nell’insieme fidato?
L’insieme viene inizialmente riempito manualmente. Vengono scelti da persone in carne ed ossa una serie di siti fidati.
Nei laboratori di Yahoo sono state fatte alcune sperimentazioni sulla determinazione dei due gruppi.
Molti siti fidati scelti sono stati prelevati da una directory gestita da utenti. Altri sono: siti di università (parecchi domini .edu), siti governativi statunitensi (.gov).
La lista dei siti spazzatura di partenza è quella che ogni motore di ricerca ha già raccolto nelle rilevazioni delle pagine spam.
La relative spam mass di una pagina è una parte del suo PageRank ottenuto dalle pagine spam che la linkano.
Il metodo si basa sul modello “spartano” già enunciato, sebbene vi siano alcune differenze e miglioramenti.
Una pagina con pochissimo PageRank (es 1) può essere esclusa dal calcolo siccome una piccola quantità di PR non dà benefici agli spammer. Inoltre le pagine spam hanno generalmente un PR maggiore di 2. Quindi è possibile escludere le pagine con basso punteggio dal calcolo per il rilevamento dello spam di massa.
Se un sito fidato viene linkato da una pagina spam, la sua relative spam mass è molto minore di quando potrebbe essere se il sito fosse non fidato (non necessariamente deve far parte di quelli spazzatura).
Naturalmente il fattore di relative spam mass deve essere mitigato, poiché si potrebbero creare delle spam farm per sfavorire dei siti bersaglio.
Anche con questo sistema tra le pagine fidate sono state riscontrate, manualmente, delle pagine che contengono spam nonostante siano veramente poche. Questo sta a significare che pure pagine che verrebbero considerate rispettabili sono finite nella spazzatura.
Per esempio tra lo spam è finito sia il dominio adobe.com, questo è dovuto a un grandissimo numero di link al programma Adobe Acrobat Reader, sia macromedia.com