Thursday, 26 February 2009

Monday, 23 February 2009

Ippopotami e nuvole

Le tags cloud sono un metodo molto efficace per condurre il navigatore attraverso le proprie notizie, informazioni e quant'altro legati ad un preciso argomento, mostrando nel contempo il ventaglio di informazioni disponibili sul sito.

Abbiamo deciso quindi di fornire ai visitatori di unimib.it questa possibilità, e in fase di implementazione stanno emergendo alcune considerazioni non triviali.


Lunghezze
La parola più lunga sul dizionario è "precipitevolissimevolmente", 26 caratteri; pare che la più lunga in italiano sia "hippopotomonstrosequippedaliofobia" (che non è la fobia degli animali grossi e zozzi ma delle parole lunghe e impronunciabili) di 34 caratteri, ma gli si preferisce la più concisa "sesquipedalofobia".

E' ragionevole pensare che non ci sarà mai l'esigenza di una parola così enorme e, comunque, se mai capiterà non sarà la più frequente nel database. La più lunga sul mio blog è "multitexturing" di 14, e le parolone composte impronunciabili sono all'ordine del giorno in informatica.

Dunque, abbiamo calibrato la dimensione massima del font e la larghezza del box adatti ad accogliere una o più parole di 26 caratteri.


Collisioni
Quando si tratta di taggare un contenuto, ognuno la vede alla sua maniera. Non c'è un manuale definitivo a cui attenersi al proposito, e anche solo dover decidere se sia meglio mettere parole singolari o plurali accende dibattiti inestinguibili. Quel che è sicuro è che faremo una lunga opera di persuasione verso i redattori decentrati affinchè scelgano pochi concetti chiari ed evitino frasi o parole multiple.

Quello che ci preoccupa maggiormente, però, è la normalizzazione delle parole. "Università", "università" e "universita" devono in qualche modo essere la controimmagine di una funzione intelligente che sappia riconoscerle e fargli puntare lo stesso entry nel database. Le poche soluzioni che abbiamo trovato comprendono la conversione in minuscolo, l'eliminazione dei caratteri non alfanumerici e un qualche tipo di aiuto AJAX per il redattore, ma tutte e tre non risolvono il fatto che "università" e "universita" punteranno comunque a record differenti. Damn.


Probabilità
La distribuzione di probabilità delle tags è senza dubbio normale: è facile prevedere che ci saranno delle tag con frequenza estrema (convegni, avvisi), ma il grosso starà intorno al valore atteso. Per questa ragione, mi cruccia un po' dover decidere un numero massimo di tags da poter visualizzare: scelta un po' arbitraria, visto che "il grosso" sarà lì nel mezzo della gaussiana. Per ora, comunque, si è deciso che visualizzeremo le prime 40, e forse sono anche troppe per la varietà di parole chiave che abbiamo utilizzato fino a questo momento.