August 06 2007

Co-clustering - Missing Values Experiments

Data la complessità nell’eseguire gli esperimenti con il Co-clustering e al fine di eseguire dei test ben ponderati, ho oggi deciso di eseguire dei test su dataset di dimensioni ridotte per capire la linea da seguire su dataset più complicati.

In riferimento agli esperimenti preliminari già eseguiti, ancora una volta oggetto dei test è l’IRIS data set.

Il test in questione è stato eseguito con lo Squared Euclidean Co-clustering. Nei test preliminari, con tale istanza di Co-clustering si era raggiunta un’accuratezza che oscillava tra l’88% e l’89%.

Nel test di oggi sono stati introdotti missing values nell’IRIS dataset, secondo una politica casuale.

Data la matrice di dati rappresentate il dataset (150 oggetti x 4 attributi), sono stati introdotti, nell’ordine, prima il 5, poi il 10 e poi il 20 per cento di missing values.

Nel primo caso l’accuratezza è stata del 88.667%, praticamente immutata.
Nel secondo caso l’accuratezza è stata del 84%.
Nel terzo caso l’accuratezza è stata del 81%.

Considerando la perdita di informazione introdotta, il Co-clustering ha fornito ugualmente risultati rispettabili, con una perdita di accuratezza non lineare rispetto al numero di missing values introdotti.

In giornata eseguirò altri test simili, per poi ritornare sul Pandora Dataset del prof. Longo e infine passare su un dataset di documenti testuali, come Reuters.

Post a comment

This blog is multi language by p.osting.it's Babel