In the section Documents is available for download the PDF with the configurations used for tests and related results; is also available the ZIP archive containing the data-sets used for the experiments.
Category Archives: Bregman
Co-clustering – Synthetic Dataset Test #1
Macchina usata:
PowerPC G4, 1.5GHz, 768MB RAM, Mac OS X
Software usato:
Dataset usato:
Il dataset usato in questo test è un dataset sintetico, generato grazie a
Il dataset è così composto:
Oggetti: 1000
Attributi: 10
Classi: 5, per un totale di 888 punti (Cluster 0: 327, Cluster 1: 134, Cluster 2: 162, Cluster 3: 132, Cluster 4: 133)
Punti di disturbo: 112 (punti non classificabili)
Algoritmo di co-clustering usato: Euclidean Distance Based, Minimum Sum Squared, Information Theoretic
Problemi: Da questo primo test condotto su un dataset disturbato, lo schema di co-clustering sembra non essere pensato per identificare il rumore e separarlo dal resto della classificazione, col risultato che tutte le istanze di co-clustering tendono a classificare il rumore in una delle cinque classi richieste, sfalsando i risultati.
Eliminazione punti di rumore: Eliminando i punti di rumore, abbiamo ottenuto un dataset di 888 punti e l’algoritmo (Euclidean Distance Based, con 5 co-cluster richiesti) ha separato perfettamente le 5 classi senza alcun errore in un tempo così espresso:
User = 0 second(s) 138552 ms
System = 0 second(s) 6630 ms
Time/Run = 0.138552 second(s)
Co-clustering – Real World Dataset Test #2
Macchina usata:
PowerPC G4, 1.5GHz, 768MB RAM, Mac OS X
Software usato:
Dataset Usato:
Mushrooms Database
Number of instances: 8124
Number of Attributes: 22
2480 missing values for attribute #12
Original Class Distribution: edible: 4208 (51.8%), poisonous: 3916 (48.2%)
Mushroom records drawn from The Audubon Society Field Guide to North
American Mushrooms (1981). G. H. Lincoff (Pres.), New York: Alfred A. Knopf
Donor: Jeff Schlimmer (Jeffrey.Schlimmer@a.gp.cs.cmu.edu)
Date: 27 April 1987
Algoritmo di co-clustering usato: Minimum Sum Squared Residue
Prova #1
Richiesti 2 cluster di riga e 1 di colonna. Totale: 2 co-cluster
Tempo impiegato: User = 2 second(s) 127370 ms, System = 0 second(s) 40949 ms, Time/Run = 2.12737 second(s)
Risultato: 3670 elementi nella classe “poisonous”, 4454 elementi nella classe “edible”.
Percentuale d’errore (elementi non classificati correttamente): ~3%
Prova #2
Richiesti 2 cluster di riga e 2 di colonna. Totale: 4 co-cluster
Tempo impiegato: User = 2 second(s) 158490 ms, System = 0 second(s) 40654 ms, Time/Run = 2.15849 second(s)
Risultato: 3915 elementi nella classe “poisonous”, 4209 elementi nella classe “edible”.
Percentuale d’errore: ~1.23 x 10^-4 (1 solo elemento è stato classificato erroneamente)
Missing values, co-clustering e predizione dei valori mancanti
Il problema dei missing values è a quanto pare molto sentito, soprattutto in Astrofisica, dove, testimone il prof. Longo, si gettano via svariate migliaia di dati non completamente descritti. Il co-clustering sembra venire in aiuto per affrontare questo tedioso problema.
Come viene espressamente detto in
il co-clustering permette di raggruppare oggetti simili tra loro in base a un sottoinsieme di attributi e non rispetto a tutti gli attributi che rappresentano gli oggetti. Essendo questi sottoinsiemi ricavati tramite un feature clustering contestuale al data clustering, il processo dovrebbe, per costruzione, non essere inficiato dalla presenza di missing values.
Infatti, in
si parla anche di “Missing Value Prediction” (rispettivamente par. 5.3 e par. 4.2), dove si sfrutta il co-clustering per la predizione dei valori mancanti, impostando i missing values a 0 e facendo “girare” l’algoritmo di co-clustering. L’algoritmo prosegue non curante dei dati mancanti; trovato il co-clustering, la matrice approssimata basata su di esso può essere usata per “predirre” i valori mancanti con una buona percentuale di errore.
Bregman matrix approximation
Approfondire la teoria alla base delle (più) matrici approssimate che si ottengono dato un co-clustering di Bregman.
Riferimenti