Macchina usata:
PowerPC G4, 1.5GHz, 768MB RAM, Mac OS X
Software usato:
Dataset usato:
Il dataset usato in questo test è un dataset sintetico, generato grazie a
Il dataset è così composto:
Oggetti: 1000
Attributi: 10
Classi: 5, per un totale di 888 punti (Cluster 0: 327, Cluster 1: 134, Cluster 2: 162, Cluster 3: 132, Cluster 4: 133)
Punti di disturbo: 112 (punti non classificabili)
Algoritmo di co-clustering usato: Euclidean Distance Based, Minimum Sum Squared, Information Theoretic
Problemi: Da questo primo test condotto su un dataset disturbato, lo schema di co-clustering sembra non essere pensato per identificare il rumore e separarlo dal resto della classificazione, col risultato che tutte le istanze di co-clustering tendono a classificare il rumore in una delle cinque classi richieste, sfalsando i risultati.
Eliminazione punti di rumore: Eliminando i punti di rumore, abbiamo ottenuto un dataset di 888 punti e l’algoritmo (Euclidean Distance Based, con 5 co-cluster richiesti) ha separato perfettamente le 5 classi senza alcun errore in un tempo così espresso:
User = 0 second(s) 138552 ms
System = 0 second(s) 6630 ms
Time/Run = 0.138552 second(s)
Spiegami meglio:
quando parli di punto di rumore cosa significa?
I punti di rumore vengono classificati tutti in una stessa classe o in classi diverse?
Per punto di rumore intendo un oggetto non classificabile in nessuna delle classi che l’algoritmo dovrebbe individuare. Un po’ come se dovessi separare mele e pere e mi trovassi in input una stella
Per quanto riguarda la seconda domanda, come le ho scritto anche nella mail che le ho inviato da qualche secondo, sto rifacendo i test in maniera meno approssimativa.
Le saprò rispondere con precisione dopo il rifacimento dei test, ma mi sento di dire già da ora che i punti di rumore finiscono distribuiti tra i vari cluster individuati.