Co-clustering – Synthetic Dataset Test #1

Macchina usata:
PowerPC G4, 1.5GHz, 768MB RAM, Mac OS X

Software usato:
[bibtex file=thesis.bib key=coclus-software]

Dataset usato:
Il dataset usato in questo test è un dataset sintetico, generato grazie a

[bibtex file=thesis.bib key=syndeca2005]

Il dataset è così composto:
Oggetti: 1000
Attributi: 10
Classi: 5, per un totale di 888 punti (Cluster 0: 327, Cluster 1: 134, Cluster 2: 162, Cluster 3: 132, Cluster 4: 133)
Punti di disturbo: 112 (punti non classificabili)

Algoritmo di co-clustering usato: Euclidean Distance Based, Minimum Sum Squared, Information Theoretic

Problemi: Da questo primo test condotto su un dataset disturbato, lo schema di co-clustering sembra non essere pensato per identificare il rumore e separarlo dal resto della classificazione, col risultato che tutte le istanze di co-clustering tendono a classificare il rumore in una delle cinque classi richieste, sfalsando i risultati.

Eliminazione punti di rumore: Eliminando i punti di rumore, abbiamo ottenuto un dataset di 888 punti e l’algoritmo (Euclidean Distance Based, con 5 co-cluster richiesti) ha separato perfettamente le 5 classi senza alcun errore in un tempo così espresso:
User = 0 second(s) 138552 ms
System = 0 second(s) 6630 ms
Time/Run = 0.138552 second(s)

2 thoughts on “Co-clustering – Synthetic Dataset Test #1

  1. Spiegami meglio:
    quando parli di punto di rumore cosa significa?

    I punti di rumore vengono classificati tutti in una stessa classe o in classi diverse?

  2. Per punto di rumore intendo un oggetto non classificabile in nessuna delle classi che l’algoritmo dovrebbe individuare. Un po’ come se dovessi separare mele e pere e mi trovassi in input una stella :)

    Per quanto riguarda la seconda domanda, come le ho scritto anche nella mail che le ho inviato da qualche secondo, sto rifacendo i test in maniera meno approssimativa.

    Le saprò rispondere con precisione dopo il rifacimento dei test, ma mi sento di dire già da ora che i punti di rumore finiscono distribuiti tra i vari cluster individuati.