Impegni di lavoro non mi hanno permesso di lavorare al 100% sul test del Pandora Dataset, che data la mole di dati che produce a ogni test, ha necessitato, tra l’altro, la scrittura di strumenti di analisi, seppur abbastanza grezzi, per il momento.
Ad ogni modo, ciò che è possibile fornire allo stato attuale delle cose è il numero di oggetti per cluster, sia nel caso di “Pandora depurato” sia nel caso di “Pandora originale”. Il numero di cluster richiesti in entrambi i casi è stato 21, numero che dovrebbe essere un’ottima stima della realtà, in seguito ai ripetuti test effettuati per stimare appunto tale numero. Ad ogni modo, ripeto ancora una volta, l’obiettivo primario di questi test è assicurare un comportamento stabile del Co-clustering in presenza di oggetti con missing values. Un raffinamento della stima dei cluster potrà essere ottenuto, ad esempio, applicando relative criteria per la valutazione dei risultati (vedere prima bozza tesi)
Di seguito si fa riferimento all’ Information-Theoretic Co-clustering.
Co-clustering di “Pandora depurato” – Richiesti 21 Cluster
2724
5840
8064
8365
11825
12340
15119
15591
18449
19838
20086
22064
23863
25575
26577
26650
28016
30956
33215
40045
40746
435948 tot
Co-clustering di “Pandora originale” – Richiesti 21 Cluster
666
5176
5999
9961
13076
13336
14091
16104
17879
18135
19523
20632
23703
25933
30699
31505
32621
33934
35085
38781
42432
449271 tot (i 13304 oggetti in più sono quelli riportanti missing values)
Di seguito si fa riferimento al Minimum Sum Squared Co-clustering (v. II)
Co-clustering di “Pandora depurato” – Richiesti 21 Cluster
2427
3375
8471
10682
11176
11521
11702
12682
13262
15596
16760
19127
20744
20886
24549
28716
29123
30408
38123
41477
65141
435948 tot
Co-clustering di “Pandora originale” – Richiesti 21 Cluster
1106
1441
2288
3350
3597
5492
8232
8329
13267
16174
19508
19696
21329
23955
24489
26848
29635
41147
55983
56935
66470
449271 tot
Si sta sviluppando un ulteriore strumento di analisi, per l’analisi incrociata dei cluster.
Dato che il Co-clustering non produce i cluster sempre nello stesso ordine, è necessario un’analisi più complessa degli stessi per calcolare una misura di quanto il co-clustering sia rimasto stabile.
Inoltre si stanno riconducendo i test richiedendo 20 cluster, perché dagli ultimi test con 21 cluster, pur non essendoci cluster vuoti, è risultato in media, su 20 iterazioni, 1 cluster singleton.