Dataset sintetici per Clustering Benchmark

Molto spesso, nell’eseguire i test di algoritmi di clustering, è molto utile avere a disposizione degli insiemi di dati campione sintetici, ovvero creati artificialmente e che non rispecchiano dei dati reali.

A tale scopo molto utile si rivela il lavoro fatto dal Center for Data Engineering, International Institute of Information Technology, Hyderabad, INDIA

Lo strumento riesce a produrre dataset sintetici molto rapidamente; in genere un insieme con spazio delle feature 2D, con un milione di punti e centinaia di cluster, viene prodotto in pochi secondi.

Per ogni insieme prodotto, viene fornito dettagli sul clustering, come:

- quali punti appartengono a quali cluster
- quanti cluster
- quanti punti per cluster
- forma dei cluster
- etc.

SMO per Unsupervised Learning

Sequential Minimal Optimization è l’algoritmo per la risoluzione del problema di programmazione quadratica per l’addestramento di una SVM. Esiste una variante di questo algoritmo per il caso non supervisionato.

Riferimenti:

Molto probabilmente libSVM implementa già tale variante; infatti libSVM supporta la one-class classification (distribution estimation) e per tale tipo di problema è necessaria la stessa variante di SMO.