Difference between revisions of "Cluspack"
(12 intermediate revisions by 2 users not shown) | |||
Line 1: | Line 1: | ||
− | |||
− | |||
− | + | ==Principe== | |
− | + | Cluspack permet de lancer un clustering en k-means ou en mixture-models. | |
− | |||
− | + | Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005] | |
− | |||
− | /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2 | + | ==Format d'entrée== |
+ | Le fichier d'entrée doit être formaté de la façon suivante : | ||
+ | * la première ligne indique le nombre des lignes et des colonnes. | ||
+ | * la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide ! | ||
+ | * les lignes suivantes sont de la forme | ||
+ | ** la première colonne des données peut contenir des identifiants | ||
+ | ** les autres colonnes de texte, annotation etc devront se trouver à la fin | ||
+ | |||
+ | ==Utilisation== | ||
+ | |||
+ | En ligne de commande (avec tous les arguments) : | ||
+ | |||
+ | /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc<br> | ||
+ | or:<br> | ||
+ | /biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=kmeans -nbc=dpc -dt2 -wc<br> | ||
+ | |||
+ | |||
+ | autres choix des parametres : <br> | ||
+ | -cm=kmeans <br> | ||
+ | number of clusters :<br> | ||
+ | (mixturemodels :) -nbc=bic <br> | ||
+ | (kMeans :) -nbc=dpc <br> | ||
+ | density : <br> | ||
+ | (kMeans :) -dt1 | ||
+ | |||
+ | more options :<br> | ||
+ | -dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br> | ||
+ | -cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br> | ||
+ | -nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br> | ||
+ | [-dt1|-dt2][-standardization] (dt1 stands for density1) | ||
+ | [-standardized_data][-wc] (wc stands for write_coordinates)<br> | ||
+ | [-fd=number] (dt stands for filtering_distance)<br> | ||
+ | [-nbsim=nbsimulations]<br> | ||
+ | [-otfa=outputFile for alignment]<br> | ||
+ | [-oclu=outputFile for clustering]<br> | ||
+ | |||
+ | |||
+ | Suggestion:<br> | ||
+ | run cluspack with nohup<br> | ||
+ | |||
Line 23: | Line 58: | ||
/biolo/cluspack/cluspacksucc.tcl kmeans 10 | /biolo/cluspack/cluspacksucc.tcl kmeans 10 | ||
− | |||
− | |||
− | |||
− | |||
− |
Latest revision as of 16:32, 15 May 2010
Principe
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
Voir le poster JOBIM 2005
Format d'entrée
Le fichier d'entrée doit être formaté de la façon suivante :
- la première ligne indique le nombre des lignes et des colonnes.
- la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide !
- les lignes suivantes sont de la forme
- la première colonne des données peut contenir des identifiants
- les autres colonnes de texte, annotation etc devront se trouver à la fin
Utilisation
En ligne de commande (avec tous les arguments) :
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc
or:
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=kmeans -nbc=dpc -dt2 -wc
autres choix des parametres :
-cm=kmeans
number of clusters :
(mixturemodels :) -nbc=bic
(kMeans :) -nbc=dpc
density :
(kMeans :) -dt1
more options :
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)
[-dt1|-dt2][-standardization] (dt1 stands for density1)
[-standardized_data][-wc] (wc stands for write_coordinates)
[-fd=number] (dt stands for filtering_distance)
[-nbsim=nbsimulations]
[-otfa=outputFile for alignment]
[-oclu=outputFile for clustering]
Suggestion:
run cluspack with nohup
pour utiliser le GUI cré par Adeline et Nicolas :
setcluspack
cluspackX
Il existe aussi une variante de clustering itérative en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans)
/biolo/cluspack/cluspacksucc.tcl kmeans 10