Difference between revisions of "Cluspack"

From Wikili
Jump to: navigation, search
 
(10 intermediate revisions by 2 users not shown)
Line 1: Line 1:
Cluspack permet de lancer un clustering en k-means ou en mixture-models. <br>
 
Plus de details sont sur le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
 
  
'''Input format''':
+
==Principe==
Des données doivent commencer avec une première ligne indiquant le nombre des lignes et des colonnes. <br>
+
Cluspack permet de lancer un clustering en k-means ou en mixture-models.
La première colonne des données peut contenir des identifiants (et toutes autres colonne de texte, annotation etc devront se touver à la fin)
 
  
'''Utilisation''' :
+
Voir le poster [http://pbil.univ-lyon1.fr/events/jobim2005/proceedings/P96Legrand.pdf JOBIM 2005]
  
En ligne de commande (avec tous arguments) :
 
  
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc -dt2
+
==Format d'entrée==
 +
Le fichier d'entrée doit être formaté de la façon suivante :
 +
* la première ligne indique le nombre des lignes et des colonnes.
 +
* la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide !
 +
* les lignes suivantes sont de la forme
 +
** la première colonne des données peut contenir des identifiants
 +
** les autres colonnes de texte, annotation etc devront se trouver à la fin
 +
 
 +
==Utilisation==
 +
 
 +
En ligne de commande (avec tous les arguments) :
 +
 
 +
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc<br>
 +
or:<br>
 +
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=kmeans -nbc=dpc -dt2 -wc<br>
 +
 
  
 
autres choix des parametres : <br>
 
autres choix des parametres : <br>
-cm=kMeans <br>
+
-cm=kmeans <br>
 
number of clusters :<br>
 
number of clusters :<br>
 
(mixturemodels :) -nbc=bic <br>
 
(mixturemodels :) -nbc=bic <br>
Line 19: Line 30:
 
density : <br>
 
density : <br>
 
(kMeans :) -dt1
 
(kMeans :) -dt1
 +
 +
more options :<br>
 +
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)<br>
 +
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)<br>
 +
-nbc=[secator|dpc|aic|bic|number]  (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)<br>
 +
[-dt1|-dt2][-standardization] (dt1 stands for density1)
 +
[-standardized_data][-wc] (wc stands for write_coordinates)<br>
 +
[-fd=number] (dt stands for filtering_distance)<br>
 +
[-nbsim=nbsimulations]<br>
 +
[-otfa=outputFile for alignment]<br>
 +
[-oclu=outputFile for clustering]<br>
 +
 +
 +
Suggestion:<br>
 +
run cluspack with nohup<br>
 +
  
  
Line 31: Line 58:
  
 
/biolo/cluspack/cluspacksucc.tcl  kmeans 10
 
/biolo/cluspack/cluspacksucc.tcl  kmeans 10
 
 
 
 
'''Attention''' : Cluspack tourne sur les  "star" et mais ne tourne plus sur Beaufort !!
 

Latest revision as of 17:32, 15 May 2010

Principe

Cluspack permet de lancer un clustering en k-means ou en mixture-models.

Voir le poster JOBIM 2005


Format d'entrée

Le fichier d'entrée doit être formaté de la façon suivante :

  • la première ligne indique le nombre des lignes et des colonnes.
  • la deuxième ligne doit contenir des entêtes des colonnes ou doit rester vide !
  • les lignes suivantes sont de la forme
    • la première colonne des données peut contenir des identifiants
    • les autres colonnes de texte, annotation etc devront se trouver à la fin

Utilisation

En ligne de commande (avec tous les arguments) :

/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=mixturemodels -nbc=aic -wc
or:
/biolo/cluspack/bin/cluspack myDataForClustering.txt -dt=coordinates -cm=kmeans -nbc=dpc -dt2 -wc


autres choix des parametres :
-cm=kmeans
number of clusters :
(mixturemodels :) -nbc=bic
(kMeans :) -nbc=dpc
density :
(kMeans :) -dt1

more options :
-dt=[coordinates|alignment|distances|similarities] (fd stands for data_type)
-cm=[kmeans|ward|bionj|mixturemodels] (cm stands for clustering_method)
-nbc=[secator|dpc|aic|bic|number] (nbc stands for method for computing the number of cluster and number is really a number like 4 etc.)
[-dt1|-dt2][-standardization] (dt1 stands for density1) [-standardized_data][-wc] (wc stands for write_coordinates)
[-fd=number] (dt stands for filtering_distance)
[-nbsim=nbsimulations]
[-otfa=outputFile for alignment]
[-oclu=outputFile for clustering]


Suggestion:
run cluspack with nohup


pour utiliser le GUI cré par Adeline et Nicolas :

setcluspack
cluspackX


Il existe aussi une variante de clustering itérative en ligne de commande: (cet exemple lancera 10 fois un clustering kMeans)

/biolo/cluspack/cluspacksucc.tcl kmeans 10