OrthoInspector
OrthoInspector
Initialement développé par Benjamin Linard, repris par Yannis Nevers. Je (Raymond) ne parlerai ici que de ce qui concerne Gscope et la gestion des organismes pour les projets Archaea, Bacteria, Eukaryota, Qfo, Transverse et Virus.
La manière de gérer OrthonInspector a vraiment beaucoup changé depuis 2016, Yannis avait fait ses protéomes et je les intégrais au fur et à mesure. Fin 2016 on a lancé les 10 000 000 de blast sur la grille pour les Eucaryotes. Après on a recommencé mais on ne prenant pas tout le monde ... il a fallu nommer les organismes, etc.
Comment ça marche
- Yannis crée les protéomes dans /genomics/link/OrthoInspector_Proteomes/
- ./Archaea ./Bacteria ./Eukaryota ./Qfo ./Transverse ./Virus
- Ces répertoires correspondent à ce qui est appelé OiDomain dans Gscope (voir plus loin)
- Yannis y dépose les protéomes de chaque organisme
- un protéome est un fichier fasta dont le nom est du style UP000005640_9606.fasta. On y voit 9606 car c'est celui de Homo sapiens
- Comment gérer tous les noms des organismes ?
- Le petit nom (que j'appelle OiCoded) d'un organisme dépend de son nom bien sûr mais aussi du domaine et des noms des autres pour ne pas avoir de doublons
- Pour ne pas avoir de noms farfelus et surtout pour ne pas avoir de noms trop longs j'ai mis en place les procédures OiCode et OIDomain ... et OiCodeForOiDomain
- OiCode quand on l'appelle la première fois (supposons être dans Bacteria par ex) :
- crée le répertoire /genomics/link/OrthoInspector_Proteomes/Bacteria/NotaBene
- donne un petit nom (d'où le OiCode) à chaque organisme et nomme aussi le fichier qui contiendra le protéome en fasta :
- BVerbaC sera son petit nom (B comme Bacteria, Verba comme Verrucomicrobia bacterium et s'il a d'autre homonymes, C parce que lui c'est le 3eme. Sinon on ne rajoute pas de lettre)
- BVerbaC_Verrucomicrobia_bacterium_L21-Fru-AB_1609981 sera le nom du fichier fasta avec le TaxId à la fin après le _ (important pour la suite)
- range le fasta dasn ./NotaBene