L'une des étapes de la création de la base de données
Gscope est le tBlastN contre les génomes complets (TBlastNPourTous
genomes).
Dans /blast/genome.nal on trouve la liste
des génomes complets microbials. Parmi ceux-là il
y en a des mauvais, P.furiosus par exemple (qui n'a toujours pas
été déposé proprement). Il faut y rajouter
C.elegans
et D.melanogaster ainsi que des génomes traités par
Gscope.
CreationDuNalDesGenomesComplets
Indesirables SupplementsOfficiels SupplementsGscope
on enlève les Indesirables de genome.nal
et on rajoute les SupplementOfficiels et SupplementsGscope.
Jusque là fastoche ... mais il faut pouvoir localiser les hits
de blast sachant que les banques
blast sont découpées en fragment de 100000 overlappés
de 10000, il faut aussi retrouver l'organisme.
Pour cela CreationDuNalDesGenomesComplets
crée completegenome.header et completegenome.frag.
Dans le temps, je recréais les fichiers comme le fait le script
CreateGenome de Fred pour en extraire les
entêtes (>xxxxxx ...). Mais j'ai remarqué que toutes
ces infos étaient stockées dans les fchiers des banques blast
/blast/hs01.header etc.