Les banques Blast et les génomes complets


Raymond Ripp



Dans /genome on trouve les répertoires de tous les organismes dont on a le génome complet.

    par exemple /genome/P.abyssi ou  /genome/H.sapiens .

Dans chaque répertoire on trouve les fichiers
    xxxxx.header xxxxx.names xxxxx.numbers xxxxx.offset xxxxx.ref xxxxx.seq

Pour faire une banque blast, par exemple E.coli2, Fred utilise les commandes

        tofastadb "ecoli2:\* -nomonitor -out=tmp.tfa -default
    formatdb -i tmp.tfa -t "Escherichia coli genome" -pF -n ecoli2

Et c'est magique ! Ca marche ...  On remarquera que :

Mais GCG sait tout :             NAME: EcoliDir:ecoli2 LN: ecoli2 SN: ecol2 REL: 1.0 RELEA ...

        où l'on voit qu'au LongName ecoli2 est associé le ShortNameecol2
            et que la racine xxxxx des fichiers est dans EcoliDir:ecoli2
           EcoliDir étant /genome/E.coli parce que GCG a ses propres tables ...

        Comprendo ? Gscope a compris ... Il fournit même les fonctions  SNduLNgcg et LNduSNgcg
        telles que [SNduLNgcg ecoli2] retourne ecol2  et  [LNduSNgcg ecol2] retourne ecoli2

              >ecoli2:AE005174_07 Continuation (8 of 56) of AE005174 from base 700001 (AE005174 Escherichia coli O157:H7 ...

    'from base 70001' nous donne l'offset par rapport au debut du génome,
        derrière  (AE005174 on trouve l'oganisme en latin !


Gscope relit ces .nhr et crée le fichier  completegenome.header,et plus tard  completegenome.frag qui donnera accès aux offsets et organismes.

Petite remarque : je ne comprends pas pourquoi tofastadb ne marche plus ...