(Dernière minute : pour tout savoir sur les
banques blast et les genomes complets)
Voici un aperçu rapide des banques
disponibles par SRS à l'IGBMC en date du 27 août 2001
Ne pas confondre
une banque contenant les séquences annotées avec
une banque blast.
Explication : voir
http original
GENBANK 1582072
GENBANKNEW 1022553
STS 113224
GSS 3350434
HTG 44176
HTC 23939
SWISSPROT 105972
SPTREMBL 594000
SPTNEW 87914
EST 10351480
BACTERIA 175154
ARCHAEA 28427
HUMAN 24382
M_musculus 16707
C_elegans 19222
D_melanogast 13958
S_cerevisiae 6209
S_pombe 5054
E_cuniculi 1996
A_thaliana 25010
G_theta 451
PROSITE 1474
PROSITEDOC 1089
UNIGENE 347031
UNISEQ 347031
-
SwissProt, SPTrEmbl (SwissProt and TranslatedEmbl) et SPTNew (SwissProt
and Translated embl News) contiennent les protéines traduites
des séquences nucléotidiques de Embl
-
Embl (European Molecular Biology Lab) et GenBank contiennent l'ensemble
des séquences nucléotidiques actuellement disponibles en
dehors des EST, HTG, GSS et génomes en cours de séquençage
ou d'annotation (génome humain par ex.)
-
GbTags contient les séquences nucléotidiques des EST (Expressed
Sequence Tags), c'est-à-dire tous les cDNA complémentaires
des mRNA ayant été séquencés.
-
HTG (High Throughput Genomics) contient les séquences nucléotiques
(de plus de 2000 bases) des centres de séquençage à
haut débit.
-
GSS (Genome Survey Sequences) contient les séquences génomiques
qui ne sont pas des EST
-
HumanGenome contient les séquences nucléotiques des contigs
(non ordonnés) classés par chromosomes (mais sans localisation
sur ces chromosomes).
-
PDB (Protein Data Bank) est la banques des structures tridimensionnelles
des protéines et acides nucléiques connues.
Ces différentes banques se recouvrent les unes les autres, ne sont
pas non redondantes et contiennent encore beaucoup d'erreurs (de séquences
et d'annotation).
La recherche d'homologie de séquences par le programme Blast
est faite dans l'une des nombreuses banques
Blast. Ces banques sont créées à l'aide
de la commande 'formatdb fichier.tfa' où fichier.tfa
est un fichier contenant un certain type de séquences (Homo sapiens,
EST, Mammifères, etc). Parmi les nombreuse banques existantes citons,
par exemple :
-
protein, qui correspond à SwissProt + SPTrEmbl + SPTNew
-
genembl, qui contient tout : bacterial invertebrate
othermammal organelle othervert patent phage plant primate rodent synthetic
unannotated
viral gss htg new
-
human, le genome humain
-
hs01, que le chromosome 1
-
htg, tout HTG
-
genomes, l'ensemble des petits genomes actuellemnt entirement séquencés
(48)
-
paby, que Pyrococcus abyssi
-
worm, Caenorhabditis elegans
-
yeast, Saccharomyces cerevisiae
-
primate
-
etc.
-
Pour la liste complète, taper
ls /blast/*.pal /blast/*.phr pour
les banques de protéines
et
ls /blast/*.nal /blast/*.nhr pour les banques
nucléotidiques
Les fichiers .pal et .nal contiennent des listes
de banques .phr ou .nhr
Dans les fichiers résultats de blast on retrouve les noms des
banques dans lesquelles sont stockées les séquences, par
ex. GB_EST42:WA097865.
Mis à jour le 31 août 2001 par Raymond
Ripp