Le CSTB héberge localement certaines banques de données publiques fournies par les organismes internationaux (NCBI, EMBL, etc.)
Leurs mises à jour nécessitent le rapatriement, le traitement et la mise en forme de grandes quantités de données.
Ce sont ces opérations, regroupées sous l'acronyme
Banbi, que nous décrirons ici.
Les banques
158G | GOA |
33M | GeneOntology |
539G | IDMapping |
107G | InterPro |
4G | UniProt-sw |
902G | UniProt-trembl |
652G | blast-nr |
454M | blast-pdb |
535M | blast-sw |
268G | blast-trembl |
62G | blast-uniref50 |
66M | taxonomy |
Mises à jour ... réalisées pas par banbi.tcl
Chaque semaine est lancée, par
cron pour chaque banque, la commande
banbi update banque 2>&1 banque.log
qui interroge le serveur conservé pour savoir si la banque a changé, et le cas échéant rapatrie la nouvelle version, réalise les opérations de décompression, de mise en forme et de mise à jour.
Les url de téléchargements
taxonomy https://rest.uniprot.org/taxonomy/stream?compressed=true&fields=id%2Cmnemonic%2Cscientific_name%2Ccommon_name%2Csynonyms%2Cother_names%2Clineage%2Creviewed%2Crank%2Cparent%2Chosts&format=tsv&query=%2A
InterPro ftp://ftp.ebi.ac.uk/pub/databases/interpro/current_release/protein2ipr.dat.gz
UniProt-sw ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.dat.gz
blast-uniref50 ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref50/uniref50.fasta.gz
blast-pdb ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_seqres.txt.gz
blast-sw ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
UniProt-trembl https://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase/uniprot_trembl.dat.gz
blast-trembl https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz
GeneOntology http://current.geneontology.org/ontology/go.obo
IDMapping ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/idmapping.dat.gz
blast-nr ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
GOA ftp://ftp.ebi.ac.uk/pub/databases/GO/goa/UNIPROT/goa_uniprot_all.gaf.gz
Traitements de mise en forme
-
Les banques blast sont créées à partir des fichiers de séquences par la commande makeblastdb
-
Pour InterPro, UniProt-sw, UniPort-trembl sont créées des banques SQL qui permettent d'accéder rapidement par indexation des AC et ID aux enregistrements correspondant dans le fichier texte de départ.
-
Les différentes banques de IDMapping sont mises en relation par les références communes ACC ou ID au travers de banques SQL liées.
-
Les informations de taxonomy sont intégrées dans une banque SQL qui autorise un accès très rapide aux données et surtout aux propriétés de descendance ou d'ancêtre commun.
-
GenOntology est pris tel quel