BanBI Les BANques BioInformatiques du CSTB

Le CSTB héberge localement certaines banques de données publiques fournies par les organismes internationaux (NCBI, EMBL, etc.) Leurs mises à jour nécessitent le rapatriement, le traitement et la mise en forme de grandes quantités de données.

Ce sont ces opérations, regroupées sous l'acronyme Banbi, que nous décrirons ici.

Les banques

158GGOA
33MGeneOntology
539GIDMapping
107GInterPro
4GUniProt-sw
902GUniProt-trembl
652Gblast-nr
454Mblast-pdb
535Mblast-sw
268Gblast-trembl
62Gblast-uniref50
66Mtaxonomy

Mises à jour ... réalisées pas par banbi.tcl

Chaque semaine est lancée, par cron pour chaque banque, la commande
banbi update banque 2>&1 banque.log
qui interroge le serveur conservé pour savoir si la banque a changé, et le cas échéant rapatrie la nouvelle version, réalise les opérations de décompression, de mise en forme et de mise à jour.
Les url de téléchargements
taxonomy         https://rest.uniprot.org/taxonomy/stream?compressed=true&fields=id%2Cmnemonic%2Cscientific_name%2Ccommon_name%2Csynonyms%2Cother_names%2Clineage%2Creviewed%2Crank%2Cparent%2Chosts&format=tsv&query=%2A
InterPro         ftp://ftp.ebi.ac.uk/pub/databases/interpro/current_release/protein2ipr.dat.gz
UniProt-sw       ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.dat.gz
blast-uniref50   ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref50/uniref50.fasta.gz
blast-pdb        ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_seqres.txt.gz
blast-sw         ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
UniProt-trembl   https://ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebase/uniprot_trembl.dat.gz
blast-trembl     https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz
GeneOntology     http://current.geneontology.org/ontology/go.obo
IDMapping        ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/idmapping.dat.gz
blast-nr         ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz
GOA              ftp://ftp.ebi.ac.uk/pub/databases/GO/goa/UNIPROT/goa_uniprot_all.gaf.gz
	
Traitements de mise en forme