Petite explication

Soient 2 tRNAs, AAA et BBB, codant pour un acide aminé.
On compte le nombre de fois où l'acide est vu Buried ou Exposed :

    AAA     !   BBB
 Bur   Exp  ! Bur   Exp
 20      7  !  10     3

On cherche à calculer le biais dans l'utilisation des tRNAs pour coder du Buried ou du Exposed, c'est-à-dire, la différence en PROPORTION des utilisation. On ramène donc les populations de Buried et Exposed à 100, on calcule les pourcentages :
total Bur  = 20 + 10 = 30
total Exp  =  7 +  3 = 10

     AAA         !       BBB
  Bur      Exp   !   Bur      Exp
 20/30     7/10  !  10/30     3/10
  0.67     0.70  !   0.33     0.30

AAA_Bur - AAA_Exp = 0.67 - 0.70 = -0.03  
BBB_Bur - BBB_Exp = 0.33 - 0.30 =  0.03

Si AAA est utilis& -0.03 (-3%) de fois moins que BBB, alors BBB est utilisé 0.03 (3%) de fois plus que AAA.
La somme des colonnes pour un acide aminé donné doit toujours être égale à 0 !
Avec 3 tRNAs :
    AAA     !   BBB     !    CCC 
 Bur   Exp  ! Bur   Exp !  Bur  Exp
  7     10  !  3     20 !   4    5

total Bur =  7 +  3 + 4 = 14
total Exp = 10 + 20 + 5 = 35

     AAA         !       BBB       !      CCC
  Bur      Exp   !   Bur      Exp  !  Bur     Exp
 7/14     10/35  !   3/14    20/35 ! 4/14     5/35 
 0.50      0.29  !   0.21     0.57 ! 0.29     0.14

AAA_Bur - AAA_Exp = 0.50 - 0.29 =  0.21
BBB_Bur - BBB_Exp = 0.21 - 0.57 = -0.36
CCC_Bur - CCC_Exp = 0.29 - 0.14 =  0.15

et 0.21 - 0.36 + 0.15 = 0.0, CQFD
Incidence sur le clustering Cette constatation a une incidence directe sur le clustering. Il ne va pas être évident pour un algo de clustering de faire des paquets avec , p.e., -0.19, 0.19 et -0.88, 0.88 ... On pourrait penser ne mettre qu'un des deux chiffres, puisque la somme est égale à 0.0. Cela marcherait pour les acides aminés à 2 tRNA, mais devient délicat pour les aas ayant plus de 2 tRNAs...
Pour identifier les clusters , je suis parti du postulat que le clustering arriverait à mettre les extremum ensemble. J'ai fait de la façon suivante: pour chaque groupe, on fait la moyenne de la VALEUR ABSOLUE des colonnes pour tous les éléments du groupes (si un groupe contient les extremums, -0.89 , 0.89, on somme 0.89 + 0.89). On trie ensuite les groupes par moyenne descendante.