Petite explication
Soient 2 tRNAs, AAA et BBB, codant pour un acide aminé.
On compte le nombre de fois où l'acide est vu Buried ou Exposed :
AAA ! BBB
Bur Exp ! Bur Exp
20 7 ! 10 3
On cherche à calculer le biais dans l'utilisation des tRNAs pour coder du Buried ou du Exposed, c'est-à-dire, la différence en PROPORTION des utilisation. On ramène donc les populations de Buried et Exposed à 100, on calcule les pourcentages :
total Bur = 20 + 10 = 30
total Exp = 7 + 3 = 10
AAA ! BBB
Bur Exp ! Bur Exp
20/30 7/10 ! 10/30 3/10
0.67 0.70 ! 0.33 0.30
AAA_Bur - AAA_Exp = 0.67 - 0.70 = -0.03
BBB_Bur - BBB_Exp = 0.33 - 0.30 = 0.03
Si AAA est utilis& -0.03 (-3%) de fois moins que BBB, alors BBB est utilisé 0.03 (3%) de fois plus que AAA.
La somme des colonnes pour un acide aminé donné doit toujours être égale à 0 !
Avec 3 tRNAs :
AAA ! BBB ! CCC
Bur Exp ! Bur Exp ! Bur Exp
7 10 ! 3 20 ! 4 5
total Bur = 7 + 3 + 4 = 14
total Exp = 10 + 20 + 5 = 35
AAA ! BBB ! CCC
Bur Exp ! Bur Exp ! Bur Exp
7/14 10/35 ! 3/14 20/35 ! 4/14 5/35
0.50 0.29 ! 0.21 0.57 ! 0.29 0.14
AAA_Bur - AAA_Exp = 0.50 - 0.29 = 0.21
BBB_Bur - BBB_Exp = 0.21 - 0.57 = -0.36
CCC_Bur - CCC_Exp = 0.29 - 0.14 = 0.15
et 0.21 - 0.36 + 0.15 = 0.0, CQFD
Incidence sur le clustering
Cette constatation a une incidence directe sur le clustering. Il ne va pas être évident pour un algo de clustering de faire des paquets avec , p.e., -0.19, 0.19 et -0.88, 0.88 ... On pourrait penser ne mettre qu'un des deux chiffres, puisque la somme est égale à 0.0. Cela marcherait pour les acides aminés à 2 tRNA, mais devient délicat pour les aas ayant plus de 2 tRNAs...
Pour identifier les clusters , je suis parti du postulat que le clustering arriverait à mettre les extremum ensemble. J'ai fait de la façon suivante: pour chaque groupe, on fait la moyenne de la VALEUR ABSOLUE des colonnes pour tous les éléments du groupes (si un groupe contient les extremums, -0.89 , 0.89, on somme 0.89 + 0.89). On trie ensuite les groupes par moyenne descendante.