Le 13 février dernier, les revues scientifiques les plus prestigieuses du monde, Nature et Science, ont publié un numéro spécial pour présenter deux brouillons du génome humain. L'organisation du projet international de génome humain et la société privée Celera Genomics ont été présentées, respectivement. La veille, des exposés ont été organisés dans cinq villes du monde pour faire connaître à la presse le séquençage.
La trajectoire de ce travail gigantesque a été mentionné à de nombreuses reprises. En 1990, le projet public a été lancé avec une stratégie conforme à la technologie existante. Ils espéraient que le travail se terminerait dans une quinzaine d'années. À mesure que les nouvelles technologies ont été développées, la nécessité de recourir à des méthodologies plus rapides a augmenté. Ainsi, le délai de lecture de la séquence complète a été réduit jusqu'en 2003 au maximum.
En 1998, un travailleur du projet public, inventant une méthodologie encore plus rapide, a créé avec le même objectif l'entreprise privée Celera Genomics. Après avoir testé la nouvelle méthode avec le génome d'autres organismes (après avoir séquencé le génome de la mouche Drosophila melanogaster), commence la séquençage du génome humain. En juin 2000, les deux entités ont annoncé leur collaboration.
Chaque entité a présenté son projet. Ce sont donc deux esquisses du même génome. Deux numéros ont été publiés pour le nombre de gènes annoncés et la taille du génome. Ce résultat est le résultat de l'utilisation de deux approches différentes. En général, des résultats qualitatifs similaires ont été obtenus, mais il faut noter que les deux techniques ne sont pas comparables.
La stratégie choisie par le projet public est basée sur une carte préalablement élaborée. Une fois la première carte terminée, recherchez la séquence. Cette technique, bien que lente, a obtenu de bons résultats. C'est une méthodologie à travers des clones.
Beaucoup de copies du génome sont divisés par des enzymes de restriction. Ces enzymes coupent l'ADN dans des endroits particuliers. Pour éviter la formation de fragments trop petits de génome, la réaction est coupée. Le résultat de cette première étape est de diviser environ 150.000 paires de bases en parties. Ces parties sont intégrées dans les chromosomes artificiels de bactéries (Bactérien artificiel Chromosomes, BAC). Ainsi, lorsque la bactérie est reproduite, de nombreuses copies de ce fragment d'ADN sont générées, les clones.
Ces clones sont traités avec des endonukleas de restriction pour obtenir de petits fragments. En clarifiant ce qui est répété dans ces fragments, la "carte physique" du génome initial est formée. De là, tous les BAC sont fragmentés et chaque partie est séquencée. La carte permet de connaître la séquence du génome.
La méthodologie utilisée par Celera Genomics ne comprend pas de cartes préalables. De la molécule initiale d'ADN, de petits clones sont préparés pour lancer l'analyse de la séquence. Cette route est beaucoup plus rapide, mais quand la plupart du travail est déjà fait, il est beaucoup plus difficile de remplir les lacunes manquantes, car il n'est pas assuré que toutes les parties initiales ont été sélectionnées pour analyser la séquence.
Dans les croquis, on voit de grands fragments d'ADN qui ne codent pas les protéines. En fait, l'héritage génétique des parasites est énorme. Tous ceux qui ne sont pas des gènes ont été appelés “ADN poubelle”, mais il faut reconnaître que ces longues chaînes d'ADN peuvent avoir une fonction qui n'est pas connue.
D'autre part, la presse a donné beaucoup d'importance à ce que le nombre de gènes soit inférieur à celui prévu. Selon le projet public il y a environ 31.000 gènes et ceux de Celera environ 39.000. Mais avant de donner un bon n'importe quel nombre doit être fixé sur la façon de compter.
Les deux organisations ont utilisé des logiciels qui cherchent des gènes. Ces programmes ont converti les séquences des gènes déjà identifiés en bases. Cependant, lorsque cette méthode a déjà été appliquée, une erreur expérimentale a été détectée et un facteur de correction a été ajouté au résultat du comptage informatique. Ainsi, par exemple, les projets publics ont "détecté" près de 24.500 gènes et ont reconnu qu'il y a 6.800 autres qui n'ont pas été trouvés. Au total, ils seraient environ 31.000 gènes. Après des calculs similaires, la société Celera Genomics a publié environ 39.000.
On constate que ces nombres ne sont pas provisoires. Selon les scientifiques allemands Peer Bork et Richard Copley, rédigés dans la revue Nature, ces chiffres peuvent varier considérablement. En outre, le nombre de gènes n'est pas la seule caractéristique propre à une espèce. Les vertébrés n'ont pas eu à développer des gènes spécifiques pour devenir vertébrés. Le rôle de chaque gène et les complexités de réplique sont également liés à la capacité de la nature à générer de la biodiversité. Le nombre de gènes codant le génome de la souris avec le nôtre ne doit pas être représentatif.
En général, un gène code une protéine. Cela a été approuvé à ce jour. Mais peu à peu, les biochimiques étudient également d'autres alternatives. Et c'est que les gènes humains ne sont pas continus. Dans la molécule d'ADN sont coupées les parties qui codifiera la protéine et se poursuit ailleurs. Les séquences entre les intervalles sont appelées introns. La fonction d'Introies n'est pas encore comprise. Cependant, ils sont également transcrits, de sorte que l'ARN messager doit "tenir" avant de quitter le cytoplasme.
Plus le nombre d'introïts ayant un gène est élevé, plus il y a de chances de créer différents messagers ARN. Nous en savons peu, mais il a été démontré qu'il peut être lié à la complexité et la diversité des protéines. Le génome humain a une fréquence élevée d'introi, supérieure à tout autre génome que nous connaissons. Cela signifie que la diversité des messagers ARN est également très grande.
Probablement, les introies interviennent également dans le règlement et l'activation des gènes. Ceci est confirmé par l'étude de l'interaction entre les gènes éloignés de la chaîne ADN et, par conséquent, de la position et l'organisation tridimensionnelle des acides nucléiques à l'intérieur du noyau. Récemment, une recherche curieuse sur la structure du moteur moléculaire que les virus utilisent pour introduire l'ADN dans le stockage protéique a été publiée. L'étude du fonctionnement de cette molécule pourrait clarifier la topologie d'accumulation d'ADN. De nombreuses lignes de recherche liées au génome sont ouvertes.
Il est clair que pour l'avenir, il faudra d'abord définir la séquence. Les participants affirment également que la technologie utilisée est limitée. Entre autres choses, l'analyse de la composante hétérocromique du génome a été refusée dès le début, car dans la solution utilisée ce composant n'est pas stable. Les généticiens, cependant, ont supposé une partie avec peu de gènes, mais cela est également sur le point d'être vu. Cependant, il est possible de commencer à travailler avec l'ébauche pour les scientifiques et, même si ce n'est que pour satisfaire leur curiosité, aussi pour regarder le projet publié par le projet public sur le web http://genome.cse.ucsc.edu.