Téléchargement en cours

Plongée dans le génome

Signet
Position sauvegardée

Plongée dans le génome

pour comprendre le langage

Pour comprendre des objets biologiques complexes, comme un génomeL'intégralité de la séquence d'ADN portée par les chromosomes d'un organisme. Le génome de la drosophile contient environ 180 millions de lettres, celui de l'homme en contient plus de 3,3 miliards. La séquence du génome est particuliere à chaque espèce. ou des gènes, nous avons besoin de les découper, de les décortiquer dans leurs différents composants. Une analogie assez simple illustre bien cette démarche. Lorsque l'on est face à un texte qui a été écrit dans un langage et une écriture qui nous sont totalement inconnus - des hiéroglyphes égyptiens par exemple -, on peut comprendre intuitivement que l'on a affaire à un texte qui contient une information. Mais pour autant, nous ne sommes pas capables de saisir la signification de ce texte ni même parfois d'identifier les mots, les lettres ou les idéogrammes. La première chose que l'on essaye alors de faire, c'est de découper ce texte en unités vaguement fonctionnelles pour tenter de tirer un sens de l'agencement des éléments.

Il en va de même du déchiffrage de l'ADN. C'est un long texte dans lequel on cherche à identifier certaines portions qui ont un sens particulier (les biologistes parlent de fonction). Dans ce chapitre, nous allons faire un plongeon dans l'ADN et nous intéresser à des portions de séquence d'ADNFragment d'ADN composé de nucléotides (les lettres chimiques de l'ADN) dont l'ordre, ou la séquence, est particulière à ce fragment. Une séquence d'ADN peut avoir n'importe quelle longueur ; l'intégralité de la séquence d'ADN d'un organismes constitue son génome complet. particulières.

A la recherchedes interrupteurs des gènes

Signet
Position sauvegardée

De la difficulté de repérer les interrupteurs génétiques

Même quand on a le génome complet

Nous disposons aujourd'hui de la séquence du génome de certaines espèces. C'est le cas pour la mouche Drosophila melanogaster, qui en tant que modèle génétiqueEspèces sélectionnées pour des particularités les rendant facilement manipulables par les généticiens et les biologistes au laboratoire (par exemple un temps de génération assez court, des coûts d'élevage modérés, et une relative simplicité). Ces espèces sont des "modèles" en ce qu'elles représentent plus qu'elles-mêmes. Les phénomènes biologiques qu'on étudie chez ces modèles ont une portée conceptuelle ou réelle générale, voire universelle. Par exemple, le fonctionnement des gènes de la drosophile renseigne considérablement sur le fonctionnement des gènes de l'ensemble des animaux (homme compris). est notre espèce de référence. Avoir accès au génome de cette espèce signifie concrètement que l'immense collier de lettres qui constituent son ADN, est consultable par tous sur internet, sur le site FlybaseBase de données publique et d'accès gratuit recensant toutes les informations sur Drosophila melanogaster et d'autres espèces de drosophiles, en particulier sur les gènes de ces espèces.. On peut, sur ce site, littéralement parcourir cette séquence, et donc explorer le contenu de ce génome.

« Nous avons le code pour identifier les séquences codantes, mais pas celui pour reconnaître les séquences régulatrices. »

Des annotations accompagnent cette séquence. En particulier, la séquence codante de chaque gène est balisée. D'autres éléments des gènes dont nous parlerons plus loin sont aussi annotés, et sont donc facilement repérables. Prenons un exemple concret, encore une fois celui du gène yellow : on peut le localiser très précisément, accéder à sa séquence codante et puis accéder à toutes les séquences qui flanquent sa séquence codante, ses séquences non-codantes qui incluent des interrupteurs génétiques. Le gène yellow produit une sorte de pinceau noir qui va colorier les différentes parties du corps de la mouche. Souvenons-nous que les mouches aux ailes tachetées ont également le bout de l'abdomen ainsi que d'autres parties du corps peints en noir. On peut donc s'attendre à ce que, chez les mouches aux ailes tachetées, le gène yellow soit flanqué de différentes séquences régulatrices qui vont lui permettre d'être actif au bout de l'abdomen et dans les ailes.

Faire l'hypothèse que de telles séquences existent est une chose, les identifier simplement en lisant la séquence en est une autre. A ce jour on ne sait pas, simplement sur la base de la séquence, prédire qu'une région d'ADN flanquant une séquence codante va permettre l'activation du gène à tel ou tel endroit du corps. Il faut tester expérimentalement la fonction putative de ces régions d'ADN pour le savoir.

L’organisationdes gènes

Signet
Position sauvegardée

L'organisation des gènes

ou le code génétique

En lisant la séquence d'ADN, on est capable de distinguer l'ADN qui va donner naissance à des protéines (ce qu'on appelle la séquence codante) du reste de la séquence (par opposition, la séquence non-codante). En effet, en lisant l'enchainement des lettres (des bases chimiques qui composent l'ADN – A, T, C, G) on sait reconnaitre les triplets de lettres qui vont déterminer l'incorporation d'un acide aminéConstituants de base des protéines, les acides aminés sont de petites molécules qui, lorsqu’ils sont reliés entre eux par une liaison dite peptidique, peuvent former de longues chaines (plusieurs centaines d’acide aminés). Ce sont ces chaines, ou polypeptides, qui repliées en structures tridimensionnelles deviennent des protéines. On trouve 20 acides aminés différents dans le vivant, qui confèrent aux protéines qu’ils composent des propriétés chimiques, électriques et structurales particulières. dans la protéine produite à partir de ce gène (les acides aminés sont les composants élémentaires des protéines). Cette capacité à prédire la séquence d'une protéine à partir de la séquence d'ADN est formalisée par un code génétiqueCorrespondance entre la séquence codante d'un gène et la séquence d'acides aminés de la protéine issue de ce gène. La séquence codante d'un gène est une suite de bases chimiques représentées par les lettres T, A, G et C (les constituants de l'ADN). L'enchaînement de ces lettres se lit par triplets (exemple : ATG, CGA, ...) dont chacun détermine (ou "code") un acide aminé particulier, les constituants des protéines. Ainsi, une suite de triplets donnée va déterminer une séquence d'acides aminés particulière, constituant ainsi une protéine particulière.. Il a été déterminé il y a à peu près 50 ans par des généticiens et il est universel à travers le monde vivant.

A l'inverse, on ne connait pas de code génétique qui permettrait de déchiffrer le contenu de l'ADN non-codant. Cet ADN non-codant inclut en particulier les interrupteurs génétiques qui vont permettre d'allumer ou d'éteindre les gènes voisins dans différentes cellules à différents moments, au cours du développement embryonnaire en particulier, mais également pendant toute la vie adulte. On ne sait pas, à partir de la seule lecture de la séquence de cet ADN non-codant, reconnaitre les interrupteurs génétiques ni prédire où et quand ils vont agir.

Pour identifier ces interrupteurs génétiques et déterminer leur activité, il est nécessaire de les tester individuellement (nous verrons comment à la page suivante). On sait simplement qu'ils sont généralement situés en amont ou en aval des gènes, à des distances variables, et leur nombre est très variable selon les gènes.

Réveler lesinterrupteurs des gènes

Signet
Position sauvegardée

Les constructions rapporteurs

pour révéler les interrupteurs

Afin de localiser des interrupteurs génétiques, nous devons tester expérimentalement l'activité de séquences d'ADN dont on pense (parce qu'elles flanquent une séquence codante) qu'elles peuvent contenir des interrupteurs génétiques. L'analogie avec un interrupteur électrique illustre bien le principe de la démarche : pour révéler l'efficacité d'un interrupteur électrique, la meilleure façon est de le mettre en circuit avec une ampoule et de voir si l'ampoule s'allume quand on actionne l'interrupteur, et où elle s'allume. Pour les généticiens, l'ampoule utilisée est une protéine fluorescente verte : la GFPAcronyme de Green Fluorescent Protein. La GFP est une protéine qui fluoresce naturellement dans le vert en réponse à une excitation par de la lumière bleue. Le gène qui code pour cette protéine appartient à l'espèce de méduse Aequorea victoria, de laquelle il a été détourné à des fins biotechnologiques. L'utilisation de la GFP a révolutionné l'étude du vivant, en permettant de suivre in vivo des processus biologiques à l'échelle cellulaire. (Green Fluorescent Protein). On peut associer la séquence codante du gène codant pour cette protéine à un fragment d'ADN susceptible de contenir un interrupteur génétique. Cette association du gène de la GFP et de la séquence qu'on teste, sera introduite dans le génome des mouches (en produisant des mouches transgéniquesLes organismes transgéniques, et les mouches en particulier, sont le produit d'une manipulation par la main de l'homme par laquelle un morceau d'ADN étranger est intégré de façon permanente (et donc transmissible) dans le génome. La production de mouches transgéniques s'appuie principalement sur l'utilisation d'éléments transposables, détournés de leur contexte naturel, et utilisés comme vecteurs pour permettre l'intégration.), ce qui permettra de visualiser l'activité de la GFP (et donc de la fluorescence) dans des mouches vivantes (étapes qui seront décrites dans les chapitres suivants). Ces constructions sont appelées des « constructions-rapporteurs », et le gène de la GFP est qualifié de gène « rapporteur ».

« Pour les généticiens, l'ampoule utilisée est une protéine fluorescente verte : la Green Fluorescent Protein ! »

Si la séquence d'ADN que l'on teste contient un interrupteur génétique, nous allons révéler son activité régulatoireQualifie, dans le cadre de ce web-book, la capacité d'un fragment d'ADN à contrôler l'expression d'un gène à proximité. Cette activité qui peut augmenter ou diminuer la production du gène. Elle est conférée par les facteurs de transcription (des protéines) qui lient ce fragment et interagissent avec l'ADN polymèrase. en visualisant la fluorescence émise par la GFP. C'est par exemple ce que nous avons fait il y a quelques années avec une séquence qui a une activité d'interrupteur dans l'abdomen des mouches. En la couplant avec le gène codant pour la GFP et en introduisant cette construction dans le génome des mouches, on voit que les mouches ont un abdomen vert fluorescent. Cette observation nous révèle que la séquence testée agit comme un interrupteur génétique qui active l'expression d'un gène dans l'abdomen.

La découverte de la Green Fluorescent Protein (GFP)

Aequorea victoria
Osamu Shimomura
Signet
Position sauvegardée

La découverte de la GFP

dans une espèce de méduse

La GFP, la protéine fluorescente verte, a été isolée à partir d'une méduse (l'espèce Aequorea victoriaEspèce de méduse vivant sur la cote ouest des Etats-Unis et dont a été extraite la GFP puis le gène codant cette protéine. par un chercheur japonais, Osamu ShimomuraCo-lauréat avec Martin Chalfie et Roger Tsien du Prix Nobel de chimie en 2008 pour la découverte de la GFP (Green Fluorescent Protein) à partir d'une méduse, puis des applications biotechnologiques qui en ont découlés. La GFP sert de marqueur pour suivre dans les cellules et les organismes des protéines auxquelles elle peut être fusionnée, ou bien pour révéler l'activité des interrupteurs génétiques., dans les années 60. Cette protéine est responsable de la bioluminescence émise par des méduses, qui donne également un aspect fluorescent à d'autres organismes marins. La découverte de cette protéine a donné lieu à de très nombreuses applications en biologie. Trois chercheurs (dont Shimomura) ont été consacrés en 2008 par le prix Nobel de chimie, non seulement pour la découverte de cette protéine, mais aussi pour sa déclinaison en diverses applications (que l'on doit à deux autres chercheurs, Martin Chalfie et Roger Tsien).

La GFP et ses variationspour colorier les cellules

Signet
Position sauvegardée

La GFP et ses variations

pour tracer les mécanismes du vivant

Peu après la découverte de la GFP, Martin Chalfie eut l'idée d'utiliser cette protéine pour visualiser dans des cellules le comportement d'autres protéines. Il a ainsi fusionné le gène codant pour la GFP à la séquence codante d'autres gènes. Ceci a alors permis de suivre la localisation de ces protéines chimériques dans différents compartiments cellulaires au sein de cellules d'un organisme (en l'occurrence le nématode). Il était donc devenu possible de détecter dans un organisme vivant l'activité et la localisation des protéines : une grande première !

« Cette fluorescence verte n'est pas émise dans la lumière visible, elle ne répond qu'à la lumière bleue ou aux ultra-violets. »

Cette fluorescence verte n'est pas émise dans la lumière visible, elle ne répond qu'à la lumière bleue ou aux ultra-violets. Autrement dit, il faut illuminer les tissus exprimant la GFP avec de la lumière bleue ultraviolette pour que la lumière verte soit émise spontanément par la protéine de GFP.

Le troisième lauréat du prix Nobel, Roger Tsien, a lui développé de très nombreux dérivés de la GFP permettant de colorier avec différentes teintes (rouge, vert, orange, cyan) plusieurs protéines afin de les suivre simultanément dans les cellules et les organismes vivants et ainsi mieux comprendre leurs fonctions.

La GFP permet également de repérer l'activité de séquences régulatrices, les interrupteurs qui contrôlent l'activation des gènes, lorsque la séquence codante de la GFP est fusionnée avec la séquence d'ADN d'un interrupteur génétique.

La cuisine de l'ADN

Signet
Position sauvegardée

La cuisine de l'ADN

pour isoler les interrupteurs

En soi, la connaissance de la localisation des séquences non-codantes ne nous renseigne ni sur la localisation des différents interrupteurs qui entourent chacun des gènes ni sur la fonction de ces interrupteurs. Comment, alors, localise-t-on au sein des séquences non-codantes les interrupteurs d’un gène ? La démarche consiste à chercher à tâtons, en découpant, un peu au hasard, les séquences d’ADN et en testant individuellement l’activité régulatrice des différents fragments à l’aide d’un gène rapporteur comme la GFP.

Pour identifier un (hypothétique) interrupteur du gène yellow actif au bout de l’aile, nous nous intéressons, logiquement, aux séquences non-codantes qui flanquent ce gène chez une espèce aux ailes tachetées. La première étape va consister à découper ces longs fragments d’ADN non-codants en plus petits fragments dont on va tester individuellement l’activité régulatrice en les fusionnant au gène codant pour la GFP. On va donc produire des constructions rapporteursMolécules d’ADN synthétiques dans lesquelles la séquence codante d’un gène (rapporteur) dont le produit est visible (par exemple la GFP) est placée sous contrôle d’une séquence régulatrice d’intérêt. Une telle construction, intégrée dans le génome d’un organisme, va permettre d’exprimer le gène rapporteur dans les seules cellules dans lesquelles la séquence régulatrice est active. Elle permet de rendre ces cellules visibles sans perturber la vie de l’organisme. en nombre variable : plus la séquence non-codante est longue et plus on va générer de constructions-rapporteur (plusieurs dizaines parfois pour un seul gène).

Localiser un interrupteur génétique, c’est un peu chercher une aiguille dans une meule de foin. La base de cette recherche c’est la manipulation de fragments d’ADN. Cela ne relève pas de la magie, mais bien plus de la cuisine. Une cuisine qui consiste à isoler, amplifier, découper et recoller des fragments d’ADN, comme ceux par exemple qui codent pour un gène rapporteur (celui de la GFP) et des fragments d’ADN non-codants, contenant d’hypothétiques interrupteurs génétiques.

Recopier l’ADN

Signet
Position sauvegardée

Recopier l’ADN

pour le travailler

Pour manipuler l'ADN in vitro, les biologistes moléculaires utilisent des enzymesProtéine capable de catalyser une réaction chimique donnée. Les enzymes agissent au sein des cellules dans divers processus métaboliques et régulatoires, en permettant la synthèse, la digestion ou la modification de molécules organiques. (des protéines) qui sont pour la plupart présentes chez tous les organismes vivants. L'une des enzymes couramment utilisée pour recopier l'ADN est l'ADN polyméraseEnzyme responsable de la replication des molécules d'ADN, cette protéine est capable d'assembler les composants élémentaires de l'ADN, les bases chimiques A, T, G et C, en de longues chaînes qui s'enroulent sous forme de doubles hélices. L'ADN polymérase a notamment été détournée de son rôle dans les cellules pour devenir un élément-clé de la technique de PCR.. Cette ADN polymérase parcourt la molécule d'ADN et la dénature pour la faire passer de l'état double-brin à l'état simple-brin. Puis l'enzyme va « lire » la séquence de lettres sur l'un des deux brins et au fur et à mesure de sa progression va incorporer des nucléotidesComposants élémentaires des acides nucléiques (ADN et ARN) au même titre que les acides aminés sont les composants élémentaires des protéines. Liés les uns aux autres en une longue chaîne, les nucléotides forment les molécules d'ADN ou d'ARN. Ils sont les lettres de la séquence de ces molécules. Il existe quatre types de nucléotides, chacun identifié par la base azotée qu'il contient (A, T, G ou C). (les lettres A, T, G et C qui composent l'ADN) pour constituer un nouveau brin d'ADN. Cette incorporation est telle qu'en face d'un A se trouvera toujours un T, et en face d'un C se trouvera toujours un G. Ainsi travaille la polymérase, tricotant de manière progressive la molécule d'ADN, en reconstituant deux molécules d'ADN double-brin contenant chacune deux brins dits complémentaires.

« On peut se demander « à quoi bon recopier l'ADN ? » »

Pourquoi les biologistes moléculaire cherchent-t-il donc à recopier l'ADN ? Parce que c'est la méthode la plus simple pour isoler un fragment de séquence que l'on va ensuite manipuler. C'est un peu comme si on s'intéresse à une phrase contenue dans un livre. Plutôt que d'arracher la page contenant cette phrase, le plus simple est de la recopier. On l'isole en la dupliquant. Il sera ensuite aisé de la manipuler : par exemple en découpant davantage avec des ciseaux des bouts de phrase, en retournant la phrase, en la recombinant ou alors en l'accolant à d'autres phrases existantes pour composer un nouveau texte. Pour l'ADN c'est la même chose, pour manipuler des fragments on les recopie d'abord, et en un grand nombre de copies !

Réaction de polymérisation en chaîne (PCR)

Signet
Position sauvegardée

Réaction de polymérisation en chaine (PCR)

Pour amplifier un fragment d'ADN en un très grand nombre de copies, les biologistes moléculaires utilisent une technique qu'on appelle la PCRAcronyme de Polymerase Chain Reaction (réaction de polymérisation en chaine), une technique de biologie moléculaire qui permet de répliquer très rapidement et dans de très grandes quantités un fragment d'ADN choisi. Cette technique ouvre la voie à de très nombreuses applications, depuis les expériences de biologie moléculaire en recherche fondamentale, jusqu'au diagnostique médical ou prénatal, ou encore la recherche de preuves sur une scène de crime. ou réaction de polymérisation en chaine (Polymerase Chain Reaction en anglais). Cette PCR s'effectue en trois étapes :

1.- Lors de la première étape, les deux brins de la molécule d'ADN sont séparés l'un de l'autre : on parle de dénaturation. Cette dénaturation s'opère en chauffant la réaction autour de 95°C pendant quelques secondes.

2.- La deuxième étape de la PCR fait intervenir des petits fragments d'ADN qui sont synthétisés par les chercheurs que l'on appelle des amorcesFragments d'ADN simple brin de quelques dizaines de nucléotides, synthétisés in vitro, et permettant d'initier la synthèse de fragments d'ADN choisis lors d'une PCR. Les amorces fonctionnent par paires. Elles correspondent aux bornes du fragment qu'on cherche à amplifier par PCR, et chacune est complémentaire d'une extrémité du fragment d'intérêt. Ces amorces se commandent aujourd'hui en ligne auprès de compagnies spécialisées, qui les produisent en quelques heures.. Ce sont des fragments d'ADN simple brin qu'on utilise par paires dans chaque réaction de PCR. Chacun de ces fragments correspond à une séquence complémentaire d'une extrémité de la région d'ADN à amplifier. Ces deux amorces vont se coller (ou s'hybrider) aux extrémités de la région d'ADN à amplifier et qui a été dénaturée en simple brin lors de la première étape. Cette deuxième étape d'hybridationEtape de la PCR au cours de laquelle les amorces s'apparient à une molécule d'ADN simple brin, au niveau de séquences complémentaires de la leur. se fait à des températures variant entre 50°C et 60°C (selon la longueur et la composition de séquence des amorces). Ces amorces sont synthétisées in vitro, par des réactions chimiques. Aujourd'hui, les chercheurs déterminent la séquence des amorces qu'ils souhaitent utiliser, puis commandent la synthèse de ces petits fragments d'ADN auprès de fournisseurs spécialisés. Il suffit d'envoyer via internet la séquence de lettres que l'on souhaite et elle nous est livrée sous 48h, sous forme d'ADN lyophilisé.

3.- La troisième étape de la PCR est l'élongation. C'est l'étape pendant laquelle l'enzyme ADN polymérase va recopier l'ADN à partir des amorces qui sont fixées sur la matrice. Comme son nom l'indique, l'amorce sert à démarrer la réaction de polymérisation. L'amplification se fera sélectivement d'une amorce à l'autre. Cette étape d'élongation va se faire à une température avoisinant les 72°C (température optimale de fonctionnement de l'ADN polymérase utilisée).

A l'issue de ces trois étapes, la réaction de PCR a terminé un cycle. Il en résulte deux molécules d'ADN double-brin identiques à la molécule d'ADN de départ. Dans une réaction de PCR, ce cycle de trois étapes va être répété environ 30 à 35 fois de manière à produire en quelques heures des millions de copies de la molécule qu'on souhaite amplifier. La technique de la PCR a été inventée au début des années 1980 par le biochimiste Kary MullisBiochimiste américain, inventeur de la PCR (réaction de polymérisation en chaîne), découverte qui lui valut le Prix Nobel de chimie en 2008., ce qui lui valu de recevoir en 1993 le prix Nobel de chimie.

La PCR est aujourd'hui très couramment utilisée dans la plupart des laboratoires de biologie moléculaire dans le monde. Aussi bien pour des projets de recherche fondamentale que dans des contextes beaucoup plus appliqués comme le diagnostic de maladies (y compris des diagnostics prénataux). Elle est également employée par la police scientifique dans le cadre d'enquêtes.

Des bactériesthermophiles

bactéries thermophiles
Thermophilus aquaticus
Signet
Position sauvegardée

Des bactéries thermophiles

pour optimiser la PCR

Dans les années qui ont suivi l'invention de la PCR, l'une des difficultés auxquelles étaient confrontés les biologistes moléculaires était la faible résistance de l'ADN polymérase aux températures élevées, pourtant nécessaires pour dénaturer les brins d'ADN. En effet, la plupart des enzymes ne supportent pas d'être portées à 95°C pendant très longtemps : elles se dénaturent et perdent leur activité. Cette limitation a longtemps freiné l'efficacité de la PCR. Le problème fut résolu lorsque des biologistes moléculaires eurent l'idée d'utiliser des ADN polymérases provenant de bactéries thermophilesEspèces de bactéries supportant des températures très élevées (jusqu'à plus de 100°C), et rencontrées en particulier au niveau des dorsales océaniques ou dans les sources géothermales., c'est-à-dire de bactéries vivant dans des milieux extrêmement chauds. Ces bactéries sont rencontrées dans les sources d'eau chaude comme celles qui sont au fond de l'océan ou dans les lacs naturels, comme dans le parc de Yellowstone aux Etats-Unis. D'ailleurs, la première ADN polymérase isolée - et toujours utilisée actuellement - provient d'une bactérie appelée Thermophilus aquaticusEspèce de bactérie thermophile, rendue célèbre par son ADN polymérase (la Taq polymerase) détournée par les biologistes pour l'utiliser dans le cadre de la PCR. qui a été isolée dans un des lacs de Yellowstone.

« On voit donc avec cet exemple comment les généticiens et les biologistes moléculaires ont détourné à leur avantage des propriétés naturelles rencontrées dans le monde vivant. »

Ces bactéries thermophiles (ou plus généralement extrêmophiles) sont adaptées à un mode de vie extrême. Elles sont en l'occurrence exposées à de très fortes températures. Toutes leurs protéines - et leur ADN polymérase en particulier - sont adaptées à ces fortes températures. Elles supportent donc très bien d'être portées à 72°C ou 95°C pendant des dizaines de secondes de manière répétée sur le temps d'une réaction de PCR. On voit donc une nouvelle fois avec cet exemple comment les biologistes moléculaires ont détourné à leur avantage des propriétés naturelles rencontrées dans le monde vivant.