Tipogenetika

A szövegbányászat egyik érdekes és igen speciális határterülete a tipogenetika. Az elnevezés a tipográfiai genetika terminológia rövidített változata. A tipogenetika a biológiai genetika speciális kiterjesztése, annak karaktersztring alapú tanulmányozása. Elsősorban genetikai, illetve polimertechnológiai területen lehetnek alkalmazásai, de sztringmanipulációs jellege miatt érintőlegesen a szövegbányászat területéhez is kapcsolódik. A téma — amely közel áll a mesterséges élettel kapcsolatos kutatásokhoz és a sejtautomatákhoz — az első publikáció óta (Hofstadter, 2000) egyre nagyobb érdeklődést és kutatási aktivitást vált ki világszerte. A tipogenetika iránti érdeklődést a biológiai genetika eredményei nagy mértékben elősegítették.

A tipogenetikai modell áttekintése

A tipogenetika néhány karakterláncokra vonatkozó szabály által leírt mesterséges rendszer, amely szöveges sztringeken keresztül alkalmazza a genetika eredményeit és módszereit. A szabályokon kívül a rendszerben sztring átalakító műveleteket, ún. mesterséges enzimeket is értelmezünk. A modell formálisan tehát három komponensével írható le: sztringek, enzimek és szabályok (ez utóbbiak tényleges alkalmazásai a műveletek).

Nézzük részletesebben a tipogenetikai modell ezen alkotóelemeit:

A tipogenetikai rendszer alapfolyamata az 1. ábrán látható.


PIC
1. ábra. A tipogenetikai rendszer alapfolyamata


A tipogenetika, ill. a sztringmanipuláció egyik kézenfekvő, érdekes kérdése, hogy előállhat-e olyan helyzet, amikor a leszármazott sztringek között szerepel az eredeti sztring is, azaz a modell tartalmazza-e az önreprodukciós tulajdonságot. Mint látni fogjuk, a válasz igen: bizonyos tipogenetikai sztringek képesek az önreprodukcióra. Amennyiben a rendszerben lévő sztringekre rekurzív módon alkalmazzuk a szabályrendszert, akkor egy fraktálhoz hasonló eredményhez jutunk, amelyben fellelhető az önhasonlóság, az önhivatkozás és az önreprodukció. Az önreprodukció definíciója szerint egy populáció azon egyedei rendelkeznek önreprodukciós képességgel, amelyek egy szaporodási ciklust követően képesek elérni, hogy a következő generációban is változatlanul jelen legyenek.

A tipogenetikai sztringek azon kívül, hogy a modell alaphalmazának tekinthetőek, az enzimek formájában magukban kódolják a saját magukon elvégzendő műveleteket is, amelyek megvalósítják a szaporodási ciklusokat, és újabb generációkhoz vezetnek. Az újabb generációkhoz vezető műveleteket elvégző enzimek tehát a sztringekbe kódolva implicit módon találhatóak meg a rendszerben. Egy sztring több enzimet is kódolhat önmagában — hasonlóan ahhoz, ahogy a DNS-szál kódolja azokat az enzimeket, amelyek a szaporodásnál elvégzik a DNS-szálon a műveleteket. Az ún. fordítás során egy adott enzim elvégzi az általa kódolt műveletet egy megfelelő sztringen. Egy enzim több sztringre is hathat egyszerre, illetve az enzimműveletek során több sztring is keletkezhet. A fordítás során (amikor a sztringből enzim keletkezik) a sztring megmarad eredeti formájában, ilymódon képes tárolni egy sztring a saját maga átalakítására szolgáló enzime(ke)t.

Az eredeti tipogenetikai rendszer formális felépítése

Az alábbiakban megadott definíciók az elsőként publikált tipogenetikai rendszer modelljét írják le (Hofstadter, 2000). Ettől eltérő tipogenetikai rendszerek is elképzelhetőek más szabályrendszerrel és más karakterkészlettel. Ilyen irányú kutatások találhatóak meg Morris és Varetto írásaiban (Varetto, 1993).

Az alaphalmazt az alábbi négy karakter, {A,C,G,T } , és a szóköz alkotja, az ebből alkotott karakterláncok a sztringek (pl. GATTACA_AACCTT). A tipogenetikai terminológia a karaktereket a genetikai párhuzam miatt bázisnak nevezi, az általa elfoglalt pozíció pedig az egység. Például az ACGGTTA sztringben a C bázis a második egységben található. A bázisok két osztályba sorolhatóak: purinok, illetve pirimidinek. Minden bázisnak van komplementere a másik osztályból, azaz a bázisok bázispárokat alkotnak. A bázispárokat és osztályaikat az 1. táblázat tartalmazza.


1. táblázat. Bázispárok



Purin Pirimidin



A ← → T



G ← → C




A fordítás az a riboszómák által végzett folyamat, amelynek során egy szrtringből enzim vagy enzimek keletkeznek. A fordítás a feldolgozott sztringet érintetlenül hagyja. A folyamat egyirányú: csak sztringekből keletkezhet enzim. A fordítás a sztringben egymás után található bázisokat páronként tekinti. Amennyiben a sztring páratlan bázist tartalmaz és a végén egy bázis marad, akkor azt a fordítás során figyelmen kívül hagyjuk. A fordítási folyamat aminosavakat generál, minden tekintett bázispár egy aminosavnak felel meg. Az aminosavak olyan műveletek, amelyek egy sztringen képesek valamiféle változtatást végrehajtani. Egy enzim tehát tulajdonképpen aminosavak sorozata. Az aminosavak definícióját a 2. ábra tartalmazza (Hofstadter, 2000).


PIC
2. ábra. Aminosavak. A bal oldali ábrán az eredeti Hofstadter által javasolt aminosavrendszer látható, a jobb oldalon ennek Varetto által módosított változata (Hofstadter, 2000)


Az AA bázispárnak speciális szerepe van: ez jelzi a sztringben az enzimek közötti határt, tehát gyakorlatilag a szóközt kódolja. Ennek segítségével lehet egy sztringbe több enzimet is kódolni.

PÉLDA. Tekintsük az CGCTAATAAGT sztringet. A fordítást során ebből két enzim keletkezik: a CGCT és a TAAG szálak által kódolt cop-off és rpy-del enzimek. A sztring végén lévő T nem kerül feldolgozásra, mert nincs párja. Vegyük észre, hogy a második AA sztringrész nem szóközt kódol, hiszen nem tartoznak egy bázispárba: az első A az előző bázispár, TA második bázisa, a másik A pedig az AG bázispár első bázisa. Megjegyezzük, hogy két egymás utáni AA sztring esetén nem keletkezik enzim, hanem továbblép az algoritmus.

Az enzimek úgy végeznek műveleteket a sztringeken, hogy azokhoz kapcsolódnak. A művelet kimenete attól függően változhat, hogy hol csatlakozik az enzim a sztringre. Az enzim kötődési preferenciával rendelkezik, amely meghatározza, hogy a sztring mely részeihez csatlakozhat, mielőtt a sztringmanipuláló műveletét megkezdené. Ahogyan a biológiai genetikában beszélhetünk a proteinek másodlagos struktúrájáról, úgy a tipogenetikai rendszerben is értelmezve van az enzimek másodlagos struktúrája. Ez utóbbit az aminosavak csavarodási iránya befolyásolja. A 2. ábrán az s , r és l alsó indexekek rendre arra utalnak, hogy az aminosavnak nincs csavarodása, a csavarodás jobb, illetve bal irányú. Konvenció szerint a vizuális szemléltetésnél az első aminosavat úgy rajzoljuk, hogy a következő aminosav tőle mindig jobbra essen. A kötődési preferenciát az enzim utolsó két aminosava közötti kapcsolat iránya határozza meg. Amennyiben egy enzim csak egy aminosavból áll, tehát a fenti definíció nem alkalmazható rá, akkor megegyezés szerint az A bázishoz kapcsolódik. A modell alapfeltételeitől függően a gondolatkísérletet tovább lehet árnyalni azzal, hogy mi történik, ha nincs A bázis sem. Ekkor megegyezés szerint általában az enzim nem képes kifejteni semmilyen hatást egyik sztringen sem.


2. táblázat. Kötődési preferencia


Utolsó linkKötődési preferencia


⇒ A


⇑ C


⇓ G


⇐ T



A kötődési preferenciák az utolsó aminosav csavarodási iránya alapján a 2. táblázatban láthatóak.

PÉLDA. A kötődési preferencia meghatározásának szemléltetésére nézzük a 3. ábrán látható példát. Az aminosavak az eredeti aminosavtáblázat alapján kerültek kiválasztásra. Mivel az utolsó link balra mutat, ezért az enzim a T bázishoz tud kötődni.


PIC
3. ábra. Példa kötődési preferenciára


Az eddig ismertetett tipogenetikai rendszer több vonatkozásban is nem determinisztikus. Amennyiben egy sztringre több helyen is rá tud csatlakozni egy enzim, akkor fenti definíciók nem határozzák meg, hogy mi történjék. Több rendszer képzelhető el attól függően, hogy több lehetséges kapcsolódási bázis jelenléte esetén hogyan definiáljuk az enzimek kötődési szabályát. Amikor egy enzim hozzátapadt egy sztringhez, akkor az enzim minden aminosava elvégzi a műveletét az adott bázison. Amint egy bázissal végzett az enzim, akkor a következőre lép. Az enzim mozgása a sztringen analóg azzal, ahogy a Turing-gép olvasófeje halad végig a szalagon. Konvenció szerint a sztringben azt a bázist, amelyhez éppen hozzátapadt egy enzim, kis betűvel jelöljük. Így a CAGGCtA sztring esetében a T bázishoz tapadt hozzá éppen egy enzim.

Miközben egy enzim műveletet végez egy sztringen, a megfelelő bázispár hatására életbe lép az ún. másolási üzemmód. Ennek során az éppen olvasás alatt lévő aktuális bázis komplementere generálódik, és tapad hozzá az éppen aktuális bázishoz. Az enzimek az így keletkező komplementer sztringre is átválthatnak, és azon is végezhetnek műveletet. A komplementer sztringet megjelenítéskor fordítottan írjuk az eredeti sztring fölé (ld. pl. a 4. ábrát). Míg az eredeti sztring olvasása balról jobbra történik, addig a komplementer sztring jobbról balra olvasandó. Az ábrán másolási üzemmód esetén kapott eredmény látható egy enzim működése után.


PIC
4. ábra. Másolási üzemmód utáni eredmény


Ez gyakorlatilag három különálló sztringet jelent: ACCATTGCA, GCA, GG. Ahogyan a fordított karaktereket jobbról balra olvassuk, úgy az aminosavak műveleteinek jobb és bal irányai is ennek megfelelően értelmezendőek. Ha egy enzim minden aminosava befejezte a működését az adott sztringen, akkor az enzim leválhat a sztringről. Amennyiben egy szóközre, tehát két bázislánc közé, lép az enzim, ott is megszakad működése az előző bázisszálon, kivéve, ha másolási üzemmódban az rpy, rpu, lpy és lpu aminosavak aktívak. Az alábbiakban ismertetjük az egyes aminosavak működését (ld. még a 2. ábrát).

Egy szóközökkel elválasztott bázisszálakból álló sztring azokat az enzimeket kódolja, amelyekkel a sztringet fel kell dolgozni. Ekkor a kiinduló sztringből fordítás után létrejönnek azok az enzimek, amelyek utána az eredeti sztringen elvégzik a vonatkozó műveleteket és új sztring-leszármazottakat hoznak ezzel létre. Megegyezés kérdése, hogy a létrejött enzimek milyen sorrendben kerüljenek sorra. Az új sztringek kódolt formában szintén magukban hordozzák azokat az enzimeket, amelyek fordítás után a saját feldolgozásukat szabályozzák. Ily módon a tipogenetikai rendszerben a sztringek evolúciója több generáción keresztül folyhat.

PÉLDA. Tekintsük a CCCCACAAAG sztringet, amely az mvl-mvl-cut és a del aminosavakat kódolja. Ekkor az mvl-mvl-cut aminosav hatására, amelynek a kötődési preferenciája A, a 11. ábrán látható folyamat történik feltéve, hogy a legutolsó A -hoz kötődik az enzim induláskor.


PIC
11. ábra. Az mvl funkció működése


Az AAG bázisszál a folyamat melléktermékének tekinthető. Kérdés, hogy a del aminosav melyik sztringen kezdje el működését. További döntési lépést jelentene, ha lenne komplementer bázisszál is. Ezen kérdések tisztázása, ill. a megfelelő alternatívák kiválasztása megegyezés kérdése, ettől függően eltérő tipogenetikai rendszerek jönnek létre, különböző eredményekkel.

Tipogenetikai sztringek tulajdonságai

A leszármazott sztringeket úgy kapjuk, hogy az eredeti sztringek általuk kódolt enzimeket végrehajtjuk a kódot tartalmazó sztringre. A leszármazott sztringek alapján értelmezzük a tipogenetikai sztringek különböző tulajdonságait. Például ha a leszármazott sztringek között van olyan, amelyik megegyezik az eredetivel, akkor az eredeti sztring önreprodukciós képességű. A sztringek leszármazása egy körmentes irányított gráffal szemléltethető, ahol a csomópontok a bázisszálak, a köztük lévő él pedig a leszármazási viszonyt (gyerek–szülő) fejezi ki, azaz az enzimműveletek folyamatát. A leszármazottjaik tulajdonságai alapján az sztringek az alábbi osztályokba sorolhatók:

  1. Meddők osztálya (dud). Ide tartoznak azok a sztringek, amelyek nem képesek leszármazott sztringek előállítására. Ez például akkor fordulhat elő, ha a sztring olyan enzim(ek)et kódol, amely(ek) nem képes(ek) az eredeti sztringhez kötődni. Ilyen például a CGGC bázisszál, ami a cop-inc enzimet kódolja. Ennek azonban A a kötődési preferenciája, így nem tud a sztringre kötődni.
  2. Önátörökítők osztálya (self-perpetuators). Ide azok a sztringek tartoznak, amelyek az enzimműveletek rekurzív alkalmazásai során folyamatosan vagy periodikusan jelen vannak a rendszerben a sztringek között, de soha nem fordul elő belőlük másolat, csak mindig egy példány, azaz a sztring periodikusan van jelen adott generációkban. Az osztály speciális alosztályát azon sztringek képezik, amelyek amellett, hogy önmagukat átörökítik a következő generációba, még olyan leszármazott sztringe(ke)t is eredményeznek, amelyek szintén önátörökítőek. Példa lehet az önátörökítő sztringre a TCCGCAATTT bázisszál, amely a rpu-cop-mvr-swi-lpu enzimet kódolja. Az enzim létrehoz egy másik sztringet, de az eredeti sztringet sértetlenül hagyja.
  3. Szaporodók osztálya (self-replicators). Ide azok a sztringek tartoznak, amelyek amellett, hogy önátörökítőek, a későbbi generációk során további másolatokat készítenek magukból biztosítva szaporodásukat a rendszerben.

PÉLDA. Tekintsük a CGCGCGCGTAATATAACGATCGCGCGTATTAATTAATACGCGCGATCGTTATATTACGCGCGCG szaporodó sztringet, amely négy enzimet kódol, rendre C, G, C és A kötődési preferenciákkal:

  1. CGCGCGCGTAATAT: Az első enzim balról az első C bázishoz kötődik, és másolási üzemmódra váltva az első három bázishoz komplementer bázispárokat rendel a komplementer bázisszálon.
  2. CGATCGCGCGTATT: A második enzim a jobbról az első G-hez kötődik, és beilleszt föléje egy komplementer C-t másolási üzemmódban, majd átvált a komplementer bázisszálra. Ezt követően az enzim a teljes sztring hosszában másolási üzemmódban minden eredeti bázis fölé beilleszti komplementerét. Ennek eredményeként a komplementer bázisszál az eredeti bázisszállal éppen megegyező lesz.
  3. TT: Hatástalan.
  4. TACGCGCGATCGTTATATTACGCGCGCG: Hatástalan.

Az utolsó két enzim változatlanul hagyja a sztringeket. Végül a komplementer és az eredeti sztring kettéválik, ezáltal két teljesen egyforma bázisszál keletkezik. Vegyük észre, hogy az eredeti sztring második fele az első fél komplementere. A biológiában az ilyen tulajdonságú szálakat invertált másolatoknak nevezik.

Egy másik példa szaporodó sztringre a CGTTTTTTTG karakterlánc. Ez úgy képes szaporodni, hogy először előállítja saját komplementerét (CAAAAAAACG), majd ezt követően az eredeti sztring enzimje szükséges ahhoz, hogy a leszármazott sztringből ennek komplementerét, azaz az eredetivel megegyező sztringet generálja. Döntés kérdése, hogy megengedjük-e azt, hogy egy enzim ne csak arra a sztringre hasson, ami őt kódolta, hanem bármelyik másikra, így a leszármazott sztringekre is. A 12. ábrán további két szaporodó sztringre látható példa (Hofstadter, 2000; Varetto, 1993).


PIC
12. ábra. Példa szaporodó sztringre


Forrás:

D. R. Hofstadter. Gödel, Escher, Bach — Egybefont gondolatok birodalma. Typotex, 2000.

L. Varetto. Typogenetics: An artificial genetic system. J. of Theoretical Biology, 160:185–205, 1993.