Informacije

12: Detekcija gena i genskih proizvoda – Biologija

12: Detekcija gena i genskih proizvoda – Biologija


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

12: Detekcija gena i genskih proizvoda

Sekvenciranje ljudskog genoma: pristupi i primene

Spisak različitih metoda korišćenih za mapiranje ljudskih genoma je dat u nastavku. Ove tehnike su takođe korisne za otkrivanje normalnih gena i gena bolesti kod ljudi.

1. Sekvenciranje DNK: Fizička mapa DNK se može identifikovati sa najvećom rezolucijom.

2. Upotreba sondi: Za identifikaciju RFLP, STS i SNP.

3. Hibridno mapiranje zračenja: Fragmentirajte genom na velike komade i locirajte markere i gene. Zahteva hibride somatskih ćelija.

4. Fluorescentna in situ hibridizacija (FISH): Lokalizacija gena na hromozomu.

5. Mapiranje mesta označenog sekvencom (STS): Primenljivo na bilo koji deo DNK sekvence ako su dostupne neke informacije o sekvenci.

6. Mapiranje oznake ekspresirane sekvence (EST) : Varijanta STS mapiranja eksprimirani geni su zapravo mapirani i locirani.

7. Gel elektroforeza u impulsnom polju (PFGE): Za odvajanje i izolaciju velikih fragmenata DNK.

8. Kloniranje u vektorima (plazmidi, fagi, varijabilne dužine, kosmidi, YACs, BACs).: Za izolovanje DNK fragmenata varijabilne dužine.

9. Lančana reakcija polimeraze (PCR): Za amplifikaciju fragmenata gena.

10. Hodanje hromozoma: Korisno za kloniranje fragmenata DNK koji se preklapaju (ograničeno na oko 200 kb).

11. Skakanje hromozoma: DNK se može iseći na velike fragmente i cirkularizirati za upotrebu u hodanju po hromozomima.

12. Detekcija citogenetskih abnormalnosti: Određene genetske bolesti mogu se identifikovati kloniranjem zahvaćenih gena, npr. Дуцхеннова мишићна дистрофија.

13. Baze podataka: Postojeće baze podataka olakšavaju identifikaciju gena poređenjem DNK i proteinskih sekvenci.

Za razjašnjavanje ljudskog genoma, dve HGP grupe su koristile različite pristupe. IHCSC je pretežno koristio mapu prvo i pristup sekvenci kasnije. Glavni metod je bilo hijerarhijsko sekvenciranje sačmarica. Ova tehnika uključuje fragmentaciju genoma na male fragmente (100-200 kb), njihovo ubacivanje u vektore (uglavnom bakterijske veštačke hromozome, BAC) i kloniranje. Klonirani fragmenti se mogu sekvencirati.

Celera Genomics je koristio pristup sačmaricama sa celim genomom. Ovo zaobilazi korak mapiranja i štedi vreme. Dalje, Celera grupa je imala sreće da ima sekvencione visoke propusnosti i moćne kompjuterske programe koji su pomogli u ranom završetku sekvence ljudskog genoma.

Čiji je genom sekvencioniran?

Jedno od intrigantnih pitanja projekta ljudskog genoma je čiji se genom sekvencira i kako će se on odnositi na oko 6 milijardi stanovnika sa varijacijama u svetu? Ne postoji jednostavan odgovor na ovo pitanje.

Međutim, gledajući sa pozitivne strane, nije bitno čiji je genom sekvenciran, jer su fenotipske razlike između pojedinaca posledica varijacija u samo 0,1% ukupnih sekvenci genoma. Zbog toga se mnogi pojedinačni genomi mogu koristiti kao izvorni materijal za sekvenciranje.

Veliki deo rada na ljudskom genomu obavljen je na materijalu koji je obezbedio Centar za humani polimorfizam u Parizu, Francuska. Ovaj institut je prikupio ćelijske linije iz šezdeset različitih francuskih porodica, od kojih svaka obuhvata tri generacije. Materijal dostavljen iz Pariza korišćen je za sekvenciranje ljudskog genoma.

Sekvenca ljudskog genoma -Rezultati sumirani:

Informacije o projektima ljudskog genoma su prevelike, a u nastavku se mogu navesti samo neke najvažnije. Neki od njih su ukratko opisani.

Glavne karakteristike ljudskog genoma:

1. Nacrt predstavlja oko 90% celokupnog ljudskog genoma. Veruje se da je većina važnih delova identifikovana.

2. Preostalih 10% sekvenci genoma je na samim krajevima hromozoma (tj. telomera) i oko centromera.

3. Ljudski genom se sastoji od 3200 Mb (ili 3,2 Gb) odnosno 3,2 milijarde baznih parova (3,200,000,000).

4. Približno 1,1 do 1,5% kodova genoma za proteine.

5. Približno 24% ukupnog genoma se sastoji od introna koji cepaju kodirajuće regione (egzone) i pojavljuju se kao ponavljajuće sekvence bez specifičnih funkcija.

6. Broj gena koji kodiraju proteine ​​je u rasponu od 30.000-40.000.

7. Prosečan gen se sastoji od 3000 baza, a veličine se veoma razlikuju. Gen za distrofin je najveći poznati ljudski gen sa 2,4 miliona baza.

8. Hromozom 1 (ciljani ljudski hromozom) sadrži najveći broj gena (2968), dok Y hromozom ima najmanji. Hromozomi se takođe razlikuju po svom GC sadržaju i broju prenosivih elemenata.

9. Identifikovani su geni i DNK sekvence povezane sa mnogim bolestima kao što su rak dojke, bolesti mišića, gluvoća i slepilo.

10. Čini se da je oko 100 kodirajućih regiona kopirano i pomereno transpozicijom zasnovanom na RNK (retrotranspozoni).

11. Ponovljene sekvence čine oko 50% ljudskog genoma.

12. Velika većina genoma (

97%) nema poznate funkcije.

13. Među ljudima, DNK se razlikuje samo za 0,2% ili jednu od 500 baza.

14. Identifikovano je više od 3 miliona pojedinačnih nukleotidnih polimorfizama (SNP).

15. Ljudska DNK je oko 98% identična onoj šimpanzi.

16. Oko 200 gena je blizu onih koje se nalaze u bakterijama.

Većina genomske sekvence je identifikovana:

Oko 90% ljudskog genoma je sekvencirano. Sastoji se od 3,2 milijarde baznih parova (3200 Mb ili 3,2 Gb). Ako bi bila napisana u formatu telefonskog imenika, osnovna sekvenca ljudskog genoma bi ispunila oko 200 telefonskih imenika od po 1000 stranica. Neki drugi zanimljivi analozi/sporedna svetla genoma dati su u tabeli 12.3.

Individualne razlike u genomima:

Treba imati na umu da svaki pojedinac, osim identičnih blizanaca, ima svoje verzije sekvenci genoma. Razlike između pojedinaca su uglavnom posledica polimorfizma pojedinačnih nukleotida (SNP). SNP-ovi predstavljaju pozicije u genomu gde neki pojedinci imaju jedan nukleotid (tj. A), a drugi imaju drugačiji nukleotid (tj. G). Učestalost pojave SNP se procenjuje na jedan na 1000 parova baza. Veruje se da je prisutno oko 3 miliona SNP-a i da je najmanje polovina njih identifikovana.

Prednosti/primena sekvenciranja ljudskog genoma:

Očekuje se da će sekvenciranje ljudskog genoma i genoma drugih organizama dramatično promeniti naše razumevanje i percepciju biologije i medicine. Date su neke od prednosti projekta ljudskog genoma.

Identifikacija ljudskih gena i njihovih funkcija:

Analiza genoma je pomogla da se identifikuju geni i funkcije nekih gena. Funkcije drugih gena i interakcija između genskih proizvoda treba dalje da se razjasne.

Razumevanje poligenskih poremećaja:

Biohemija i genetika mnogih poremećaja sa jednim genom su razjašnjeni, npr. anemija srpastih ćelija, cistična fibroza i retinoblastom. Većina uobičajenih bolesti kod ljudi je, međutim, poligene prirode, npr. rak, hipertenzija, dijabetes. Trenutno imamo vrlo malo znanja o uzrocima ovih bolesti. Informacije o sekvenci genoma će sigurno pomoći da se razotkriju misterije oko poligenskih bolesti.

Poboljšanja u genskoj terapiji:

Trenutno je ljudska genska terapija u povoju iz različitih razloga. Poznavanje sekvenci genoma će svakako pomoći u efikasnijem lečenju genetskih bolesti genskom terapijom.

Poboljšana dijagnoza bolesti:

U bliskoj budućnosti, sonde za mnoge genetske bolesti biće dostupne za specifičnu identifikaciju i odgovarajući tretman.

Razvoj farmakogenomike:

Lekovi mogu biti prilagođeni za lečenje pojedinačnih pacijenata. Ovo će postati moguće s obzirom na varijacije u enzimima i drugim proteinima uključenim u delovanje leka i metabolizam pojedinaca.

Genetske osnove psihijatrijskih poremećaja:

Proučavanjem gena uključenih u obrasce ponašanja, može se razumeti uzroci psihijatrijskih bolesti. Ovo će pomoći u boljem lečenju ovih poremećaja.

Razumevanje složene društvene osobine:

Sa sekvencom genoma sada u ruci, složene društvene osobine mogu se bolje razumeti. Na primer, nedavno su identifikovani geni koji kontrolišu govor.

Znanje o mutacijama:

Mnogi događaji koji dovode do mutacija mogu se otkriti znanjem o genomu.

Bolje razumevanje razvojne biologije:

Određivanjem biologije ljudskog genoma i njegove regulatorne kontrole, biće moguće razumeti kako se ljudi razvijaju od oplođene jajne ćelije do odraslih.

Komparativna genomika:

Genomi mnogih organizama su sekvencionirani, a broj će se povećavati u narednim godinama. Informacije o genomima različitih vrsta će baciti svetlo na glavne faze u evoluciji.

Razvoj biotehnologije:

Podaci o sekvenci ljudskog genoma podstaći će razvoj biotehnologije u različitim sferama.


Резултати и дискусија

Detekcija kompozitnih gena i ChiC gena u Haloarchaea

Grupisali smo 1.816.486 arhealnih proteina iz 802 genoma u 49.269 porodica. Ukupno, 6417 porodica (uključujući 132,458 proteina) pronađeno je u najmanje tri različita haloarhejska genoma i bili su ekskluzivni za Haloarchaea. Ovih 132.458 proteina je dalje poređano preko proširene bakterijske baze podataka od 7.239.663 sekvence iz 2078 bakterijskih genoma kako bi se uklonile porodice sa punom dužinom sličnosti sa bakterijskim proteinima. Ukupno 5558 porodica je zadržano sa ovog dodatnog ekrana i stoga su dobri kandidati za nove gene specifične za klade jer su verovatno nastali tokom ili nakon pojave Haloarchaea, pošto se homolozi ovih Haloarchaeal gena ne mogu naći ni u jednom drugom taksonu. Testirali smo da li su ovi ekskluzivni haloarhealni geni kompozitni, odnosno da li se neki od njihovih konstitutivnih subgenskih regiona, koji se nazivaju komponente, takođe poklapaju sa različitim porodicama gena (naročito u 7.239.663 bakterijske sekvence). Kombinovali smo ovu detekciju komponentnih i kompozitnih gena sa dodatnim korakom označavanja domena (pogledajte „Metode“). Ovaj protokol je vratio 320 kompozitnih porodica gena, ekskluzivno za Haloarchaea.

Ove porodice smo klasifikovali u tri velike grupe, na osnovu taksonomske dodele njihovih komponenti (pogledajte „Metode“, tabelu 1 i sliku 1). Prvo, postojalo je 68 porodica kompozitnih gena klase I koji su isključivo kombinovali komponente arhealnog porekla (klasteri 1 i 10 u tabeli 1, izvedeni iz toplotne karte na slici 1), ali u kombinaciji koja je primećena samo u okviru Haloarchaea. Drugo, bilo je 126 kompozitnih porodica gena, koje su predstavljale najmanje jednu komponentu bakterijskog porekla (klasteri 3, 4, 6 i 9 u tabeli 1, izvedeni iz toplotne karte na slici 1). Oni su dosledno označeni kao himerni kompozitni geni (ChiC geni). Samo sedam ChiC gena je odgovaralo porodici gena među 1089 lateralno stečenih bakterijskih gena koje je opisao Nelson-Sati [5]. Ovo ograničeno preklapanje ukazuje na to da su ChiC geni verodostojne genetske inovacije (Dodatna datoteka 1) i ukazuju na dodatni značajan bakterijski doprinos evoluciji Haloarchaea. Taksonomska dodela ovih bakterijskih komponenti pomoću BLAST poređenja sugeriše da su mnogi nezavisni bakterijski izvori mogli biti donatori ovih recikliranih fragmenata (Dodatna datoteka 2: Slika S1). BLAST pogoci za 167 kompozitnih genskih komponenti su bili samo iz jednog tipa, arheje ili bakterije, što čini njihovu taksonomsku dodelu jasnim.

Hijerarhijsko grupisanje familija kompozitnih gena prema njihovom poreklu komponenti (kao što je dodelio BLAST). The Топлотна мапа predstavlja odnos gena u datoj porodici (kolone) koji imaju bar jednu komponentu datog porekla (haloarhejski, arhealni, bakterijski ili prokariotski, redovi). A beli krpelj odgovara odsustvu komponenti datog porekla u svakom genu u datoj porodici kompozitnih gena. Obojeni krpelji odgovaraju prisustvu najmanje jedne komponente datog porekla u datom procentu (crvena za 100% gena u porodici kompozitnih gena). Toplotna mapa je hijerarhijski grupisana po porodicama gena. The obojena gornja traka označava funkcionalnu belešku familija kompozitnih gena prema COG kategorijama (crvena: metabolizam, Плави: skladištenje i obrada informacija, зелена: ćelijski procesi i signalizacija, бео: slabo okarakterisan). Za hijerarhijsko grupisanje korišćena je Euklidska distanca i metoda kompletnog povezivanja

Da bismo testirali validnost naše taksonomske dodele zasnovane na BLAST-u, implementiran je dodatni filogenetski ekran. Zanimljivo je da je 99% filogenetskih taksonomskih zadataka bilo u skladu sa BLAST zadacima. Od BLAST i filogenetskih taksonomskih zadataka, 56% se tačno poklapa, dok je 42% komponenti dobilo prokariotsko poreklo korišćenjem jedne metode koja je rešena kao arhealna ili bakterijska drugom metodom, što odražava različite nivoe rezolucije u metodologiji, a ne konfliktne rezultate ( Dodatni fajl 3). Konačno, klasteri 2, 5, 7 i 8 odgovaraju 136 porodica kompozitnih gena klase II, izgrađenih na komponentama prokariotskog porekla (tj. komponentama sličnim genima prokariota, ali koje ne možemo pripisati samo Archaea ili samo bakterijama prema našim BLAST parametri). Mnogim komponentama označenim kao da imaju prokariotsko poreklo u BLAST ekranu takođe je dodeljeno prokariotsko poreklo u filogenetskom ekranu (80 komponenti). Međutim, filogenetski pregled je sugerisao da neke komponente koje se smatraju prokariotskim imaju bakterijsko (94 komponente) ili arhealno poreklo (72 komponente), što sugeriše da kompozitni geni klase II mogu sadržati dodatne verne ChiC gene sa komponentama bakterijskog porekla koje bi mogle neće biti otkriveni pomoću naše metodologije.

ChiC geni su značajno uključeni u metabolizam

Funkcionalna analiza je pokazala da 126 ChiC gena ne igraju istu ulogu kao drugi kompozitni geni u ćeliji (slika 1, hi-kvadrat test, P = 9.263e-08). ChiC geni su obogaćeni metaboličkim funkcijama (47 od 126 porodica ChiC gena, jednostrani Fišerov test, P = 1.681e-09). Ovaj rezultat dodaje dodatne dokaze da su bakterije doprinele metaboličkim funkcijama Haloarchaea [1, 5] i da se metabolički bakterijski geni mogu generalno reciklirati u genetskim spajanjima [20]. Tačnije, sve metaboličke kategorije su previše zastupljene u ChiC genima u odnosu na druge dve glavne klase himernih gena, osim Q („Biosinteza, transport i katabolizam sekundarnih metabolita“) i E („Transport i metabolizam aminokiselina“ ) kategorije (slika 2). Porodice ChiC-gena su posebno uključene u transport i metabolizam ugljenih hidrata (G kategorija na slici 2) (Fišerov tačan test, P = 1e-06). Velika većina od 21 porodice ChiC-gena u ovoj kategoriji (18 od 21) kodira proteine ​​sa više domena koji nose domen glikozidne hidrolaze, kao što je celulaza [21], sa jednim ili više ekstracelularnih domena uključenih u interakciju proteina i ugljenih hidrata kao što je fibronektin tip 3 (FN3), policistična bolest bubrega (PKD), domeni koji su povezani sa modulom za vezivanje ricinu ili ugljenim hidratima (slika 3). Neki od ovih proteina se verovatno luče, kao što sugeriše signalna sekvenca Twin-Arginine Translocation (TAT) otkrivena u porodicama 25,806 i 29,153 (Dodatni fajl 1) [22] i nedostatak predviđenih motiva lipo-boxa povezanih sa proteinima usidrenim na membrani [ 23, 24]. Zaista, jedan predviđeni kompozitni gen je deo izvozne mašinerije TAT (porodica 1546). Ovi rezultati su u skladu sa promenom načina života (od autotrofije do heterotrofije), ali i sa nedavnim otkrićem koji pokazuje da halofilni organizmi mogu da koriste složene ugljene hidrate [21]. Oskudna taksonomska distribucija ove 21 porodice ChiC sugeriše da je korišćenje složenih ugljenih hidrata verovatno evoluiralo više puta tokom haloarhealne evolucije, bilo strategijom recikliranja domena (Slika 3) ili transferom ChiC gena između Haloarchaea.

Barplot funkcionalne oznake 126 porodica ChiC-gena (Плави) i druge kompozitne porodice (crvena). D: Kontrola ćelijskog ciklusa, podela ćelija, podela hromozoma, A: Obrada i modifikacija RNK, C: Proizvodnja i konverzija energije, M: Biogeneza ćelijskog zida/membrane/koverte, B: Struktura i dinamika hromatina, E: Transport i metabolizam aminokiselina , N: Pokretljivost ćelija, J: Translacija, ribozomska struktura i biogeneza, F: Transport i metabolizam nukleotida, O: Posttranslaciona modifikacija, promet proteina i pratioci, K: Transkripcija, G: Transport i metabolizam ugljenih hidrata, T: Transdukcija signala mehanizmi, L: Replikacija, rekombinacija i popravka, H: Transport i metabolizam koenzima, U: Intracelularni promet, sekrecija i vezikularni transport, I: Transport i metabolizam lipida, V: Odbrambeni mehanizmi, P: Transport i metabolizam neorganskih jona, W: Ekstracelularne strukture, P: Biosinteza, transport i katabolizam sekundarnih metabolita, Z: Citoskelet

Arhitektura domena i poreklo 21 porodice ChiC-proteina uključenih u transport i metabolizam ugljenih hidrata (crvena: Bakterije, Плави: Archaea, narandžasta: prokariot)

Očuvane porodice kompozitnih gena sadrže gene uključene u so i aerobni način života

Raspodela 320 kompozitnih porodica po haloarhealnim genomima pokazuje da je većina novih familija kompozitnih gena (293 porodice gena) retko raspoređena (slika 4). Zanimljivo je da ova retka taksonomska distribucija nije slučajna u odnosu na trenutno priznate grupe Haloarchaea. Koristili smo Mantel test (P = 0,001) [25] da bi se potvrdilo da kompozitne gene uglavnom dele više genoma iz istih haloarhealnih grupa definisanih u [26]. Međutim, važno je napomenuti da distribucija ovih kompozitnih gena nije striktno specifična za grupu: dok kompozitni geni uglavnom dele srodni genomi, samo 120 od 293 porodice gena su potpuno specifične za jednu haloarhealnu grupu. Ova uska taksonomska distribucija sugeriše da porodice gena mogu biti noviji pronalasci, međutim, ne možemo odbaciti mogućnost da su to drevne akvizicije koje su izgubljene u više linija. Distribucija preostalih 173 porodice gena u više velikih haloarhealnih grupa sugeriše da su oni ili stečeni od zajedničkog pretka ovih grupa i naknadno različito izgubljeni, ili da su bočno preneti unutar haloarheje.Ova opšta konzistentnost distribucije kompozitnih gena sa predloženom haloarhealnom filogenijom sugeriše da su kompozitni geni opstali u ovim grupama tokom određenog vremenskog perioda, i stoga im verovatno pružaju adaptivnu vrednost. Inače, malo je verovatno da su ovi novi geni fiksirani u ovim genomima [27].

Distribucija 320 porodica kompozitnih gena u Haloarchaea. The Топлотна мапа predstavlja prisustvo (Црна линија) ili odsustvo (bela linija) date kompozitne porodice gena u genomima Haloarchaea (svaka linija predstavlja dati genom, svaka kolona predstavlja porodicu gena). Genomi Haloarchaea su obojeni s obzirom na njihovu klasifikaciju u glavne klade prema studiji [26] (crvena: klada B, Плави: klada A, зелена: clade C, žuta: klada D, i црн: nedodeljen). The obojena horizontalna gornja traka (a) označava srednji procenat proteinskog identiteta svake porodice gena (crvena > 80%, narandžasta > 60%, žuta > 40%, бео > 25%). The obojena horizontalna gornja traka (b) označava tip kompozitne porodice (crvena: klasteri 3, 4, 6 i 9, Плави: klasteri 1 i 10, бео: klasteri 2, 5, 7 i 8). The obojena horizontalna gornja traka (c) označava funkcionalnu belešku porodica gena prema COG kategorijama (crvena: metabolizam, Плави: skladištenje i obrada informacija, зелена: ćelijski procesi i signalizacija, бео: slabo okarakterisan). Izvršeno je hijerarhijsko grupisanje i na kolonama i na redovima koristeći Jaccard udaljenost i potpunu metodu povezivanja. Hijerarhijsko grupisanje porodica proteina (kolone) ističe dva različita skupa proteina, proteine ​​koji su široko rasprostranjeni (2) i one sa retko distribucijom (1)

Zanimljivo je da je manjina kompozitnih familija gena isključivo za Haloarchaea široko rasprostranjena širom Haloarchaea (dva skupa proteina na slici 4, 23 porodice). Geni unutar ovih porodica takođe pokazuju veću divergenciju u primarnim sekvencama (mereno u procentualnom identitetu između parova homolognih sekvenci). Identifikacija proteina od 50,16% je medijana za široko rasprostranjene gene naspram 63,09% za ostale kompozitne gene (Wilcoxon test sa dva uzorka, P = 0,0008646). Uzeti zajedno, njihova široka taksonomska distribucija i akumulacija supstitucija u njihovim sekvencama sugerišu da su ovi kompozitni geni, ekskluzivni za Haloarchaea, drevni i da su verovatno izmišljeni tokom haloarhealne geneze.

Nedavna debata je bila usredsređena na otkriće da su glavne arhealne grupe, uključujući Haloarchaea, bile podržane bočnim transferima gena velikih razmera na svom poreklu [5, 6]. Ponovna analiza ovog skupa podataka tvrdi da je sticanje gena pomoću LGT-a možda bio više deo procesa [7]. Međutim, metodološka osnova ove reanalize je nedavno dovedena u pitanje kao veštačko naduvavanje broja novijih događaja [28]. Testirali smo da li kompozitni geni prijavljeni u našoj studiji mogu pružiti dodatne (iako jasno različite) elemente za debatu u vezi sa tempom sticanja fragmenata bakterijskih gena u Haloarchaea. Naš skup podataka o kompozitnim porodicama gena nema preklapanje sa LGT-ovima identifikovanim u studiji koja se fokusira na gene pune veličine ako su bakterijskog porekla [6, 7] i ima veoma ograničeno preklapanje sa LGT-ovima identifikovanim u drugim nedavnim studijama [5, 9] (Dodatna datoteka 1). Umesto toga, naš skup podataka predstavlja novi doprinos porodica gena Haloarchaea stvorenim preuređenjem gena, od kojih neki uključuju fragmente bakterijskog porekla. Iako ne nalazimo značajne dokaze za jedno sticanje naših porodica ChiC-gena na poreklu Haloarchaea (P = 0,202 koristeći test za monofiliju koji su dali autori [6]), za ovaj novi skup porodica haloarhealnih gena, nalazimo dokaze za kombinaciju i drevnih i potencijalno novijih pronalazaka. Pronalazak „novih gena“ može biti pokretač evolucije fenotipa čak i na relativno kratkim evolucionim udaljenostima [14]. Iako ovo važi i za drevne i za novije nabavke, porodice gena koje su šire očuvane u prokariotima (ili unutar haloarheja) su verovatnije bitne za tu grupu, s obzirom na brz gubitak nebitnih gena u kompaktnim genomima prokariota [ 29]. Stoga, fokusiranje na njihove funkcije, kao i na njihovu distribuciju, može nam pomoći da razumemo kako su se prve haloarheje uhvatile u koštac sa izazovima prilagođavanja na aerobno i slano okruženje.

Haloarheje su prešle iz anaerobnog autotrofnog metanogenog stanja predaka na svoj sadašnji metod proizvodnje energije, heterotrofno aerobno disanje [5, 21]. Dva široko rasprostranjena kompozitna gena koja su verovatno izmišljena tokom haloarhealne geneze uključena su u redoks aktivnosti, potrebne za transport elektrona u aerobnom disanju: porodice 1776 i 1784. Prvi je porodica ChiC-gena i kodira proteine ​​koji nose dva očuvana domena: N-terminalni domen bakterijskog porekla je okarakterisan ili kao pretpostavljeni domen hem peroksidaze (2.20e-113) ili kao hlorit dismutaza (1.11e-83), a C-terminalni domen prokariotskog porekla je okarakterisan ili kao monooksigenaza za biosintezu antibiotika (ABM - 1.06e-09) ili monooksigenaza koja razgrađuje hem (HmoA – 6.67e-09) [30]. Uprkos širokoj rasprostranjenosti i eksperimentalno definisanoj suštinskoj prirodi u modelnom organizmu Haloferax volcanii (pristup: HVO_1871) [31], molekularna uloga porodice 1776 nije poznata. Hem i molekuli slični hemu se lako oksidiraju i redukuju, što sugeriše da ovaj gen može igrati ulogu u lancu transporta elektrona za aerobno disanje. Druga porodica sa navodno sličnom ulogom je porodica 1784 označena kao podjedinica citokroma b bc kompleksa uključena u proizvodnju i konverziju energije. Ovaj gen je glavna komponenta transporta elektrona za generisanje protonske pokretačke sile. U mitohondrijama se koristi tokom aerobnog disanja, mada se kod prokariota može koristiti i u anaerobnom disanju (npr. denitrifikacija). Iako mnogo metanogena i sve Methanosarcinales koriste citohrome za očuvanje energije kada raste na CO2 i H2 [32], identifikovani haloarhealni citohromi nisu direktno povezani sa njima, što implicira drugačiji ili nijansirani funkcionalni kapacitet. U skladu sa ovim tumačenjem, dodatni geni za transport elektrona bakterijskog porekla primećeni su u haloarhealnim genomima [4]. Ideja da su ovi široko rasprostranjeni novi kompozitni geni možda bili važna karakteristika u tranziciji Haloarchaea iz anaerobnog u aerobno okruženje je podržana velikim brojem dodatnih retko raspoređenih porodica kompozitnih gena sa pretpostavljenim redoks ulogama, uključujući pirolo-hinolin kinon i redoksin (porodice 17.613, 12.148, 13.590, 14.246 i 18.015).

Jedan od najvećih izazova života u slanoj sredini je kako regulisati osmotski pritisak. Haloarheje koriste strategiju unošenja soli: izvoze jone Na + i pumpaju K+ do molarne koncentracije da bi se suprotstavile osmotskom pritisku neophodnom za život u zasićenim slanim rastvorima [33]. Ova strategija, iako nije jedinstvena za Haloarchaea [34], nalazi se širom Haloarchaea i verovatno je bila u njihovom zajedničkom pretku. Dve očuvane kompozitne porodice mogu igrati ulogu u osmotskom stresu/ravnoteži. Porodica 1329 kodira ChiC proteine ​​koji nose TrkA domen bakterijskog porekla na C-terminusu i domen nepoznate funkcije u N-terminusu. Analiza u Haloferax volcanii (HVO_2617, 403aa) ukazuje da su proizvodi gena tri-prolazni integralni membranski proteini u N-terminusu. Homologija sa TrkA domenom u Escherichia coli sugeriše da je protein uključen u uzimanje jona kalijuma. Druga porodica uključena u strategiju unošenja soli i rasprostranjena širom Haloarchaea je porodica 1906. Ovaj modularni kompozitni gen Klase II kodira protein sa dva domena označen kao neorganski transporter jona, pošto sadrži Na + /H + antiporter MnhE domene podjedinice prokariotskog porekla u kombinaciji sa divergentnim domenom univerzalnog stresnog proteina (USP) bez značajne sličnosti sekvence van haloarheje. Ukupno, 11 navodnih kompozitnih gena je dodeljeno kategoriji COG transporta neorganskih jona i metabolizma, od kojih su tri široko očuvana u celoj grupi, a osam navodnih ChiC gena (slika 2). Nijedna od familija kompozitnih gena identifikovanih u ovoj studiji nije bila značajno regulisana kao odgovor na koncentraciju soli u prethodnim studijama transkriptoma [35,36,37]. Međutim, predviđena funkcija ovih porodica sugeriše da je njihovo sticanje možda bilo presudno za prilagođavanje haloarheje na hiperslanu sredinu i strategiju unošenja soli.

Kompozitni geni klase I i klase II i ChiC geni kodiraju proteine ​​optimizovane za život u slanim sredinama

Strategija unošenja soli znači da haloarhealni proteini zahtevaju dodatnu adaptaciju da bi ostali rastvorljivi u hipersolnim uslovima i da skoro svi haloarhealni proteini imaju smanjenu izoelektričnu tačku [33]. Da bismo procenili dugoročno prisustvo kompozitnih gena klase I i klase II i ChiC gena u haloarhealnim genomima, izračunali smo njihove izoelektrične tačke. Izoelektrične tačke kompozitnih gena klase I i klase II i ChiC gena se ne razlikuju od onih ostalih haloarhealnih proteina i značajno su niže od onih kod drugih arhealnih i bakterijskih proteina (Slika 5 Wilcoxon test, P < 2.2e −16 ). Za ChiC gene, ove niže izoelektrične tačke su verovatno rezultat procesa genetske optimizacije njihovih stečenih bakterijskih genetskih fragmenata u Haloarchaea, pošto njihovi bakterijski homolozi imaju više izoelektrične tačke. Konzistentno, postoji značajna razlika (Wilcoxon test P < 2.2e -16 ) u izoelektričnim tačkama između prvih pet bakterijskih sekvenci koje se poklapaju sa bakterijskim komponentama ovih ChiC gena i bakterijskim komponentama ChiC gena (slika 5). Dakle, promene sastava aminokiselina potvrđuju značajno vreme boravka i verovatno adaptivnu ulogu ovih novih gena u ovim halofilima.

a Boxplots prikazujući raspodelu izoelektričnih tačaka proteina prema njihovom poreklu i njihovim tipovima. Bokplot pokazuje srednju liniju, prvi i treći kvartil. Outliers koji su 1,5× iznad gornjeg kvartila ili ispod donjeg kvartila su označeni kao tačke. b Boxplots pokazujući raspodelu izoelektričnih tačaka komponenti koje potiču od bakterija. Bakterijske komponente odgovaraju bakterijskim genima koji su usklađeni sa komponentama ChiC-gena koje su dodeljene kao bakterijskog porekla. Bokplot pokazuje srednju liniju, prvi i treći kvartil. Outliers koji su 1,5× iznad gornjeg kvartila ili ispod donjeg kvartila su označeni kao tačke


Pozadina

Sve veća pristupačnost testova sa velikom propusnošću na nivou genoma omogućava istovremeno merenje nekoliko genomskih karakteristika u istim biološkim uzorcima. Projekti genoma raka su bili na čelu ovog trenda i suočili su se sa izazovom integracije ovih različitih tipova podataka [1, 2], uključujući nivoe transkripcije RNK, varijacije genotipa, varijacije broja kopija DNK i epigenetske oznake. Kolekcije skupova gena sa komentarima, koje obuhvataju utvrđeno znanje o biološkim procesima i putevima, pokazale su se kao suštinsko sredstvo za integraciju. Primeri ovih skupova uključuju hromozomske lokacije, signalne i metaboličke puteve, transkripcione programe i mete specifičnih faktora transkripcije. Pošto se može izvesti zaključak o važnosti datog skupa gena koristeći nekoliko različitih genomskih tipova podataka, analiza skupa gena pruža direktan i biološki motivisan pristup analizi ovih tipova podataka na integrisan način. Široko korišćena javna kolekcija skupova gena je Baza podataka molekularnih potpisa (MSigDb) [3]. Sveobuhvatna lista konvencionalnih alata za analizu skupa gena za jedan tip podataka data je u Ackermann-u et al. [4]. Mnogi od ovih pristupa su implementirani u široko korišćenom statističkom računarskom okruženju R/Bioconductor [5].

Perspektiva skupa gena ima smisla i biološki i statistički. Prvo, male razlike u funkcijama više gena u istom skupu se možda neće moći otkriti na nivou jednog gena, ali mogu doprineti stvaranju većih razlika na nivou skupa gena. Ovo povećava moć otkrivanja stvarnih bioloških razlika. Drugo, jedan pogodak na datom putu može biti dovoljan da generiše fenotipsku razliku. Ako se ovaj pogodak može desiti u bilo kojoj od nekoliko komponenti na putu, pojedinci sa istim fenotipom mogu pokazati varijabilnost u specifičnim genima koji su pogođeni, ali pokazuju konzistentniji obrazac na nivou puta ili skupa gena [1, 6]. Važno je da čak i kada se može otkriti razlika na nivou jednog gena, njen biološki značaj može zavisiti od stanja drugih gena i genskih proizvoda u interakciji.

Genomi raka sadrže tačkaste mutacije, insercije, delecije, translokacije, abnormalnosti metilacije i broj kopija (CN) i promene ekspresije koje se ne vide u normalnim tkivima. Kod nekih karcinoma, kao što je multiformni glioblastom (GBM), različiti geni uključeni u puteve koji uključuju TP53, fosfoinozitid 3-kinazu (PI3K) i RB1 se menjaju kod različitih pacijenata, i, što je još važnije, oni mogu biti promenjeni različitim mehanizmima [1] , kao što su tačkaste mutacije i CN promene. Stoga bi uzimanje u obzir više tipova podataka trebalo da poboljša našu sposobnost da otkrijemo skupove gena povezanih sa fenotipom.

U nedavnim velikim studijama genoma raka [1, 6, 7] preliminarni pristupi integracije su uspešno primenjeni, međutim, ovi pristupi su prilagođeni specifičnim kontekstima. Opšti, skalabilan i rigorozan statistički okvir još nije razvijen. U ovom članku, naš cilj je da popunimo ovu prazninu. U tu svrhu uvodimo, upoređujemo i sistematski procenjujemo dva alternativna pristupa integraciji podataka zasnovanih na skupovima. Prvi pristup se zasniva na izračunavanju rezultata asocijacije gen-fenotip zasnovan na modelu za svaki gen koristeći sve tipove podataka zajedno, nakon čega sledi analiza genskog skupa ovih rezultata. Ovo nazivamo integrativnim pristupom. Drugi je da se izvedu odvojene konvencionalne analize skupa gena za svaki tip podataka, a zatim se dobije konsenzus značajni rezultat korišćenjem metaanalitičkog pristupa.


KOMENTAR

Основне информације

Nekoliko metoda je razvijeno za poravnanje čitanja i brojanje čitanja od pojave RNA-seq-a (pogledajte članak o aktuelnim protokolima Ji & Sadreyev, 2018). U Protokolu podrške koristimo STAR, bowtie2 i brojanje karakteristika i za Ribo-seq i za RNA-seq skupove podataka. Ovi alati se mogu izabrati na osnovu korisničkih preferencija. Zbog malo drugačije prirode Ribo-seq čitanja, važno je izmeniti parametre u skladu sa tim. Na primer, pošto se očekuje da će RPF biti oko 29 bp, meko odsecanje čitanja može biti prilično štetno za cevovode za poravnanje i ne preporučuje se. Štaviše, RNA-seq cevovodi koriste šest do osam dozvoljenih neslaganja, ali to može biti prilično veliko u čitanju od 29 bp. Preporučujemo jednu do dve dozvoljene neusklađenosti za robusnu analizu nizvodno.

U ovom protokolu opisujemo TE analizu zasnovanu na terminima interakcije koristeći DESeq2, ali sličan model se takođe može ugraditi u druge alate diferencijalnog izražavanja zasnovanog na generalizovanom linearnom modelu kao što je edgeR. Ranije je nekoliko publikacija koristilo DESeq2 za identifikaciju DTEG-ova, ali na suboptimalan način. Na primer, ovi alati se koriste za izračunavanje ΔRPF i ΔRNA, nakon čega se promene u TE izračunavaju korišćenjem odnosa ΔRPF/ΔRNA. Translaciono regulisani geni se zatim identifikuju pomoću |z-score| > 1,5 (Xu et al., 2017). Ovaj pristup se u benčmarking analizama naziva metodom odnosa. Drugi pristup koji je ranije korišćen takođe uključuje kvantifikaciju ΔRPF i ΔRNA pomoću DESeq2. Međutim, u ovom slučaju, translaciono regulisani geni su definisani kao geni sa značajnim promenama u nivoima RPF ili mRNA, ali ne u oba (Schafer et al., 2015). Ovaj pristup lažno naziva gene kao translaciono isključive ili puferovane u slučajevima kada broj ima veliku varijansu u uzorcima ili je veoma nizak u bilo kojoj metodologiji sekvenciranja. Ne bi bilo u stanju da napravi razliku između slučaja gde je gen translativno regulisan i slučaja gde gen ima mali broj/veliku varijaciju u jednoj od metodologija sekvenciranja. Ovo se u analizama benčmarkinga naziva metodom preklapanja.

Da bismo merili performanse našeg pristupa, koristimo tri nezavisna skupa podataka za simulaciju, dva izvedena iz prethodnih publikacija (Oertlin et al., 2019, Xiao et al., 2016) i treći koji je nedavno generisan za procenu performansi alati u prisustvu efekta serije. Uprkos tome što je DESeq2 ključna komponenta mnogih postojećih pristupa, on ili nije bio uključen ili nije ispravno korišćen u prethodnim merilima.

Slika 4A-C prikazuje krive tačnosti za detekciju DTEG-ova u svakom od ovih skupova podataka za benčmarking preko tipično korišćenih FDR pragova. Kompletna radna karakteristika prijemnika (ROC) i analiza površine ispod krive (AUC) mogu se naći u povezanom veb resursu. Naše benchmarking pokazuje da ΔTE ima superiornu tačnost u poređenju sa postojećim metodama, posebno u prisustvu serijskog efekta. Jedini metod koji radi na sličnom nivou kao ΔTE je RiboDiff, u slučaju podataka iz Oertlina et al. (2019) (slika 4A). Međutim, u prisustvu efekta serije ili na osnovu podataka iz Xiao et al. (2016), ΔTE je superioran.

Da bismo dalje potvrdili da ovaj efekat nije ograničen na simulirane podatke, analizirali smo podatke o RNA-sek i ribo-sekvu koji su izvedeni iz naše nedavne studije o srčanoj fibrozi (Chotani et al., 2019). Ovaj eksperiment je sadržao srčane fibroblaste od četiri različite individue i, kao rezultat, ima izražen grupni efekat vezan za pacijenta koji čini otprilike 25% varijanse u podacima. Iako nije moguće kvantifikovati tačnost ovih stvarnih podataka, ona je u skladu sa rezultatima referentne vrednosti. Na primer, metode preklapanja i omjera predviđaju najveći broj DTEG-ova, ali se pokazalo da imaju visoke stope FP u benčmarkingu. Nasuprot tome, drugi postojeći alati koji detektuju vrlo malo gena dosledno su pokazali najgoru tačnost u benčmarku koji sadrži efekte serije.

Uzeti zajedno, tri referentne studije i analiza stvarnih podataka snažno sugerišu da je ΔTE metoda najpogodnija za bilo koju integrativnu analizu podataka Ribo-seq i RNA-seq, budući da je i tačna i robusna bez obzira na podatke koji se analiziraju.

Kritični parametri i rešavanje problema

Dizajn eksperimenta je jedan od najvažnijih faktora za efikasno otkrivanje DTEG-ova. U najboljem slučaju, dizajn treba da izbegava efekte serije. Neizbežne efekte serije ne treba u potpunosti mešati sa grupama od interesa. Ovo bi dovelo do dizajna koji nije punog ranga u DESeq2, što onemogućava korekciju efekta serije unutar modela. Preporučuje se da se uzorci procene na efekte serije ili odstupanja koristeći PCA pre analize. Efekti serije se mogu proveriti vizuelizacijom PC1 i PC2, koji čine većinu varijacija, a preostali računari se takođe mogu istražiti da bi se identifikovali manji efekti serije.

  • conda install -c bioconda trimmomatic
  • conda install -c bioconda bowtie2
  • conda install -c bioconda subread
  • conda install -c bioconda zvezda

Статистичка анализа

DESeq2 koristi Vald test za analizu diferencijalne ekspresije u podacima u paru (tj. dva uslova). Ako eksperimentalni dizajn uključuje vremensku seriju, svaka vremenska tačka se može uporediti u paru koristeći Vald test. Alternativno, može se koristiti test odnosa verovatnoće u okviru DESeq2, koji je pogodniji za identifikaciju razlika u vremenskoj seriji.

Matematički dokaz: Koeficijent termina interakcije je ekvivalentan promenama efikasnosti prevođenja

(1)

gde je c = uslov i s = metodologija sekvenciranja. Kada se ovo koristi za modeliranje promena u ekspresiji gena između stanja, moguće je razdvojiti doprinose transkripcije i translacije. Na primer, u eksperimentalnoj postavci sa Ribo-seq (s = 1) i RNA-seq (s = 0) sprovedenim u dva uslova (c = 0 ili 1), transkripcione i translacione promene na osnovu gena izračunavaju se na sledeći način .

Prvo, koeficijenti koji doprinose nivoima mRNK (s = 0) se identifikuju za svako stanje (c = 0 ili 1) posebno. Zatim izračunavamo razliku identifikovanih koeficijenata da bismo dobili promenu u transkripciji.

Slično tome, koeficijenti koji doprinose broju RPF (s = 1) mogu se kvantifikovati, a razlike označavaju promenu u RPF gena u različitim uslovima.

Da bismo dobili translacione promene koje su nezavisne od transkripcionih promena, oduzimamo promene u mRNK od promene u RPF. Ovo je ekvivalentno koeficijentu termina interakcije β3 као што следи:

gde je TE efikasnost prevođenja.

Kao rezultat, promena preklopa (i povezano podešavanje str-vrednost) dobijena korišćenjem koeficijenta interakcije β3 opisuje, za svaki gen, promenu u TE. Geni sa značajno prilagođenim str-vrednosti za ΔTE se smatraju DTEG-ovima. Pošto je ovo linearni model, dizajn se takođe može proširiti kako bi se olakšali složeniji eksperimentalni dizajni, kao što su serijski efekti ili druge kovarijate, što ga čini moćnim alatom za identifikaciju DTEG-ova.

Razumevanje rezultata

Osnovni protokol implementira skriptu DTEG.R iz našeg github spremišta (https://github.com/SGDDNB/translational_regulation). Ovo generiše direktorijum rezultata koji uključuje dva poddirektorijuma (fold_changes/, gene_lists/) i jednu datoteku (Results_figures.pdf).

Da bismo demonstrirali upotrebu i izlaz DTEG.R, koristili smo podatke o broju Ribo-seq i RNA-seq iz naše nedavne studije (Chothani et al., 2019) na primarnim ljudskim fibroblastima stimulisanim sa TGFB1. Dobili smo podskup ovog skupa podataka koristeći četiri pacijenta i dva stanja (nestimulisana, stimulisana). Direktorijum rezultata generisan nakon praćenja osnovnog protokola na ovom skupu podataka se takođe čuva u github repozitorijumu.

Poddirektorijum fold_changes/ sadrži tri datoteke, i to: deltaRibo.txt, deltaRNA.txt i deltaTE.txt. Ove datoteke čuvaju promene ekspresije gena u datim uslovima u RPF, RNK i TE, respektivno. Rezultati se dobijaju korišćenjem DESeq2 i čuvaju se u svom standardnom izlaznom formatu. Dve važne kolone, izmene u dnevniku preklapanja na osnovu gena i povezane su prilagođene str-vrednosti, koriste se za određivanje promena ekspresije gena između ova dva stanja. Обично, stradj < 0,05 se koristi kao prag za određivanje gena koji se značajno menjaju. Prag za apsolutnu promenu nagiba dnevnika se takođe može koristiti za odabir samo velikih veličina. Geni dobijeni korišćenjem ovih pragova se smatraju značajno promenljivim u datom stanju ili tretmanu. Geni koji prelaze ove pragove u deltaRNA.txt su oni sa značajnom promenom RNK i smatraju se DTG-ovima, a geni koji prelaze ove pragove u deltaTE.txt smatraju se DTEG-ovima.

Štaviše, kombinacija promena u RPF, RNK i TE se koristi za određivanje regulatorne klase gena, kao što je prikazano na slici 1D. Poddirektorij, gene_lists/ , sadrži datoteke koje navode gene iz svake regulatorne klase. Ovo uključuje gene koji su identifikovani ili kao DTG ili DTEG, a zatim dalje klasifikovani u translativno prosleđene, puferovane, isključive ili intenzivirane (pogledajte detalje u tabeli 2). Geni koji su klasifikovani kao prosleđeni su vođeni transkripcijom i ne pokazuju promene u TE. Naprotiv, translaciono isključivi geni pokazuju promene u TE, ali ne i promene u transkripciji, što implicira da su ovi geni samo translaciono regulisani. Puferovani i intenzivirani geni imaju promene u TE kao i promene u RNK. Ako se ove promene u RNK suprotstave promeni u TE, smatramo ih translativno puferovanim, dok ako promene RNK deluju sa promenama TE, smatramo ih pojačanim. U svakom slučaju, ovi geni su pod regulacijom i transkripcije i translacije.

Osim onoga što je opisano u ovim protokolima, da bi se razumele potencijalne funkcije različitih regulatornih klasa gena, preporučuje se analiza prezastupljenosti skupa gena (GSEA) ili ontologije gena (GO). Štaviše, hijerarhijsko grupisanje promena nabora gena takođe se može izvršiti da bi se identifikovale podgrupe gena koje imaju sličan regulatorni profil.

Na kraju, skripta generiše datoteku Results_figures.pdf, koja uključuje tri glavne vizuelizacije 1 a PCA, (2) globalne promene nabora i (3) promene nabora gena.

PCA se sprovodi i za podatke o broju Ribo-seq i RNA-seq. PCA transformiše podatke na takav način da svaka komponenta obuhvata različite izvore varijacije unutar podataka, pri čemu prva komponenta (PC1) obuhvata najveći izvor varijanse u podacima. Dakle, PCA se može koristiti za određivanje bilo kog efekta serije koji je izvor varijacija u podacima. U podacima iz primera, pokazuje da PC1 čini 42% varijanse u Ribo-seq-u i 46% varijanse u RNA-seq podacima. Važno je da PC1 razdvaja pojedinačne pacijente u oba skupa podataka, što ukazuje da je najveća varijansa u ovim podacima posledica razlike između pacijenata u studiji. Pošto su ovi skupovi podataka generisani za proučavanje promena u različitim uslovima (nestimulisani/stimulisani), važno je ukloniti ovaj efekat pacijenta (Slika 2A, B). Stoga, u ovom slučaju, DTEG.R skriptu treba pokrenuti sa parametrom batch efekta (Argument 4) postavljenim na 1.

Datoteka .pdf takođe uključuje vizuelizaciju promena globalnog pregiba, kao što je prikazano na slici 2C. Ovo je nacrtano korišćenjem dijagrama rasejanja promena nabora u RNK i RPF. Grafikon takođe naglašava da li je gen DTG i/ili DTEG. Ovaj dijagram daje pregled ukupnog uticaja translacione regulacije u sistemu. Kao takav, može se koristiti za određivanje dominantnog načina regulacije u skupu podataka i vizuelizaciju ukupnih veličina efekata različitih tipova regulacije. Na primer, da je bilo vrlo malo DTEG-ova i mnogo DTG-ova pronađeno, to bi impliciralo da postoji vrlo malo translacione regulacije u sistemu, a većina promena se dešava putem regulacije transkripcije.

Da bi se sagledali pojedinačni primeri, datoteka dalje vizualizuje promene nabora gena za gene sa najjačim efektom u svakoj kategoriji (slika 2D-G). Za vizuelizaciju promena od nestimulisanog do stimulisanog u ovoj studiji koristi se linijski grafikon. Ove linije se mogu generisati za bilo koji gen od interesa koristeći korak 4 u Osnovnom protokolu ili korak 11 u Alternativnom protokolu.

Time Considerations

Protokol traje nekoliko minuta na standardnom računaru za primer skupa podataka, koji uključuje četiri uzorka i dva uslova. Ovo može da varira u zavisnosti od broja uzoraka i uslova koje treba testirati.


12: Detekcija gena i genskih proizvoda – Biologija

Autori: Chandan K. Reddy Mohammad S. Aziz

Addresses: Department of Computer Science, Wayne State University, Detroit, MI, 48084, USA ' Department of Computer Science, Wayne State University, Detroit, MI, 48084, USA

Апстрактан: Funkcionalna klasifikacija gena igra vitalnu ulogu u molekularnoj biologiji. Otkrivanje ranije nepoznate uloge gena i njihovih proizvoda u fiziološkim i patološkim procesima je važan i izazovan problem. U ovom radu, informacije iz nekoliko bioloških izvora kao što su uporedne sekvence genoma, ekspresija gena i interakcije proteina su kombinovane da bi se dobili robusni rezultati o predviđanju funkcija gena. Informacije u takvim heterogenim izvorima su često nepotpune i stoga je maksimalno korišćenje svih dostupnih informacija izazovan problem. Predlažemo algoritam koji poboljšava performanse predviđanja različitih modela izgrađenih na pojedinačnim izvorima. Takođe razvijamo heterogeni okvir za pojačavanje koji koristi sve dostupne informacije čak i ako neki izvori ne pružaju nikakve informacije o nekim genima. Pokazujemo superiorne performanse predloženih metoda u pogledu tačnosti i F-mere u poređenju sa nekoliko šema imputacije i integracije.

Кључне речи: predikcija funkcije gena integracija podataka ansambla metode heterogeno pojačavanje funkcionalna klasifikacija molekularna biologija bioinformatika sekvence genoma podaci ekspresije gena interakcije proteina.

Međunarodni časopis za rudarenje podataka i bioinformatiku, 2015 Vol.12 No.2, str.184 - 206

Prihvaćeno: 20. septembra 2013
Objavljeno na mreži: 12. maja 2015 *


Rezultati

Eigengene mreže

Mnoge metode detekcije modula identifikuju grupe gena čiji su profili ekspresije u visokoj korelaciji. Za takve module, profil ekspresije modula se može sumirati pomoću jednog reprezentativnog gena: svojstvenog modula. Intuitivno objašnjenje sopstvenih gena modula je dato na slikama 1C–E. Konkretno, definišemo svojstveni genen modula kao prvi desni-singularni vektor standardizovanih podataka ekspresije modula (Metode, jednačina 29). Svojstva različitih modula često pokazuju korelacije koje koristimo da definišemo sopstvene mreže. Slika 1A prikazuje naš pristup za konstruisanje sopstvene mreže koja odgovara modulima mreže koekspresije jednog gena. Svojstva indeksiramo velikim slovima I, J. на пример, E Joznačava (modul) sopstveni gen J-th modul. Definišemo snagu veze (susednost) između sopstvenih gena I и J као

Pregled sopstvenih mreža. A. Dijagram toka konstrukcije i analize sopstvene mreže zasnovane na jednom skupu podataka. B. Analogni dijagram toka za konstruisanje i analizu konsenzus sopstvene mreže zasnovane na više skupova podataka. C.–E. Ilustrujući pojam svojstvenog gena kao predstavnika čitavog modula koekspresije gena. C. Nivoi ekspresije (y-osa) modulskih gena (sive linije) i sopstvenih gena (crna linija) u uzorcima mikromreža (Икс-osa). Grafikon pokazuje da je sopstveni gen u visokoj korelaciji sa profilima ekspresije gena u modulu. D. Toplotna mapa genskih ekspresija (redovi odgovaraju genima, kolone uzorcima, crvena označava prekomernu ekspresiju, zelena nedovoljnu ekspresiju). E. Nivoi ekspresije (y-osa) odgovarajućeg sopstvenog gena preko uzoraka (Икс-osa). Kad god je ekspresija gena modula visoka (crvena), sopstveni genen modula je visok i slično za niske (zelene) ekspresije gena.

Dakle, sopstvena mreža A Eigen= (aEigen,IJ) je poseban slučaj potpisane ponderisane mreže koekspresije gena (β = 1 u jednačini. 26, Metode). Koristimo potpisanu koekspresionu mrežu jer znak korelacije između sopstvenih gena nosi važne biološke informacije u našim aplikacijama. Koristimo a ponderisano mreža koekspresije gena za opisivanje odnosa između modula pošto ovo održava kontinuiranu prirodu informacija o koekspresiji. Primeri dve različite metode vizuelizacije sopstvenih mreža prikazani su na slici 2C,D i 2E,H.

Analiza diferencijalne sopstvene genetske mreže u uzorcima mozga čoveka i šimpanze. A. Hijerarhijski klasterizovani dendrogram gena za identifikaciju konsenzus modula (vidi tekst). Grane dendrograma, isečene na crvenoj liniji, odgovaraju konsenzus modulima. Genima u svakom modulu je dodeljena ista boja, prikazana u traci boja ispod dendrograma. Geni koji nisu dodeljeni nijednom od modula su obojeni sivo. B., C. Grupisanje dendrograma sopstvenih gena konsenzus modula za identifikaciju meta-modula. Ista tri meta-modula (glavne grane) su evidentna u oba dendrograma. D. Toplotna mapa susednosti sopstvenih gena u konsenzusnoj mreži sopstvenih gena u ljudskim uzorcima. Svaki red i kolona odgovaraju jednom sopstvenom genu (označenom bojom konsenzus modula). Unutar toplotne karte, crvena označava visoku susednost (pozitivna korelacija), a zelena nisku susednost (negativna korelacija) kao što je prikazano legendom boje. G. Odgovarajući dijagram za uzorke šimpanze. E. Mera očuvanja za svaki svojstveni konsenzus. Svaka obojena traka odgovara svojstvu odgovarajuće boje. Visina šipke (y-osa) daje meru očuvanja sopstvenih gena (16). D označava ukupno očuvanje sopstvenih mreža, Eq. (17). F. Toplotna mapa susednosti u mreži očuvanja Preserv ljudski,šimpanza , Eq. (15). Svaki red i kolona odgovaraju modulu konsenzusa. Zasićenost crvene boje kodira susednost prema legendi boje. H. Karakterizacija konsenzus modula diferencijalnom ekspresijom njihovih odgovarajućih sopstvenih gena u različitim oblastima mozga iz kojih su uzeti uzorci. Crvena označava prekomernu ekspresiju, a zeleni brojevi ispod izraza u svakoj ćeliji daju odgovarajuće t-тест str-vrednost. Svaka kolona odgovara sopstvenom genu, a svaki red odgovara oblasti mozga. Caudacc, caudate nucleus i anterior cingulate cortex cerebcort, cerebellum i cortex caudate, caudate nucleus.

За I-th eigengene modula, definišemo skaliranu povezanost (stepen) C I(A Eigen) kao srednja snaga veze sa drugim sopstvenim genima:

где N označava broj sopstvenih gena modula. Imajte na umu da je skalirana povezanost C I(A Eigen) je blizu 1 ako je I-th svojstveni gene ima visoku pozitivnu korelaciju sa većinom drugih sopstvenih gena.

Gustina D(A Eigen) sopstvene mreže se definiše kao prosečna skalirana povezanost (jednačina 9):

Gustina D(A Eigen) je blizu 1 ako većina sopstvenih gena ima visoke pozitivne međusobne korelacije.

Meta-moduli u jednoj sopstvenoj mreži

Pošto sopstveni gene formiraju mrežu, može se koristiti procedura detekcije modula da se identifikuju moduli koji se sastoje od sopstvenih gena. Module u sopstvenoj mreži nazivamo meta-moduli. Meta-moduli mogu otkriti organizaciju višeg reda među modulima koekspresije gena. Koristimo prosečno hijerarhijsko klasterisanje veza da definišemo meta-module kao grane rezultujućeg stabla klastera (Metode, jednačina 21). Dobijeni meta-moduli su skupovi pozitivno koreliranih sopstvenih gena.

Analiza diferencijalnih sopstvenih mreža

Nekoliko nedavnih radova opisuje metode diferencijalne analize mreže za mreže koekspresije gena [11–13]. Ovde predlažemo metode za diferencijalnu analizu sopstvenih mreža. Pregled je prikazan na slici 1B. Počinjemo sa definisanjem i otkrivanjem modula konsenzusa, tj., moduli koje dele dve ili više mreža za koekspresiju gena. Moduli konsenzusa mogu predstavljati biološke puteve koji se dele među upoređenim skupovima podataka. Proučavanje njihovih odnosa, predstavljenih konsenzusnim sopstvenim mrežama, može otkriti važne razlike u regulaciji puteva pod različitim uslovima. Detekcija modula konsenzusa se nastavlja tako što se definiše odgovarajuća različitost konsenzusa (Metode, jednačina 22) i koristi se kao ulaz za hijerarhijsko grupisanje. Да би упоредили Консензус еигенгене мреже (Ек. 1) два сета података чији суседства матрице су АЕ иген (1) МатхТипе @ СОР @ 5 @ 5 @ + = феаагаарт1ев2ааатЦвАУфКттЛеаруВрП9МДХ5МБПбИкВ92АаеКсатЛкБИ9гБаеббнрфифХхДИфгасаацПЦ6кНи = кХ8виВГИ8Ги = хЕееу0кКсдбба9фрФј0кб9ккпГ0дКсдб9аспеИ8к8фиИ + фсИ = ркГкВепае9пг0дб9вкаиВгФр0кфр = КСФР = кц9адбакааеГацаГааиаабекааекабиВаааГцбаГаемикае0аа0бааСкааиабдвеафјабдМгаПјабдЕгаЊабдвгаЉабд6гаУбкааиабцИцаОиабигдаКсиабцМцаПаааааа @ 362а @ АЕ Иген (2) МатхТипе @ СОР @ 5 @ 5 + = феаагаарт1ев2ааатЦвАУфКттЛеаруВрП9МДХ5МБПбИкВ92АаеКсатЛкБИ9гБаеббнрфифХхДИфгасаацПЦ6кНи = кХ8виВГИ8Ги = хЕееу0кКсдбба9фрФј0кб9ккпГ0дКсдб9аспеИ8к8фиИ + фсИ = ркГкВепае9пг0дб9вкаиВгФр0кфр = КСФР = кц9адбакааеГацаГааиаабекааекабиВаааГцбаГаемикае0аа0бааСкааиабдвеафјабдМгаПјабдЕгаЊабдвгаЉабд6гаУбкааиабцИцаОиабикдаИиабцМцаПаааааа @ 362Ц @, користимо од mreža očuvanja Preserv (1,2) = Preserv(АЕ иген (1) МатхТипе @ СОР @ 5 @ 5 @ + = феаагаарт1ев2ааатЦвАУфКттЛеаруВрП9МДХ5МБПбИкВ92АаеКсатЛкБИ9гБаеббнрфифХхДИфгасаацПЦ6кНи = кХ8виВГИ8Ги = хЕееу0кКсдбба9фрФј0кб9ккпГ0дКсдб9аспеИ8к8фиИ + фсИ = ркГкВепае9пг0дб9вкаиВгФр0кфр = КСФР = кц9адбакааеГацаГааиаабекааекабиВаааГцбаГаемикае0аа0бааСкааиабдвеафјабдМгаПјабдЕгаЊабдвгаЉабд6гаУбкааиабцИцаОиабигдаКсиабцМцаПаааааа @ 362а @, АЕ иген (2) МатхТипе @ СОР @ 5 @ 5 @ + = феаагаарт1ев2ааатЦвАУфКттЛеаруВрП9МДХ5МБПбИкВ92АаеКсатЛкБИ9гБаеббнрфифХхДИфгасаацПЦ6кНи = кХ8виВГИ8Ги = хЕееу0кКсдбба9фрФј0кб9ккпГ0дКсдб9аспеИ8к8фиИ + фсИ = ркГкВепае9пг0дб9вкаиВгФр0кфр = КСФР = кц9адбакааеГацаГааиаабекааекабиВаааГцбаГаемикае0аа0бааСкааиабдвеафјабдМгаПјабдЕгаЊабдвгаЉабд6гаУбкааиабцИцаОиабикдаИиабцМцаПаааааа @ 362Ц @), у којем су дефинисани као суседства

Овде Е И (а) МатхТипе @ СОР @ 5 @ 5 @ + = феаагаарт1ев2ааатЦвАУфКттЛеаруВрП9МДХ5МБПбИкВ92АаеКсатЛкБИ9гБаеббнрфифХхДИфгасаацПЦ6кНи = кХ8виВГИ8Ги = хЕееу0кКсдбба9фрФј0кб9ккпГ0дКсдб9аспеИ8к8фиИ + фсИ = ркГкВепае9пг0дб9вкаиВгФр0кфр = КСФР = кц9адбакааеГацаГааиаабекааекабиВаааГцбаГаемирау0аа0бааСкааиабдМеајбкааиабцИцаОиабдохаЗјабцМцаПаааааа @ 314Ф @ означава еигенгене на И-ом консензус модул скупу података s. Високе вредности П Р Е С е р в и ј (1, 2) МатхТипе @ СОР @ 5 @ 5 @ + = феаагаарт1ев2ааатЦвАУфКттЛеаруВрП9МДХ5МБПбИкВ92АаеКсатЛкБИ9гБаеббнрфифХхДИфгасаацПЦ6кНи = кХ8виВГИ8Ги = хЕееу0кКсдбба9фрФј0кб9ккпГ0дКсдб9аспеИ8к8фиИ + фсИ = ркГкВепае9пг0дб9вкаиВгФр0кфр = КСФР = кц9адбакааеГацаГааиаабекааекабиВаааГцбаГаемиуааЛаемОЦаиНаемизауМаем4ЦамНаемизауМаемОЦаиНаемОДаи3аа0бааСкааиабдМеајјабдКеакбкааиабцИцаОиабигдаКсиабцИцаСиабикдаИиабцМцаПаааааа @ 3Ц39 @ показују јаку повезаност очување између еигенгенес I и J preko dve mreže. Skalirana povezanost C I(Preserv (1,2) ) je dat sa

i blizu je 1 ako su korelacije između I-th svojstveni gen i ostali sopstveni gene su sačuvani u dve mreže. Gustina D(Preserv (1,2) ) je dat sa

Veće vrednosti od D(Preserv (1,2) ) ukazuju na jače očuvanje korelacije između svih parova sopstvenih gena u dve mreže. Mere (5, 6) su intuitivne, deskriptivne mere za procenu stepena očuvanosti između mreža. Da bismo došli do nivoa statističke značajnosti (str-vrednost), može se koristiti test permutacije (opisan u Metodama). Predloženi su mnogi statistički testovi za testiranje razlika između korelacija, на пример., [14–16].

Aplikacija 1: Diferencijalna analiza sopstvenih mreža podataka o ekspresiji mozga ljudi i šimpanze

Ovde izveštavamo o rezultatima naše diferencijalne analize sopstvenih mreža podataka o mozgu čoveka i šimpanze. Podaci o mikromrežu su prvobitno objavljeni u [17]. Analiza koekspresije gena ovih podataka je objavljena u [11]. Da bismo olakšali poređenje sa originalnom analizom marginalnog modula, koristili smo gene odabrane u tom radu. Podaci, R kod i više detalja ove analize mogu se naći u Dodatnoj datoteci 1 i na našoj veb stranici.

Da bismo pronašli module konsenzusa, koristili smo meru različitosti konsenzusa (jednačina 22) i prosečno hijerarhijsko grupisanje veza. Geni datog modula konsenzusa dobili su istu boju, dok su nedodeljeni geni označeni sivom bojom. Pronašli smo 7 konsenzus modula, prikazanih na slici 2A: crni (41 gen), plavi (40 gena), smeđi (294 gena), ružičasti (41 gen), crveni (78 gena), tirkizni (884 gena) i žuti (151 gen). Analiza funkcionalnog obogaćivanja ovih konsenzus modula je opisana u nastavku. Za svaki skup podataka, predstavili smo konsenzus module njihovim odgovarajućim sopstvenim genima modula i konstruisali svojstvenu mrežu između njih (jednačina 1).

Analiza diferencijalne mreže sopstvenih gena daje dva glavna nova nalaza koja se ne bi mogla dobiti korišćenjem standardne marginalne metode. Prvo, nalazimo da je odnosima između modula sopstveni geneni su veoma očuvani. Fig. 2E i 2H prikazuju sopstvene mreže AEigen,ljudskiи AEigen,šimpanza, редом. Jasno je da su ljudske i šimpanze sopstvene mreže konsenzus modula veoma očuvane. Kao što je opisano u Eq. (4), definisali smo mrežu očuvanja Preserve ljudski,šimpanza = Preserv(AEigen,ljudski, AEigen,šimpanza) između 7 sopstvenih konsenzusa.

Za svaki pojedinačni svojstveni gen, nalazimo da je njegov odnos sa drugim sopstvenim genima veoma očuvan, što se ogleda u visokoj povezanosti u mreži očuvanja (jednačina 5): C crvena(Preserve ljudski,šimpanza ) = 0.94, C црн= 0.95, C žuta= 0.92, C tirkizno= 0.95, C roze= 0.91, C Плави= 0.91, C braon= 0,94. Nalazimo visoku ukupnu očuvanost (jednačina 6) između dve mreže što se odražava u velikoj gustini mreže očuvanja D(Preserve ljudski,šimpanza ) = 0,93. Fig. 2F,G sumiraju naše nalaze o odnosima modula konsenzusa.

Drugi novi nalaz je da konsenzus sopstvenih gena u ljudskom skupu podataka pada u tri grane (meta-moduli), videti sliku 2C. Prvi meta-modul se sastoji od crvenih, crnih i žutih sopstvenih gena, drugi meta-modul sadrži tirkizni sopstveni gen, a treći meta-modul sadrži ružičaste, plave i braon sopstvene gene. Zanimljivo je da se ova 3 meta-modula takođe mogu otkriti u podacima šimpanze, videti sliku 2D. Dok definicija konsenzus modula trivijalno implicira da su oni sačuvani između dva skupa podataka, netrivijalan je rezultat da su u ovoj aplikaciji sačuvani i meta-moduli.

Da bismo razumeli biološko značenje modula konsenzusa, proučavali smo diferencijalnu ekspresiju sopstvenih gena modula konsenzusa u oblastima mozga iz kojih su uzeti uzorci mikromreža. Rezultati su sumirani na slici 2 koja prikazuje t-test str-vrednosti diferencijalne ekspresije sopstvenih gena modula u različitim regionima mozga iz kojih su uzeti uzorci. Jasno je da se sopstveni genini mogu okarakterisati njihovim diferencijalnim obrascima ekspresije u različitim regionima mozga. Štaviše, ova analiza omogućava biološki značajnu karakterizaciju meta-modula. Prvi meta-modul (sastoji se od sopstvenih gena crnog, žutog i crvenog modula) predstavlja 270 gena koji imaju tendenciju da se različito eksprimiraju u kaudatnom jezgru. Drugi meta-modul (sastoji se samo od tirkiznog sopstvenog gena) predstavlja 884 gena koji imaju tendenciju da se različito eksprimiraju u malom mozgu. Treći meta-modul (sastoji se od sopstvenih gena ružičastog, plavog i braon modula) predstavlja 375 gena koji su različito eksprimirani u kortikalnim uzorcima. Dakle, meta-moduli ove aplikacije odgovaraju biološki značajnim super-skupovima modula i gena.

S obzirom na jake veze između modula u svakom meta-modulu, prirodno je zapitati se da li su moduli konsenzusa zaista različiti. Na primer, crni i crveni moduli pokazuju veoma slične nivoe diferencijalne ekspresije, videti sliku 2B. U ovom slučaju, informacije o ontologiji gena sugerišu da su dva modula zaista različita. Crni modul je obogaćen genima vezanim za belu materiju, dok se za crveni modul ne može naći takvo obogaćivanje [11]. Slično, ontologija gena sugeriše da su žuti i crni moduli različiti iako su njihovi sopstveni moduli u korelaciji.

Ukratko, analiza sopstvene mreže otkriva organizaciju višeg reda konsenzusnih modula u transkriptomu.

Upoređivanje naših nalaza sa standardnom analizom marginalnog modula

Standardni pristup za poređenje modula između nekoliko mreža je da se identifikuju moduli u 'referentnoj' mreži i da se proučava očuvanje dodele modula u drugim mrežama [7]. U originalnoj analizi, Oldham et al izabrao mrežu koekspresije ljudskih gena kao referentnu mrežu pošto je i očuvanje i neočuvanje ljudskih modula bilo od interesa. Ova analiza marginalnog modula je prikladna kada su moduli jednog skupa podataka fokus analize, ali nije dizajnirana da identifikuje module konsenzusa koji čine fokus našeg članka. Da bismo uporedili analizu diferencijalne analize sopstvenih gena sa standardnom metodom marginalnog modula, uporedili smo naše module konsenzusa sa 7 ljudskih modula pronađenih u [11]. Koristili smo Fišerov tačan test u paru da bismo utvrdili da li postoji značajno preklapanje između konsenzusa i ljudskih modula. Rezultati su sažeti u Dodatnom fajlu 2. Sve u svemu, nalazimo dobro slaganje između modula konsenzusa i modula specifičnih za ljude, što odražava činjenicu da je većina ljudskih modula očuvana kod šimpanzi. Većina ljudskih modula može se dodeliti modulu konsenzusa i obrnuto, osim modula plavog (360 gena) i zelenog (126) kod ljudi koji su uglavnom nestali iz konsenzusa. Zanimljivo je da mali ostaci (24 i 12 gena, respektivno) dva modula čine većinu jedinog modula konsenzusa (označenog roze, 41 gen) koji nema jasan ljudski pandan. Još jedan mali ostatak (33 gena) ljudskog plavog modula čini većinu konsenzus plavog modula (40 gena).

Utvrđeno je da zeleni i plavi ljudski moduli predstavljaju uglavnom kortikalne uzorke (i mali mozak za zeleni modul) i najmanje su očuvani kod šimpanzi [11]. Ovo je u skladu sa našim nalazom o njihovom nedostatku konzervacije koristeći metod modula konsenzusa. Jedno moguće objašnjenje za odsustvo ovih modula kod šimpanzi je da oni u velikoj meri odražavaju ekspresiju gena u cerebralnom korteksu, regionu mozga koji se dramatično proširio u ljudskoj liniji. Standardna analiza marginalne diferencijalne mreže takođe je identifikovala nekoliko gena – LDOC1, EYA1, LECT1, PGAM2 – čije su veze (jednačina 8) bile značajno niže u mreži šimpanzi. Nijedan od ovih gena nije prisutan u našim modulima konsenzusa, što pruža dodatne dokaze o slaganju metode sa rezultatima [11].

Po definiciji, detekcija modula konsenzusa je dizajnirana da pronađe module koji se dele između skupova podataka. Očigledno je da će postojati mnogo aplikacija u kojima će moduli specifični za skup podataka biti od interesa. U takvim aplikacijama standardna analiza detekcije marginalnog modula će biti poželjnija.

Primena 2: Analiza diferencijalne sopstvene mreže četiri mišja tkiva

Analizirali smo podatke o ekspresiji gena dobijene od ženki miševa F2 ukrštanja miševa [18]. Podaci mikromreža merili su nivoe ekspresije gena u četiri različita tkiva miša: jetra, mozak, masno tkivo i mišići. Više detalja u vezi sa podacima predstavljeno je u Dodatnom fajlu 3 i na našoj veb stranici. Nesličnost konsenzusa (Metode, jednačina (22)) korišćena je kao ulaz za prosečno hijerarhijsko grupisanje veza. U rezultujućem dendrogramu, konsenzus moduli su identifikovani metodom dinamičkog sečenja grana drveta [19]. Pronašli smo 11 konsenzus modula (slika 3A): crni (50 gena), plavi (149 gena), braon (125 gena), zeleni (59 gena), zeleno-žuti (25 gena), magenta (36 gena), roze (44 gena), ljubičasta (27 gena), crvena (55 gena), tirkizna (162 gena) i žuta (87 gena). Analiza funkcionalnog obogaćivanja ovih modula je predstavljena u nastavku.

Analiza diferencijalne sopstvene mreže u četiri tkiva kod ženki miševa. A. Hijerarhijski klasterizovani dendrogram gena za identifikaciju konsenzus modula (vidi tekst). Grane dendrograma, isečene na crvenoj liniji, odgovaraju konsenzus modulima. Genima u svakom modulu je dodeljena ista boja, prikazana u traci boja ispod dendrograma. Geni koji nisu dodeljeni nijednom od modula su obojeni sivo. Biološki značaj pronađenih modula je procenjen analizom funkcionalnog obogaćivanja, prikazanom u glavnom tekstu i u dodatnom fajlu 4. B.–E. Grupisanje dendrograma sopstvenih gena konsenzus modula za identifikaciju meta-modula. F.–U. Matrica dijagrama koja prikazuje konsenzusne sopstvene mreže u četiri tkiva. Svaki red i kolona odgovaraju jednom tkivu kao što je naznačeno na dijagonalnim grafikonima. Dijagonalni dijagrami F., K., P., U. pokazuju grafikone toplotne karte susednosti sopstvenih gena u svakoj sopstvenoj mreži. Svaki red i kolona odgovaraju jednom sopstvenom genu (označenom bojom konsenzus modula). Unutar svake toplotne karte, crvena označava visoku susednost (pozitivna korelacija), a zelena nisku susednost (negativna korelacija) kao što je prikazano legendom boje. Svaki od dijagrama gornjeg trougla (G., H., I., L., M., Q.) prikazuje traku očuvanja odnosa konsenzus sopstvenih gena, Eq. (16) između dva tkiva (odgovarajući red i kolona) kao i ukupna mera očuvanja mreže D za taj par tkiva, jednačina. (17). Grafici donjeg trougla (J., N., O., R., S., T.) pokazuju susedne toplotne karte za mreže očuvanja u paru tkiva koje odgovaraju redu i koloni, Eq. (15). U toplotnoj mapi, svaki red i kolona odgovaraju konsenzusnom modulu, zasićenost crvene boje kodira susednost prema legendi boja.

Slike 3F,K,P i 3U prikazuju sopstvene mreže AEigen,мозак, AEigen,mišića, AEigen,liver, и A Eigen, adipose, редом. Da bismo procenili očuvanje konsenzusnih modula u parovima tkiva, definisali smo mreže očuvanja (jednačina 15), на пример., Preserv mišića,masnoća = Preserv(AEigen,mišića, AEigen,masnoća). Nalazimo sledeće ukupne vrednosti očuvanja između sopstvenih mreža: D(Preserv мозак,mišića ) = 0.93, D мозак,jetra = 0.88, D мозак,masnoća = 0.85, D mišića,jetra = 0.88, D mišića,masnoća = 0.85, D jetra,masnoća = 0,87. Dakle, na nivou tkiva, primećujemo dobro očuvanje između konsenzus sopstvenih mreža sa najvećom očuvanošću između mozga i mišićnog tkiva. Zanimljivo je da ova dva skupa podataka takođe pokazuju najjače odnose između sopstvenih gena u svakom skupu podataka (najjači crveni i zeleni obrasci u dijagramima toplotne karte). Ovo se može meriti gustinom apsolutnih vrednosti ME korelacija, DkorD(|cor(E I, E J)|). Za mrežu mišića i mozga koju nalazimo Dcor,mišića= 0,45 i Dcor,мозак= 0,45. Eigengeni u jetri pokazuju, kao skup podataka, odnose donekle slične onima između mozga i mišića, iako obrasci u dijagramu toplotne karte nisu tako jaki, Dcor,jetra= 0,37. Masno tkivo pokazuje najslabije odnose između sopstvenih gena modula, Dcor,masnoća= 0,31. Očuvanje sopstvenih gena, на пример., C crvena(Preserve mišića,masnoća ) se može naći na slici 3, u gornjem trouglu matrice dijagrama F-U.

Na stranu, napominjemo da su mere očuvanja mreže u paru direktno uporedive samo kada upoređene mreže očuvanja uključuju isti skup sopstvenih konsenzusa, kao što je slučaj u ovoj aplikaciji sa četiri tkiva.

Otkrili smo da sopstvene mreže sadrže meta-module, tj., grupe visoko koreliranih sopstvenih gena (slike 3B-E). Kao primer, fokusiramo se na meta-module u sopstvenoj mreži mozga. Kao što se može videti sa slike 3, sopstveni konsenzus u moždanom tkivu formiraju 3 meta-modula koji su delimično očuvani u drugim tkivima. Konkretno, prvi meta-modul mozga sastoji se od crnih, plavih, magenta i crvenih konsenzus sopstvenih gena. Veoma je očuvan u mišićima i masnim tkivima, ali manje u jetri. Drugi meta-modul mozga sastoji se od zeleno-žutih, ružičastih i žutih konsenzus sopstvenih gena. Ovaj meta-modul je veoma očuvan u mišićima i jetri, ali manje u masnoj. Treći meta-modul mozga sastoji se od tirkiznih, zelenih i ljubičastih sopstvenih gena. Visoko je očuvan u jetri i masnom tkivu, ali manje u mišićima. Ovi rezultati pokazuju da meta-moduli mogu ili ne moraju biti sačuvani u različitim sopstvenim mrežama.

Da bismo razumeli biološko značenje modula konsenzusa, koristili smo analizu funkcionalnog obogaćivanja koristeći informacije o ontologiji gena [20]. Detaljni rezultati uključujući alternativne metode za prilagođavanje za višestruka poređenja mogu se naći u tabeli funkcionalnog obogaćivanja predstavljenoj u Dodatnoj datoteci 4. Sve u svemu, nalazimo da je većina modula značajno obogaćena poznatim ontologijama gena. Konkretno, crni modul je visoko obogaćen ribozomskim genima (Bonferoni-ispravljena Fišerova tačna str-vrednost str = 8 × 10 -10 ) plavi modul sa imunološkim/stimulativnim/odbrambenim odgovorom (str < 3 × 10 -17 za svaki od tri termina) braon sa aktivnošću regulatora translacije (str = 4 × 10 -3 ) i vezivanje nukleotida (str = 5 × 10 -3 ) magenta sa odgovorom na stimulaciju/odbranu (str < 2 × 10 -6 ) i signalne putanje (str < 2 × 10 -3 ) crvena sa ćelijskim ciklusom (str = 1,4 × 10 -19 ) kao i vezivanje nukleotida/ATP (str < 10 -8 ) tirkizna sa vezivanjem za proteine ​​(str = 6 × 10 -3 ) žuta sa metabolizmom ugljenih hidrata (str = 3 × 10 -4 ) roze i zeleno-žute sa lokalizacijom proteina (str = 0,003 i str = 0,004), i zelene sa alternativnim spajanjem/intracelularnim organelama (str = 4 × 10 -4 ).

Naš metod je otkrio dva modula za transport i lokalizaciju proteina (ružičasti i zeleno-žuti) i može se zapitati da li su ovi moduli zaista različiti. Dva modula su blisko povezana u 3 od 4 skupa podataka, ali u masnom tkivu imaju slabu (i negativnu) korelaciju od -0,24. Dakle, sa stanovišta konsenzusa, to su dva različita modula. Dalje, imajte na umu da su zeleni i crni moduli veoma bliski na konsenzusnom dendrogramu, a njihova korelacija sopstvenih modula (ME) je visoka u apsolutnoj vrednosti, ali negativna. Analiza funkcionalnog obogaćivanja sugeriše da su moduli različiti, iako su neki termini povezani (ribozomi za crni modul i intracelularna organela za zeleni) ovo je indikacija da je znak korelacije sopstvenih gena biološki značajan.

Dok bi standardna analiza marginalnog modula uspela da proučava očuvanje pojedinačnih modula skupa podataka, analiza sopstvenih modula konsenzusa omogućava nam da pronađemo zajedničke module i da proučavamo odnose višeg reda između modula konsenzusa. Meta-moduli u moždanim tkivima ukazuju na sledeće odnose: prvi (crna, plava, magenta, crvena) sugeriše odnos između ribozomalnog, imunološkog/odbrambenog/stimulativnog odgovora i puteva ćelijskog ciklusa, drugi (zeleno-žuta, ružičasta, žuta) između lokalizacije proteina i metabolizma ugljenih hidrata treći (tirkizna, zelena, ljubičasta) među vezivanjem za proteine ​​i alternativnim putevima spajanja/intracelularnih organela.

Podaci takođe uključuju informacije o kliničkim osobinama miševa (на пример., nivoi holesterola i insulina, telesna težina, itd.), a može se zapitati da li se neki od modula konsenzusa (ili tačnije, njihovi sopstveni genetici) značajno odnose na neku od osobina. Ne nalazimo značajnu korelaciju između sopstvenih gena modula konsenzusa i osobina. U aplikaciji 3, izveštavamo o značajnim odnosima između modula konsenzusa i kliničkih osobina.

Permutacioni test članstva u modulu konsenzusa

Koristili smo podatke iz mozga i mišićnog tkiva da izvršimo test permutacije (opisan u Metodama) detekcije konsenzus modula. Definisali smo kombinovani broj gena dodeljenih konsenzus modulima kao test statistiku. Ova statistika testa je bila veoma značajna (str ≤ 0,001), što pokazuje da je broj gena u modulima konsenzusa bio veoma značajan. Međutim, ovi rezultati zavise od nivoa strogosti definisanja modula konsenzusa. Slika 4 pokazuje da kako se granica visine za detekciju grana u konsenzus dendrogramu povećava, verovatnoća pronalaženja lažnih modula konsenzusa (i gena u njima) raste za preterano visoke nivoe preseka grana, verovatnoća pronalaženja što više gena u permutiranim podacima postavlja kao u nepromenjenom postaje neprihvatljivo visoka.

Rezultati testa permutacije koji pokazuju da je broj gena u modulima konsenzusa veoma značajan. Ovde koristimo mozak i mišićno tkivo ženki miševa. Veličina konsenzus modula zavisi od graničnika visine koji se koristi za sečenje grana sa dendrograma. Dakle, broj gena u modulu konsenzusa (y-osa) zavisi od preseka visine (x-osa). Crvene horizontalne linije predstavljaju posmatrani broj gena u konsenzus modulima za originalni (nepermutirani) skup podataka. Bokplotovi (crni) sumiraju broj gena koji su dodeljeni modulima konsenzusa nakon što je lista gena permutirana između dva skupa podataka (1000 nasumičnih permutacija). Za granične vrednosti visine manje od 0,99, posmatrani broj konsenzus gena je veoma značajan (str = 0.001).

Primena 3: Moduli konsenzusa u tkivima jetre ženke i mužjaka miša

Ovde primenjujemo analizu diferencijalne mreže sopstvenih gena na podatke o ekspresiji jetre kod ženki i mužjaka miševa gore pomenutog F2 ukrštanja miševa. Metoda detekcije konsenzus modula identifikovala je 11 konsenzus modula, prikazanih na slici 5A: crna (182 gena), plava (444 gena), smeđa (439 gena), zelena (207 gena), zeleno-žuta (82 gena), magenta (105 gena). geni), ružičasta (168 gena), ljubičasta (83 gena), crvena (203 gena), losos (58 gena), žuta (67 gena), tirkizna (605 gena) i žuta (302 gena). Sve u svemu, postoji odlično očuvanje između ženske i muške sopstvene mreže, D(Preserv Женско,Мушки ) = 0,94 (sl. 5E, F). Modul sopstveni dendrogrami na Sl. 5B, C kao i na toplotnim kartama sopstvene mreže na sl. 5D,G pokazuju da dva skupa podataka dele tri meta-modula. Prvi sadrži module plave i tirkizne (1049 gena), drugi sadrži zeleni, magenta i roze module (480 gena), a treći sadrži crni, braon, žuti, zeleno-žuti i crveni modul (466). geni).

Analiza diferencijalne sopstvene mreže u tkivima jetre ženskih i muških miševa. A. Hijerarhijski klasterizovani dendrogram gena za identifikaciju konsenzus modula (vidi tekst). Grane dendrograma, isečene na crvenoj liniji, odgovaraju konsenzus modulima. Genima u svakom modulu je dodeljena ista boja, prikazana u traci boja ispod dendrograma. Geni koji nisu dodeljeni nijednom od modula su obojeni sivo. ПРЕ НОВЕ ЕРЕ. Grupisanje dendrograma sopstvenih gena konsenzus modula za identifikaciju meta-modula. D.–G. Matrica dijagrama koja prikazuje konsenzusne sopstvene mreže. Dijagonalni dijagrami D., G. pokazuju grafikone toplotnih mapa susednosti sopstvenih gena u svakoj sopstvenoj mreži. Svaki red i kolona odgovaraju jednom sopstvenom genu (označenom bojom konsenzus modula). Unutar svake toplotne karte, crvena označava visoku susednost (pozitivna korelacija), a zelena nisku susednost (negativna korelacija) kao što je prikazano legendom boje. E. Barplot očuvanja odnosa sopstvenih gena konsenzusa između dva skupa podataka, Eq. (16), kao i ukupnu meru očuvanja mreže D, Eq. (17). Svaka obojena traka odgovara svojstvu odgovarajuće boje. Visina šipke (y-osa) daje meru očuvanja sopstvenih gena (16). F. Toplotna mapa susednosti za mrežu očuvanja između ženske i muške konsenzus sopstvenih mreža, Eq. (15). Svaki red i kolona odgovaraju modulu konsenzusa. Zasićenost crvene boje kodira susednost prema legendi boje. H., I. Značaj konsenzus modula za kliničke osobine, dat korelacijom odgovarajućeg svojstvenog modula (red) sa kliničkom osobinom (kolona). Prikazane su korelacije i str-vrednosti boja ćelije kodira korelaciju (crvena, pozitivna korelacija, zelena, negativna korelacija prema legendi boje).

Eksperimentalni podaci uključuju kliničke karakteristike kao što su telesna težina miša, nivo holesterola, itd. Kao što je detaljno opisano u Dodatnom fajlu 5, odabrali smo 7 potencijalno interesantnih osobina. Fig. 5H, predstavljam korelacije i odgovarajuće str-vrednosti za povezivanje kliničkih osobina sa sopstvenim genima modula. Otkrili smo da je tirkizni modul (605 gena) u visokoj značajnoj korelaciji sa težinom i kod žena (r = 0.5, str = 5 × 10 -8 ) i muški uzorci (r = 0.47, str = 3,1 × 10 -8). Zelenožuti modul (82 gena) se odnosi na težinu sa uporedivim korelacijama, r = -0.44 (str = 8 × 10 -8 ) i r = -0.50 (str = 4 × 10 -9 ) kod žena i muškaraca, respektivno. Žuti modul je značajno povezan sa nivoima insulina u skupovima podataka za žene i muškarce, r = 0.38 (str = 5 × 10 -6 ) i r = 0.35 (str = 7 × 10 -5 ), respektivno. Korelacija između sopstvenih gena konsenzus tirkiznog i zelenožutog modula je -0,68 i -0,74 u ženskim i muškim uzorcima, respektivno, sopstveni geneni modula su relativno bliski po apsolutnoj vrednosti korelacije, ali razlika u znaku sugeriše da se razlikuju. Ovaj rezultat je još jedna motivacija za korišćenje potpisanih mreža (jednačina 1) za opisivanje odnosa između sopstvenih gena.

S obzirom na to da ženske i muške mreže izgledaju slične, ali ne i iste, može se zapitati da li analiza modula konsenzusa daje indikaciju u čemu se razlikuju. U tu svrhu uporedili smo dodeljivanje modula ženske jetre kako je navedeno u [18] sa našim konsenzusnim dodeljivanjem modula, pogledajte Dodatni fajl 6. Koristeći iste parametre za grupisanje i otkrivanje grananja, otkrili smo da su dva od 12 modula (označena lososom i svetlo-žute boje) u tom radu nisu zastupljene u konsenzus modulima. Istraživanje funkcije ova dva modula je van okvira ovog rada.

Simulacijske studije konsenzus modula

Da bismo procenili performanse metode detekcije modula konsenzusa, izvršili smo simulacionu studiju koja uključuje dva simulirana skupa podataka o ekspresiji gena. Dva skupa podataka sadržala su i deljene i nedeljene module. Stvarni postupak simulacije je detaljnije opisan u Dodatnoj datoteci 7, a R kod se može naći na našoj veb stranici.

Ukratko, svaki simulirani modul je izgrađen oko izabranog semenskog profila (koji se naziva pravim sopstvenim modulom) dodavanjem profila ekspresije gena sa sve većom količinom buke. Proučavali smo performanse detekcije konsenzus modula pod različitim nivoima dodatne buke. Osetljivost i specifičnost se određuju iz broja istinitih i lažnih pozitivnih (n TPи n FP) i istinitih i lažnih negativnih (n TNи n FN) kao Osetljivost = n TP/(n TP+ n FN), Specifičnost = n TN/(n TN+ n FP). Da bismo izmerili vernost izračunatih sopstvenih gena modula pravim sopstvenim genima modula, izveštavamo o proporciji P0.95 detektovanih modula čiji sopstveni genet ima korelaciju veću od 0,95 sa pravim sopstvenim genom modula, tj., Vernost = P0.95. Rezultati simulacije su sumirani u tabeli 1. Otkrili smo da kada je šum nizak i moduli su veoma jasno definisani, osetljivost, specifičnost i vernost su 100%. Vredi napomenuti da za niske i umerene nivoe buke, vernost ne varira značajno sa promenama u visini preseka grane, što ukazuje da su sopstveni geni modula robusni na uključivanje/isključivanje umerenog broja gena u modulu. Kako se šum povećava, osetljivost, specifičnost i vernost se smanjuju. Napominjemo da specifičnost i osetljivost zavise od izbora parametara sečenja za stabla klastera. Nismo izvršili iscrpnu pretragu da bismo identifikovali vrednosti parametara koje bi dale optimalne performanse. Naše podrazumevane postavke rade dobro u nizu različitih simulacionih modela.


Uvod

Čitav život na zemlji je vođen biološkim ritmovima koji su definisani kao samoodržive oscilacije koje kruže sa fiksnim periodom. Biološki satovi omogućavaju organizmima da prate doba dana i da prilagode svoju fiziologiju ponavljajućim dnevnim promenama u spoljašnjoj sredini, uključujući status hranljivih materija i mikrookruženja. Naše razumevanje bioloških ritmova kod sisara proširilo se izvan dobro okarakterisanih cirkadijanskih ritmova (otprilike 24-časovne oscilacije) poslednjih godina kroz otkriće postojanja 12-časovnih ritmova kod miševa [1,2]. Nekoliko studija je pratilo ove početne studije i predložile su različite hipoteze o tome kako se uspostavljaju 12-časovni ritmovi [1,3–5]. Rane studije favorizuju hipotezu da 12-časovni ritmovi sisara nisu ćelijski autonomni i da su umesto toga uspostavljeni kombinovanim efektima cirkadijalnog sata i znakova hranjenja natašte. Ovaj zaključak je u velikoj meri zasnovan na nalazima koji pokazuju nedostatak ćelijski autonomnih 12-časovnih ritmova genske ekspresije u forskolinom sinhronizovanim NIH3T3 ćelijama i izmenjenih 12-časovnih ritmova genske ekspresije pod određenim uslovima hranjenja i poremećaja cirkadijalnog sata [2–4] . Alternativno, sugerisano je da su 2 cirkadijalna aktivatora ili represora transkripcije koji se pojavljuju u antifazi teoretski sposobna da uspostave 12-časovne ritmove ekspresije gena na ćelijski autonoman način [5]. Suprotno ovim hipotezama, naša grupa je otkrila da 12-časovni ritmovi sisara nisu samo ćelijski autonomni, već su takođe uspostavljeni namenskim „12-časovnim satom“ odvojenim od cirkadijalnog sata i da funkcionišu da koordinišu ćelijski stres sa metabolizmom [1]. ,6,7].

Glavni niz dokaza koji podržavaju postojanje ćelijsko-autonomnog 12-časovnog sata sisara uključuju (1) prisustvo intaktnih jetrenih 12-časovnih ritmova ekspresije gena kod miševa sa nedostatkom cirkadijanskog sata in vivo u uslovima slobodnog rada [1 ,6] (2) detekcija ćelijski autonomnih 12-časovnih ritmova ekspresije gena u mišjim embrionalnim fibroblastima (MEF) u Bmal1-nezavisan način [1,6] (3) da su slični geni regulisani na 12-časovni ritmički način u različitim organizmima, što ukazuje na evolucionu konzervaciju ovih 12-časovnih mehanizama [1] i (4) da geni pokazuju 12-časovne ritmove nastali su mnogo ranije tokom evolucije nego cirkadijalni geni [1,6,8]. Pretpostavlja se da bi se mehanizmi cirkatidnog sata razvili pre divergencije glavnih životinjskih klanova, koji su postojali u zajedničkom pretku, zauzimajući vodena tela u kojima bi ciklusi plime i oseke bili ekološki važni – ako ne i više – od cirkadijalnog ciklusa [ 8–10].

Zbog snažnog obogaćivanja puteva nesavijenog proteinskog odgovora (UPR) u jetrenim 12-časovnim transkriptomima, pretpostavili smo da 12-časovni sat sisara može biti regulisan transkripcijski pomoću UPR transkripcionog faktora spojenog oblika X-box Binding Proteina 1 (XBP1) [6]. U skladu sa ovom hipotezom, ranije smo otkrili da mala interferirajuća RNK (siRNA) posredovana srušenjem Xbp1 u MEFs oštećene ćelijske autonomne 12-časovne mRNA oscilacije nekoliko gena, uključujući Eif2ak3 и Sec23b [1,6]. Dok ovi podaci ukazuju na ulogu XBP1 u regulisanju 12-časovnih ritmova ekspresije gena in vitro, ostaje neutvrđeno da li je XBP1s glavni regulator transkripcije 12-satnog sata jetre sisara in vivo. U ovoj studiji smo se pozabavili ovim pitanjem i otkrili da XBP1 značajno doprinosi uspostavljanju i održavanju 12-časovnih ritmova, ali ne i cirkadijanskih ritmova, na nivou transkripcije. Naša studija stoga pokazuje zamršenu mrežu transkripcione kontrole 12-časovnog sata sisara koji posreduje u različitim biološkim putevima, uključujući transkripciju, translaciju, biogenezu ribozoma, obradu mRNK i proteina i promet vezikula.


Референце

Danham, I. et al. DNK sekvenca ljudskog hromozoma 22. Priroda 402, 489–495 (1999).

Hatori, M. et al. DNK sekvenca ljudskog hromozoma 21. Priroda 405, 311–319 ( 2000).

Lennon, G.G. & Lehrach, H. Hybridization analysis of arrayed cDNK libraries. Trends Genet. 7, 314– 317 (1991).

Kafatos, F. C., Jones, C. W. & amp Efstratiadis, A. Određivanje homologija sekvenci nukleinskih kiselina i relativnih koncentracija postupkom hibridizacije tačaka. Nukleinske kiseline Res. 7, 1541–1552 (1979).

Gillespie, D. & Spiegelman, S. Kvantitativni test za DNK-RNA hibride sa DNK imobilizovanom na membrani. J. Mol. Biol. 12, 829–842 (1965).

Southern, E.M. et al. Nizovi komplementarnih oligonukleotida za analizu hibridizacionog ponašanja nukleinskih kiselina. Nukleinske kiseline Res. 22, 1368–1373 (1994).

Zhao, N., Hashida, H., Takahashi, N., Misumi, Y. & Sakaki, Y. Analiza cDNK filtera visoke gustine: novi pristup za veliku kvantitativnu analizu ekspresije gena. Gene 156, 207–213 (1995).

Ngujen, C. et al. Diferencijalna ekspresija gena u timusu miša ispitana kvantitativnom hibridizacijom nizovanih cDNK klonova. Genomika 29, 207–216 (1995).

Fodor, S. P. A. et al. Svetlo usmerena, prostorno adresibilna paralelna hemijska sinteza. Наука 251, 767–773 (1991).

Fodor, S. P. et al. Multipleksirani biohemijski testovi sa biološkim čipovima. Priroda 364, 555–556 ( 1993).

Pease, A.C. et al. Svetlo generisani oligonukleotidni nizovi za brzu analizu DNK sekvence. Proc. Natl Acad. Sci. сад 91, 5022–5026 (1994).

Schena, M., Shalon, D., Davis, R.W. & Brown, P.O. Kvantitativno praćenje obrazaca ekspresije gena sa komplementarnim DNK mikromrežom. Наука 270, 467–470 (1995).

Shalon, D., Smith, S.J. & Brown, P.O. Sistem DNK mikromreža za analizu složenih uzoraka DNK pomoću hibridizacije dvobojne fluorescentne sonde. Genome Res. 6, 639–645 ( 1996).

DeRisi, J.L., Iyer, V.R. & Brown, P.O. Istraživanje metaboličke i genetske kontrole ekspresije gena na genomskoj skali. Наука 278, 680–686 (1997).

Lipshutz, R. J., Fodor, S. P., Gingeras, T. R. & Lockhart, D. J. Sintetički oligonukleotidni nizovi visoke gustine. Nature Genet. 21, 20–24 (1999).

Bowtell, D. D. Dostupne opcije — od početka do kraja — za dobijanje podataka o ekspresiji pomoću mikronisa. Nature Genet. 21, 25 –32 (1999).

Edman, C.F. et al. Hibridizacija nukleinskih kiselina usmerena električnim poljem na mikročipovima . Nukleinske kiseline Res. 25, 4907– 4914 (1997).

Sosnowski, R. G., Tu, E., Butler, W. F., O'Connell, J. P. & Heller, M. J. Brzo određivanje mutacija nepodudaranja jedne baze u DNK hibridima direktnom kontrolom električnog polja. Proc. Natl Acad. Sci. сад 94, 1119–1123 ( 1997).

Grey, D.E., Case-Green, S.C., Fell, T.S., Dobson, P.J. & Southern, E.M. Elipsometrijska i interferometrijska karakterizacija DNK sondi imobilisanih na kombinatornom nizu. Langmuir 13, 2833–2842 ( 1997).

Walt, D. R. Nizovi optičkih vlakana na bazi perli. Наука 287, 451 (2000).

Michael, K. L., Taylor, L. C., Schultz, S. L. i Walt, D. R. Nasumično raspoređeni adresabilni nizovi optičkih senzora visoke gustine. Anal. Chem. 70, 1242–1248 (1998).

Ferguson, J.A., Boles, T.C., Adams, C.P. & Walt, D.R. Fiber-optički DNK biosenzorski mikromrež za analizu ekspresije gena. Nature Biotechnol. 14, 1681– 1684 (1996).

Spelman, PT. et al. Sveobuhvatna identifikacija gena kvasca regulisanih ćelijskim ciklusom Saccharomyces cerevisiae hibridizacijom mikromreža. Mol. Biol. Мобилни 9, 3273–3297 (1998).

Čo, R. J. et al. Transkripciona analiza mitotičkog ćelijskog ciklusa u celom genomu. Mol. Мобилни 2, 65– 73 (1998).

Prognoza Čipinga. Nature Genet. 21(Suppl.), 1–60 (1999).

Wodicka, L., Dong, H., Mittmann, M., Ho, M.-H & Lockhart, D.J. Monitoring ekspresije na nivou genoma u Saccharomyces cerevisiae. Nature Biotechnol. 15, 1359 –1367 (1997).

White, K.P., Rifkin, S.A., Hurban, P. & Hogness, D.S. Microarray analiza Drosophila razvoj tokom metamorfoze . Наука 286, 2179–2184 (1999).

Chambers, J. et al. DNK mikronizovi kompleksnog genoma humanog citomegalovirusa: profilisanje kinetičke klase sa osetljivošću na lekove ekspresije virusnih gena. J. Virol. 73, 5757–5766 (1999).

Gingeras, T. R. et al. Simultana genotipizacija i identifikacija vrsta korišćenjem analize prepoznavanja hibridizacionih obrazaca generičkih nizova DNK mikobakterija. Genome Res. 8, 435–448 ( 1998).

Lokhart, D.J. et al. Praćenje ekspresije hibridizacijom na nizove oligonukleotida visoke gustine. Nature Biotechnol. 14, 1675– 1680 (1996).

Liang, P. & Pardee, A.B. Diferencijalni prikaz eukariotske glasničke RNK pomoću lančane reakcije polimeraze. Наука 257, 967–971 ( 1992).

Šimkec, R.A. et al. Analiza ekspresije gena profilisanjem transkripta u kombinaciji sa upitom baze podataka gena. Nature Biotechnol. 17, 798–803 (1999).

Ivanova, N.B. & Belyavsky, A.V. Identifikacija diferencijalno eksprimiranih gena pomoću otiska prsta ekspresije gena zasnovane na restrikcijskoj endonukleazi. Nukleinske kiseline Res. 23, 2954 –2958 (1995).

Kato, K. Opis celokupne populacije mRNA pomoću 3′ krajnjeg cDNK fragmenta generisanog restrikcionim enzimima klase IIS. Nukleinske kiseline Res. 23, 3685–3690 ( 1995).

Bachem, C. W. et al. Vizuelizacija diferencijalne ekspresije gena korišćenjem nove metode RNK otiska prsta zasnovane na AFLP: analiza ekspresije gena tokom razvoja krtola krompira. Plant J. 9, 745 –753 (1996).

Velculescu, V.E., Zhang, L., Vogelstein, B. & Kinzler, K.W. Serijska analiza ekspresije gena. Наука 270, 484–487 (1995).

Bušeri, H. et al. Dvodimenzionalna karta proteina Saccharomyces cerevisiae : konstrukcija gensko-proteinskog indeksa. Квасац 11 , 601–613 (1995).

Gigi, S. P. et al. Kvantitativna analiza složenih proteinskih smeša korišćenjem izotopsko kodiranih oznaka afiniteta. Nature Biotechnol. 17, 994 –999 (1999).

Mann, M. Kvantitativna proteomika? Nature Biotechnol. 17, 954–955 (1999).

Oda, Y., Huang, K., Cross, F.R., Cowburn, D. & Chait, B.T. Precizna kvantifikacija ekspresije proteina i fosforilacije specifične za mesto. Proc. Natl Acad. Sci. сад 96, 6591–6596 (1999).

Berns, N. et al. Analiza velikih razmera ekspresije gena, lokalizacije proteina i poremećaja gena u Saccharomyces cerevisiae. Genes Dev. 8, 1087–1105 (1994).

Ros-Macdonald, P., Sheehan, A., Roeder, G. S. & Snyder, M. Višenamenski transpozon sistem za analizu proizvodnje proteina, lokalizacije i funkcije u Saccharomyces cerevisiae. Proc. Natl Acad. Sci. сад 94, 190–195 ( 1997).

Ros-Makdonald, P. et al. Analiza velikih razmera genoma kvasca transpozonskim označavanjem i poremećajem gena. Priroda 402, 413– 418 (1999).

Niedenthal, R.K., Riles, L., Johnston, M. & Hegemann, J.H. Zeleni fluorescentni protein kao marker za ekspresiju gena i subcelularnu lokalizaciju u kvascu koji pupa. Квасац 12, 773–786 (1996).

Zong, Q., Šumer, M., Hud, L. i Moris, D.R.Stanje translacije RNK glasnika: druga dimenzija skrininga ekspresije visoke propusnosti. Proc. Natl Acad. Sci. сад 96, 10632– 10636 (1999).

Johannes, G., Carter, M.S., Eisen, M.B., Brown, P.O. & Sarnow, P. Identifikacija eukariotskih mRNK koje su prevedene pri smanjenim koncentracijama eIF4F kompleksa za vezivanje kapa korišćenjem cDNK mikroniza. Proc. Natl Acad. Sci. сад 96, 13118–13123 (1999).

Diehn, M., Eisen, M. B., Botstein, D. & amp Brown, P. O. Identifikacija velikih razmera izlučenih i membranski povezanih genskih proizvoda korišćenjem DNK mikromreža. Nature Genet. 25, 58–62 (2000).

Weinstein, J.N. Ribolovne ekspedicije. Наука 282, 628– 629 (1998).

Golub, T. R. et al. Molekularna klasifikacija raka: otkrivanje klase i predviđanje klase praćenjem ekspresije gena. Наука 286 , 531–537 (1999).

Alizadeh, A.A. et al. Različiti tipovi difuznog limfoma velikih B-ćelija identifikovani profilisanjem ekspresije gena. Priroda 403, 503–510 (2000).

Mek, D.H. et al. in Dešifrovanje molekularnog kola korišćenjem nizova DNK visoke gustine (ur. Hihich, E. & Croce, E.) 85–108 (Plenum, Njujork, 1998).

Alon, U. et al. Široki obrasci ekspresije gena otkriveni analizom klastera tumora i normalnog tkiva debelog creva ispitanih nizovima oligonukleotida. Proc. Natl Acad. Sci. сад 96, 6745– 6750 (1999).

Perou, C. M. et al. Izraziti obrasci ekspresije gena u epitelnim ćelijama dojke i raka dojke kod ljudi. Proc. Natl Acad. Sci. сад 96, 9212–9217 (1999).

Ross, D.T. et al. Sistematske varijacije u obrascima ekspresije gena u ljudskim ćelijskim linijama raka. Nature Genet. 24, 227 –235 (2000).

Šerf, U. et al. Baza podataka o ekspresiji gena za molekularnu farmakologiju raka. Nature Genet. 24, 236– 244 (2000).

Fambrough, D., McClure, K., Kazlauskas, A. & Lander, E.S. Različiti signalni putevi aktivirani receptorima faktora rasta indukuju široko preklapanje, a ne nezavisne, skupove gena. Мобилни 97, 727–741 (1999).

Li, S. B. et al. Wilmsov tumorski supresor WT1 kodira transkripcioni aktivator amfiregulina. Мобилни 98, 663– 673 (1999).

Harkin, D. P. et al. Indukcija GADD45 i JNK/SAPK-zavisne apoptoze nakon inducibilne ekspresije BRCA1. Мобилни 97, 575–586 (1999).

Mei, R. et al. Detekcija alelne neravnoteže u celom genomu korišćenjem humanih SNP-ova i nizova DNK visoke gustine. Genome Res. (у штампи).

Polak, J. R. et al. Analiza promena u broju kopija DNK u celom genomu korišćenjem cDNK mikropostrojenja. Nature Genet. 23, 41– 46 (1999).

Pinkel, D. et al. Analiza visoke rezolucije varijacije broja kopija DNK korišćenjem komparativne genomske hibridizacije sa mikronizovima. Nature Genet. 20, 207–211 ( 1998).

Holstege, F. C. et al. Seciranje regulatornog kola eukariotskog genoma . Мобилни 95, 717–728 (1998).

Wyrick, J. J. et al. Hromozomski pejzaž ekspresije gena zavisne od nukleozoma i utišavanja u kvascu. Priroda 402, 418– 421 (1999).

Tamajo, P. et al. Interpretacija obrazaca ekspresije gena sa samoorganizujućim mapama: metode i primena na hematopoetsku diferencijaciju. Proc. Natl Acad. Sci. сад 96, 2907– 2912 (1999).

Eisen, M. B., Spellman, P. T., Brown, P. O. & Botstein, D. Analiza klastera i prikaz obrazaca ekspresije na nivou genoma. Proc. Natl Acad. Sci. сад 95, 14863– 14868 (1998).

Wen, X. et al. Mapiranje vremenske ekspresije gena velikih razmera razvoja centralnog nervnog sistema. Proc. Natl Acad. Sci. сад 95, 334–339 (1998).

Chu, S. et al. Transkripcioni program sporulacije u kvascu koji pupa. Наука 282, 699–705 ( 1998).

Tavazoie, S., Hughes, J. D., Campbell, M. J., Cho, R. J. & Church, G. M. Sistematsko određivanje arhitekture genetičke mreže. Nature Genet. 22, 281–285 (1999).

Volfsberg, T. G. et al. Kandidati za elemente regulatorne sekvence za transkripciju zavisnu od ćelijskog ciklusa u Saccharomyces cerevisiae. Genome Res. 9, 775–792 (1999).

Marton, M.J. et al. Validacija cilja leka i identifikacija sekundarnih efekata cilja leka korišćenjem DNK mikromreža. Nature Med. 4 , 1293–1301 (1998).

Grej, N.S. et al. Iskorišćavanje hemijskih biblioteka, strukture i genomike u potrazi za inhibitorima kinaze. Наука 281, 533–538 (1998).

Rozanija, G. R. et al. Mioseverin: molekul koji vezuje mikrotubule sa novim ćelijskim efektima. Nature Biotechnol. 18, 304– 308 (2000).

Emmert-Back, M. R. et al. Mikrodisekcija laserskog snimanja. Наука 274, 998–1001 (1996).

Boner, R. F. et al. Mikrodisekcija laserskog hvatanja: molekularna analiza tkiva. Наука 278, 1481–1483 (1997).

Simone, N.L., Bonner, R.F., Gillespie, J.W., Emmert-Buck, M.R. & Liotta, L.A. Mikrodisekcija laserskog hvatanja: otvaranje mikroskopske granice za molekularnu analizu. Trends Genet. 14, 272–276 (1998).

Wang, A.M., Doyle, M.V. & Mark, D.F. Kvantitacija mRNA lančanom reakcijom polimeraze. Proc. Natl Acad. Sci. сад 86, 9717– 9721 (1989).

Dulac, C. Kloniranje gena iz pojedinačnih neurona. Curr. Vrh. Dev. Biol. 36, 245–258 (1998).

Jena, P. K., Liu, A. H., Smith, D. S. & Wysocki, L. J. Amplifikacija gena, pojedinačnih transkripata i cDNK biblioteka iz jedne ćelije i direktna analiza sekvence amplifikovanih proizvoda izvedenih iz jednog molekula. J. Immunol. Metode 190, 199–213 ( 1996).

Kwoh, D.Y. et al. Sistem amplifikacije zasnovan na transkripciji i detekcija pojačanog virusa humane imunodeficijencije tipa 1 sa sendvič hibridizacionim formatom zasnovanim na perli. Proc. Natl Acad. Sci. сад 86, 1173 –1177 (1989).

Guateli, J. C. et al. Izotermna, in vitro amplifikacija nukleinskih kiselina multienzimskom reakcijom po modelu retrovirusne replikacije. Proc. Natl Acad. Sci. сад 87, 7797 (1990).

Ebervajn, J. et al. Analiza ekspresije gena u pojedinačnim živim neuronima. Proc. Natl Acad. Sci. сад 89, 3010– 3014 (1992).

Luo, L. et al. Profili ekspresije gena susednih neuronskih podtipova uhvaćenih laserom. Nature Med. 5, 117–122 (1999).

Čo, R. J. et al. Paralelna analiza genetskih selekcija korišćenjem nizova oligonukleotida celog genoma. Proc. Natl Acad. Sci. сад 95 , 3752–3757 (1998).

Bulyk, M.L., Gentalen, E., Lockhart, D.J. & Church, G.M. Kvantifikovanje interakcija DNK-protein pomoću dvolančanih DNK nizova. Nature Biotechnol. 17, 573–577 (1999).

Brent, R. Genomska biologija. Мобилни 100, 169– 183 (2000).

McAdams, H. H. & Shapiro, L. Circuit simulation of genetic networks. Наука 269, 650– 656 (1995).

McAdams, H. H. & Arkin, A. To je bučan posao! Genetska regulacija na nanomolarnoj skali. Trends Genet. 15, 65–69 (1999).

Bhalla, U. S. & Iyengar, R. Emergent properties of networks of biological signaling pathways. Наука 283, 381–387 (1999).

Weng, G., Bhalla, U.S. & Iyengar, R. Complexity in biological signaling systems. Наука 284, 92–96 ( 1999).

Arkin, A., Ross, J. & McAdams, H.H. Stohastička kinetička analiza bifurkacije razvojnog puta kod inficiranih fagom lambda Escherichia coli ćelije. Genetika 149, 1633–1648 (1998).

Vinceler, E. et al. Funkcionalna karakterizacija Saccharomyces cerevisiae genoma preciznim brisanjem i paralelnom analizom. Наука 285, 901–906 ( 1999).

Fields, S. & Song, O. Novi genetski sistem za otkrivanje interakcija protein-protein. Priroda 340, 245– 246 (1989).

Roberts, C. J. et al. Signalizacija i kola višestrukih MAPK puteva otkrivenih matricom globalnih profila ekspresije gena. Наука 287, 873–880 (2000).

Brown, P. O. & Botstein, D. Istraživanje novog sveta genoma pomoću DNK mikropostrojenja. Nature Genet. 21, 33–37 (1999).

Ly, D., Lockhart, D. J., Lerner, R. & Schultz, P. G. Mitotička pogrešna regulacija i starenje ljudi. Наука 287, 2486–22492 (2000).

Cherry, J. M. et al. Genetske i fizičke karte Saccharomyces cerevisiae. Priroda 387, 67–73 ( 1997).

Ball, C.A. et al. Integrisanje funkcionalnih genomskih informacija u Saccharomyces Genome Database. Nukleinske kiseline Res. 28, 77–80 (2000).

Mewes, H. W. et al. MIPS: baza podataka za genome i proteinske sekvence. Nukleinske kiseline Res. 28, 37–40 (2000).

Walsh, S., Anderson, M. & Cartinhour, S.W. ACEDB: baza podataka za informacije o genomu. Methods Biochem. Anal. 39, 299–318 (1998).

Kanehisa, M. & Goto, S. KEGG: Kjoto enciklopedija gena i genoma. Nukleinske kiseline Res. 28, 27– 30 (2000).

Konzorcijum FlyBase. Baza podataka FlyBase projekata genoma Drosophila i literatura zajednice. Nukleinske kiseline Res. 27, 85–88 ( 1999).

Karp, P. D., Riley, M., Paley, S. M., Pellegrini-Toole, A. & Krummenacker, M. EcoCyc: enciklopedija Escherichia coli geni i metabolizam. Nukleinske kiseline Res. 27 , 50–53 (1999).

Iyer, V. & Struhl, K. Apsolutni nivoi mRNA i stope inicijacije transkripcije u Saccharomyces cerevisiae. Proc. Natl Acad. Sci. сад 93, 5208–5212 (1996).

Lee, C.K., Klopp, R.G., Weindruch, R. & Prolla, T.A. Profil ekspresije gena starenja i njegovog usporavanja kalorijskim ograničenjem. Наука 285, 1390–1393 (1999).

Fan, J.-B et al. Paralelna genotipizacija ljudskih SNP-ova korišćenjem generičkih nizova oligonukleotidnih oznaka. Genome Res. (у штампи).

Laškari, D.A. et al. Mikromreži kvasca za paralelnu genetsku analizu i analizu ekspresije gena širom genoma. Proc. Natl Acad. Sci. сад 94, 13057–13062 (1997).

Winzeler, E., Lee, B., McCusker, J. & Davis, R. Genetska tipizacija celog genoma korišćenjem nizova oligonukleotida visoke gustine. Parasitology 118, S73–S80 (1999).

Vinzeler, E.A. et al. Direktno skeniranje alelnih varijacija genoma kvasca. Наука 281, 1194–1197 ( 1998).

Troesch, A. et al. Identifikacija vrsta mikobakterija i testiranje otpornosti na rifampin sa nizovima DNK sonde visoke gustine. J. Clin. Microbiol. 37, 49–55 ( 1999).


Pogledajte video: Основы генетики генотип и фенотип гомозигота и гетерозигота (Јануар 2023).