Információ

Milyen tényezőket vegyek figyelembe, amikor referenciagenomot választok térképezéshez?


Az a benyomásom, hogy a legutóbbi referenciagenom jellemzően a legjobb eset. Milyen egyéb szempontokat kell figyelembe vennem a referenciagenom kiválasztásakor? Például van-e valami különös oka annak, hogy az RNAseq-ből származó rövid leolvasások igazítása során ne a legfrissebb referencia genomot alkalmazzuk?


Sok oka van!

Tegyük fel, hogy a humán referenciagenomot használja. A legújabb verzió a hg38 vagy a GrCh38. Ez nagyjából három éve jelent meg (2013 decemberében). Bár most ugyanezek az okok nem igazán érvényesek erre a szerelvényre, de nem jut eszembe más olyan összeállítás, ahol ezek az okok kimutathatók. Az RNA-Seq adatok kezelésekor néhány gyakori feladatot kell elvégeznie.

  1. Megjegyzések: Amikor új szerelvény jelenik meg, az összes meglévő megjegyzés szabványosodik az előző összeállításhoz. Vegyük például a GENCODE -t, az adott linkeket a gencode aktuális verziójához, amely most a hg38 -on alapul. De ami még fontosabb, vegye figyelembe, hogy továbbra is ugyanazt a kiadást tartják fenn a hg19/GrCh37 esetében. Tapasztalataim szerint körülbelül 1-3 hónapba telik, amíg az annotációs adatbázisok áttérnek egy új genom-összeállításra az összeállítás kiadása után.
  2. Megőrzési pályák: Ezek azok a számok, amelyek frissítése a leghosszabb ideig tart. Itt nem teszek közzé linkeket a számokhoz. De itt van az UCSC tábla böngésző, akkor lépjen az összehasonlító genomikai sávokba, és tekintse meg az egyes szerelvényekhez elérhető megőrzési nyomokat (Phylop, Phastcons). Ismét a tapasztalatok szerint több mint egy évbe telt, amíg ezeket a számokat a hg38 -hoz létrehozták. Ezért jobb, ha az előző összeállításon dolgozunk, ha erre a konkrét információra vágyunk, mert ezeket a sávokat önállóan generálni nagyon fárasztó és számításigényes feladat.
  3. A befejezetlen genomokhoz kapcsolódó kockázatok: Ez valójában nem foglalkozik annyira az emberi genommal, mivel a nyereség minden egymást követő összeállításnál egyre kisebb. De figyelembe véve egy olyan szerelvényt, amely 70%-ban állványokból áll, az összeállítások közötti eltérés általában hatalmas. A funkcionális vizsgálatoknál az insilico vizsgálatokkal ellentétben nincs értelme a teljes elemzést minden alkalommal újra elvégezni, amikor új összeállítás jelenik meg, mivel a tanulmány insilico része az a prediktív pillér, amelyen a funkcionális validáció alapul. Bár ugyanez nem vonatkozik az insilico vizsgálatokra, ahol a nyilvánosság elé terjesztett eredmények kizárólag prediktívak.
  4. Inkoherencia a meglévő tanulmányokkal: Ez nagy akadálya egy újabb összeállítás használatának, különösen a befejezetlen genomokra alkalmazható, ahol az eredmények széles körben változhatnak, és nem igazodnak a már meglévő tudáshoz. Természetesen lehet, hogy Ön a helyes, de az is lehetséges, hogy az eredmények változékonysága emberi tévedés eredménye. Ezért jobb, ha megvár egy "mérföldkőnek számító" tanulmányt, amely bemutatja a közgyűlést, lehetővé téve a tanulmány kevésbé szigorú áttanulmányozását, és lehetővé teszi az eredmények várható változékonyságának igazolását.
  5. Buktatók a funkcionális elemzés során: Az RNS-Seq elemzésnél bevett gyakorlat, hogy RT-PCR-t használnak egy adott génre, hogy meghatározzák az adott gén várható expressziós szintjét, ami viszont érvényesít egy sikeres RNS-Seq kísérletet, az árnyékos PCR-duplikációk és műtermékek nélkül. Ehhez a részhez először létre kell hoznia egy primert, amely érvényesíti az adott gén várható expressziós szintjét. De ez a bizonyos primer egy adott szerelvényből származik. Az is lehetséges, hogy az erősített tartomány eltolódott vagy megváltozott az összeállítások között. Tehát amikor az adatokat egy másik összeállításhoz igazítja, mint amit a primer létrehozásához használt, akkor váratlan expressziós szintet kaphat az adott génhez, mivel az eredeti primer helytelen régiót erősített fel, amelyet az újabb összeállítás rögzített.

Tudom, hogy sokkal többen vannak. De jelenleg csak ezek jutnak eszembe.


A genomra kiterjedő asszociációktól a jelölt ok-okozati változatokig statisztikai finomleképezéssel

A komplex tulajdonságok és a genetikai markerek statisztikai asszociációiból való előrelépés a tulajdonságokat befolyásoló funkcionális genetikai változatok megértéséhez gyakran bonyolult folyamat. A finom feltérképezés kiválaszthatja és priorizálhatja a genetikai változatokat a további vizsgálatokhoz, ugyanakkor az analitikai stratégiák és tanulmánytervek sokasága megnehezíti az optimális megközelítés kiválasztását. Áttekintjük a különböző finom-térképészeti megközelítések erősségeit és gyengeségeit, kiemelve a teljesítményt befolyásoló fő tényezőket. A témák közé tartozik a genomszintű asszociációs vizsgálatok (GWAS) eredményeinek értelmezése, a kapcsolatok egyensúlyhiányának szerepe, a statisztikai finom-térképészeti megközelítések, a transzetnikus tanulmányok, a genomiális megjegyzések és az adatok integrálása, valamint egyéb elemzési és tervezési kérdések.


Bevezetés

Konvergens evolúció akkor következik be, amikor a független vonalak hasonló fenotípusokat alakítanak ki hasonló szelektív nyomások hatására (pl. Sötétebb szőr a sötétebb talajon élő egereken, 1 csökkent páncél tengeri és édesvízi botokban, 2 ismételt C fejlődés)4 fotoszintézis növényekben). 3 A konvergens evolúció tehát a kiválasztás erejét és határait is tükrözheti. Ha megfigyeljük, hogy a hasonló tulajdonságok többször is kifejlődtek, gyakran bizonyítéknak tekintik azt, hogy egy tulajdonság adaptív, különösen akkor, ha a vonás és a környezet között következetes egyezés van. Ez a jelenség azonban felveti a kérdést: vajon ez a minta inkább a szelekció közös korlátait tükrözi, és lehetséges-e más, jobb adaptív megoldás? 4 A konvergens evolúció vizsgálata tehát nemcsak önmagáért érdekes, hanem segíthet feltárni azt a sok tényezőt, amelyről ismert, hogy befolyásolja az alkalmazkodást, és megvilágítja azok relatív fontosságát és interakciójuk módjait. Ha a biológiai szervezet különböző szintjein haladunk át, a fenotípustól a mögöttes utakig, génekig és bázispárokig, akkor változhatnak előrejelzéseink arról, hogy mi korlátozza a kiválasztást (pl. Az utak fejlődési korlátai, a mutációs input korlátai). 5 A közelmúltban, a nagy áteresztőképességű szekvenálási módszerek megjelenésével lehetővé vált a nem-modell organizmusok genomjának feltárása, és annak megkérdezése, hogy a fenotípusos konvergencia tükröződik-e különböző molekuláris szinteken. Ez azt ígéri, hogy azonosítja azokat a lókuszokat, amelyek konvergens evolúción mennek keresztül, és megvilágítják azokat a genomi korlátokat és történelmi esetlegességeket, amelyek konvergens evolúcióhoz vezetnek.

A molekuláris konvergencia különféle módokon érhető el: a populációkon belüli szelekció egymástól függetlenül hathat (1) de novo mutációk (DNM), amelyek egymástól függetlenül keletkeznek különböző törzsekben, (2) a közös ősben felmerült genetikai változatok elkülönítése (azaz álló genetikai variáció, SGV), vagy (3) a populációk közötti génáramlás (GF) által megosztott lókuszok (1. ábra) ). A DNM konvergenciát gyakran a molekuláris konvergencia hagyományos értelmezésének tekintik, mivel a mutációk függetlenek, de mindhárom módban a populációk egymástól függetlenül alkalmazkodnak hasonló környezethez. 6 A további zűrzavar elkerülése érdekében átvesszük az Arendt és a Reznick 7 keretrendszerét, és minden mechanizmust konvergens evolúciónak fogunk nevezni, és szükség esetén a konvergencia speciális módjaira hivatkozunk. Érdemes különbséget tenni ezen módok között, mert az előrejelzések szerint mindegyik eltérő erősségű szelekciót igényel, és az evolúció különböző korlátait tükrözi (pl. az alacsony indítási frekvenciájú DNM-en erősebbnek kell lennie, mint a magasabb indítófrekvenciájú SGV-n történő kiválasztásnak, hogy elérje. rögzítés). 6, 8

A természetes kiválasztódás és az evolúciós korlátok közötti kölcsönhatást a fenotípusos konvergens evolúció előrejelzésében jól megvizsgálták a szakirodalomban, de még nem hoztuk létre a molekuláris konvergens evolúció keretét. Sok szó esett a kontingencia szerepéről a fenotípusos konvergenciában, mind a véletlenszerű események jelentőségéről, mind arról, hogy ezek hogyan alakíthatják az alkalmazkodás kontextusát és függőségét. 9, 10 A populációgenetikai keretrendszerben átdolgozva ezeket az esetlegességeket a DNM fontosságának és az SGV mintáit alakító folyamatoknak tekinthetjük. A mutáció-szelekció-drift egyensúly populációgenetikai elméletei erős előrejelzéseket adnak arra vonatkozóan, hogy a DNM és az SGV hogyan változik a demográfiai paraméterekkel (pl. az SGV alacsonyabb szintje és új mutációk kis, illetve nagy hatékony populációkon belül). Ezeknek az előrejelzéseknek a tesztelése vad populációkban azonban ritkán történik. Hasonlóképpen, a fenotípusos (funkcionális, fejlődési és genetikai) konvergenciára vonatkozó korlátok fontossága nagy figyelmet kapott a szakirodalomban. 4, 11 Egész genomok ismeretében elkezdhetjük közvetlenül tesztelni a genetikai korlátok előrejelzéseit. 12 Például megkérdezhetjük, hogy a konvergensen fejlődő lókuszok gyakrabban fordulnak-e elő a genom különböző mutációs vagy rekombinációs arányú régióiban. Ezért szükség van és elérhető olyan keret kidolgozására, amely egyértelmű előrejelzéseket tartalmaz arról, hogy mind a populációtörténet, mind a genomi kontextus hogyan fogja befolyásolni és kölcsönhatásba lépni a molekuláris konvergenciával.

Sokféleképpen lehet kimutatni a konvergens evolúciót genomi szinten, például filogenetikai összehasonlító módszereket, 13 vagy a fenotípusos konvergens tulajdonságok feltérképezését genomszintű asszociációs vizsgálatok (GWAS) vagy kvantitatív vonáslókuszok (QTL) segítségével. 14 Ezek azonban vagy a jelölt gének előzetes ismeretére támaszkodnak (pl. összehasonlító módszerek), vagy nagyon nagy mintaméreteket (pl. GWAS), vagy azt a képességet, hogy kontrollált genetikai keresztezéseket végezzenek a laboratóriumban (például QTL-térképezés). Ez nem hasznos a nem modellezett fajok esetében, ahol a fenotípusos konvergens evolúció legmeggyőzőbb és legkülönfélébb bizonyítékaival rendelkezünk. A közelmúltban egy új populációgenomikai megközelítés sikeres volt a természetes populációk genomjainak konvergenciájának azonosításában, ezt nevezzük átfedő outlier megközelítésnek (OOA) (2. ábra). Ennek a megközelítésnek az az előnye, hogy kevés előzetes információt igényel az adaptáció genetikai alapjáról, és sokféle taxonra alkalmazható. Az OOA vizsgálatokban az alternatív környezethez önállóan alkalmazkodó populációpárokat genomszinten vizsgálják, hogy megtalálják -e a szelekció aláírásait, például a populáció genetikai differenciálódását/divergenciáját. Az eltérő populációk mindegyikén belül a szelekcióra a genom feltételezetten semleges hátteréhez viszonyítva a külterületi genomiális területek azonosításával lehet következtetni. Miután minden ismétlésben azonosították a kiugró értékeket, az ismétlések között átfedő kiugró értékek listáját a konvergens molekulaevolúció bizonyítékának tekintik. Döntő fontosságú, hogy az ismételt mintavétel konvergencia -tanulmányokba történő bevonása megkülönbözteti az irodalmat a „helyi alkalmazkodás” tanulmányaitól (15. hivatkozás).

Itt áttekintjük az OOA használatát a vadon élő populációk konvergens evolúciójának tanulmányozására. Bár a kísérleti és háziasítási tanulmányok értékes betekintést nyújtottak a molekuláris konvergens evolúcióba, eltérő populáció- és genomszerkezettel rendelkeznek a természetes rendszerekhez képest. A konvergencia kísérleti evolúciós tanulmányai (amelyeket áttekintenek a 16. hivatkozásban) nagyban hozzájárultak a véletlenszerűség és a kontingencia relatív hozzájárulásának bizonyításához a konvergens evolúcióban, például bemutatva a mutációk bizonyos sorrendben fellépő hatásait arra nézve, hogy a populációk konvergensen fejlődnek-e. 17 Ezek a vizsgálatok azonban gyakran modellfajokra korlátozódnak, különösen a rövid generációs idejűekre, és gyakran alkalmaznak alacsony genetikai diverzitással rendelkező laboratóriumi törzseket (például beltenyésztett Drosophila vonalakat vagy mikrobiális vonalakat). Következésképpen a demográfiai paraméterek és a genomi kontextus valószínűleg nagyon eltérő lesz ezekben a vizsgálatokban a természetes populációkhoz képest, amelyek kinőttek és nagymértékben változnak. A domesztikáció következményeként végzett genomiális konvergencia tanulmányai hasonlóan informatívak voltak a molekuláris konvergenciáról, de megkérdőjelezhető jelentőséggel bírnak a vadon élő alkalmazkodás tanulmányozása szempontjából. A háziasítás néhány élőlényre korlátozódik, és viszonylag rövid időre korlátozódik. A háziasításban részt vevő erős mesterséges szelekció beltenyésztéshez, mesterségesen alacsony effektív populációmérethez és a vadon élő rokonokhoz képest korlátozott diverzitáshoz vezetett. 18, 19 Ezenkívül a korlátozott számú különleges tulajdonság mesterséges szelekciója teljesen eltérhet a természetes szelekciótól, amely a vadon élő állatok egészségi állapotára hat, attól függően, hogy a tulajdonságok hogyan kapcsolódnak az erőnléthez. Ezért a természetes populációk genomiális konvergenciájának vizsgálata lehetővé teszi a kutatók számára, hogy megvizsgálják az összetett, reális populációs paraméterek hatását a konvergencia valószínűségére, miközben a kutatást kiterjesztik a nem modell taxonok sokféleségére.

Kezdjük egy rövid szintetikus áttekintés bemutatásával, amelyben elemezzük az OOA-t természetes populációkban alkalmazott legújabb tanulmányok eredményeit. Ahrenshez hasonló megközelítést alkalmazunk et al. 15 foglalkozni és megvitatni, hogy a lokális adaptációval foglalkozó tanulmányokban a kiugró megközelítésekkel felvetett kérdések hogyan befolyásolhatják az OOA-vizsgálatokat. Röviden megvizsgáljuk, hogy a vizsgálati tervezés és a mintavételi intenzitás jellemzői befolyásolják-e a konvergens lókuszok azonosítását (amelyet a kiugró értékek átfedéseként határoznak meg az ismétlések között). Csábító feltételezni, hogy az egyedi kiugró vizsgálatokból származó hamis pozitív eredmények véletlenszerűen oszlanak el a genomban, és ezért nem fognak megismétlődni az ismétlődések között, de ez nem mindig van így. A következőkben azt vizsgáljuk, hogy a népességdemográfia és a genomi kontextus hogyan járulhat hozzá a konvergenciához, valamint hamis következtetésekhez az OOA-tanulmányokban. Végül feltárjuk a feltörekvő módszereket a természetes populációk genomiális konvergenciájának területén.


Bevezetés

A genomszekvenciák gyors felhalmozódása és a hatékony statisztikai módszerek kifejlesztése az alkalmazkodás aláírásának kimutatására példátlan lehetőséget biztosít számunkra, hogy jobban megértsük a funkcionálisan fontos genomiális régiókat. Annak ellenére, hogy az élőlények közötti fenotípusos különbségeket okozó adaptív karakterek fő forrásai továbbra is vita tárgyát képezik (Hughes 2012), általánosan elfogadott, hogy a pozitív szelekció (PS) (szelekció az előnyös mutációk javára) fontos szerepet játszik az új fenotípusok keletkezésében. Anisimova és Liberles 2012). Valójában a fehérjét kódoló szekvenciákra ható szelekció bizonyítékai óriási mértékben megnőttek az elmúlt 20 évben (Fitch és mtsai. 1991 McDonald és Kreitman 1991. 2012). Azonban a fenotípusosan nagyon különböző élőlényekből származó fehérjék közötti nagyfokú hasonlóság (számban és funkcióban), valamint az a tény, hogy az eukarióta genomok nem fehérjét kódoló DNS-ének nagy része ténylegesen működőképes (Kondrashov 2005 Taft et al. 2007 Raffaele és Kamoun 2012), sok kutató arra késztette a kérdést, hogy a fenotípusos diverzitást elsősorban a fehérjét kódoló szekvenciák vagy a nem kódoló szabályozó szekvenciák változásai határozzák meg (King és Wilson 1975 Oleksiak és mtsai 2002 Gasch és mtsai 2004 Whitehead és Crawford 2006). Wray 2007). Emiatt a közelmúltban nagy figyelmet szenteltek a nem kódoló DNS -szekvenciák funkciójának megértésére, amint azt a humán ENCODE projekt (ENCODE Project Consortium 2012) példázza, valamint e szekvenciák molekuláris evolúciójának tanulmányozására (Zhen és Andolfatto 2012). Mindazonáltal a nem kódoló DNS adaptív evolúciójának tanulmányozása jelenleg a modellszervezetekre korlátozódik, beleértve az élesztőt (Fay és Benavides 2005 Borneman és mtsai 2007 Ronald és Akey 2007 Emerson et al. 2010), Arabidopsis (Kim et al. 2007), Drosophila (Andolfatto 2005 Haddrill et al. 2008), egerek (Kousathanas et al. 2011) és emberek (Keightley et al. 2005 Haygood et al. 2007, 2010). Mostanra világossá válik, hogy a természetes szelekció a nem kódoló genom nagy részére hat.

Ebben a munkában a fehérje-kódoló DNS-szekvenciákon (CDS) és a nem kódoló intergenikus és intronikus szekvenciákon működő szelekciós mintákat vizsgáljuk a fonalas gomba nyolc törzséből álló világméretű mintában Colletotrichum graminicola ( Cg ). A nemzetség Colletotrichum a növényi kórokozók tíz gazdaságilag legpusztítóbb csoportjának egyike, amely a betakarítás utáni rothadást, antracnózisos foltokat, valamint a növény légi részein a szennyeződéseket okozza a mezőgazdasági és kertészeti kultúrák széles körében világszerte (Cannon et al. 2012 Dean et al. 2012). ). Cg megfertőzi a kukoricát ( Zea mays ) (LeBeau 1950 Jamil és Nicholson 1991), amelyek csak az Egyesült Államokban több mint 1 milliárd dolláros éves termésveszteséget produkálnak (Frey et al. 2011), és nagy potenciállal rendelkeznek a mezőgazdasági ökoszisztémák károsítására (Kamenidou et al. 2013). Továbbá, Cg egy modellorganizmus a hemibiotróf kórokozók tanulmányozására, amelyek biotrófként kezdik fertőzésüket (életben tartják a gazdasejtet), de később nekrotróf életmódra váltanak, elpusztítják gazdáikat és elhalt sejtekkel táplálkoznak (Bergstrom és Nicholson 1999 O'Connell et al. 2012 Vargas et al. 2012). A haploid, klónosan szaporodó gomba iránti érdeklődés arra késztette a kutatókat, hogy kiváló minőségű referenciagenom-szekvenciát dolgozzanak ki, amely 51,6 Mb hosszú, és eloszlik 13 kromoszóma között, 12 006 előre jelzett fehérjekódoló génnel (O’Connell et al. 2012).

A genom különböző régióira ható szelektív nyomások vizsgálata érdekében hét fenotípusosan és földrajzilag eltérő izolátum genomját szekvenáltuk. Cg és közösen elemezték őket a. kiváló minőségű referenciagenomjával együtt Cg M1.001 törzs (O’Connell et al. 2012). Bizonyítékokat találtunk arra, hogy a patogenitással összefüggő gének fehérjét kódoló és nem kódoló DNS-szekvenciái más génekhez képest differenciált szelektív nyomás alatt állnak. Ezenkívül a genom különböző régióiban ható szelekció mind a génfunkciókkal, mind a géntranszkripciós szabályozással összefügg a kukoricafertőzés során. Ez a tanulmány az első genomszintű felmérés egy agronómiailag fontos fitopatogén fonalas gomba kódoló és nem kódoló szekvenciáira egyaránt ható természetes szelekcióról.


VITA

A HTS kifejlesztésével több mint ezer emberi genomot szekvenáltak, és ezek közül többet alaposan elemeztek. Bár a különböző tanulmányok általában egyetértenek abban, hogy egy genomban mekkora az egynukleotidos variáció, az indel-variáció becslései a tanulmányok között drámaian eltértek. Ebben a kéziratban elemeztük a HTS-alapú technológiák erősségeit és hiányosságait az indellek azonosítására a személyes emberi genomokban. Elemzésünkkel megbecsültük az indel polimorfizmusok teljes számát egy emberi genomban, és elértük a jorubai genom ∼ 1 millió indel becslését, összhangban a korábbi Sanger-alapú tanulmányokkal (8), de lényegesen magasabb, mint a legújabb HTS-alapú elemzések (10, 12). Érdekes, hogy a (16) Celera genom esetében 4,7 -es S/I arány alkalmazása a (8) -ból származó SNP -számokhoz a becsült 683 702 indelt eredményezné Craig Venter genomjában, míg (8) 851 575 indelt jelent közvetlenül Sanger-adatok, amelyek 3,8-as S/I aránynak felelnek meg. Mindazonáltal mindkét szám még mindig alacsonyabb, mint a PRISM, GATK és Dindel eredményekből származó, a jorubai genomra vonatkozó korrigált teljes becsléseink, különböző olvasási igazítókkal. Két egymást kiegészítő szekvenálási platform, a hosszabb, de alacsony lefedettségű Sanger-olvasás és a rövidebb, de nagyobb lefedettségű Illumina-olvasás adatai felhasználásával kulcsfontosságú volt az indel-ingadozás sokkal nagyobb mértékű felfedezése a genomban, míg az ezen technológiák közül csak az egyiken alapuló becslések jelentős torzítások és a lehetséges eltérések teljes összegének esetleges aluljelentése.

Azt is bemutatjuk, hogy az ismétlődő régiók, például homopolimerek, dimerek és Alu-elemek jelenléte aránytalanul sok nem észlelt indelt okozhat. Eredményeink például azt mutatják, hogy az összes indell legalább egyharmada hosszú homopolimerekben (& gt10 bp) fordul elő, amelyek azok a régiók, ahol magas a szekvenálási hibák aránya és ismert nehézségeket okoz az indel-elemzés (28, 30). Úgy tűnik, hogy a hosszabb ismétlődések indel-detektálásra gyakorolt ​​negatív hatása nem könnyen enyhíthető a szekvenálás minőségének vagy lefedettségének javításával, de alapvetőbb természetű.

Bizonyítékokat mutatunk be arra vonatkozóan is, hogy a hosszabb homopolimerekben lévő indelek aluljelentését súlyosbítja egy evolúciós folyamat, amely során több egyedi indel hatása összeolvad, és már nem különböztethető meg. Eredményeink alátámasztják azt a hipotézist, hogy az indel mutációk valójában nagyobb sebességgel fordulnak elő, mint ami a szekvencia -igazításból felismerhető. Bizonyítékokat mutatunk be arra vonatkozóan, hogy az evolúciós távolság nem befolyásolja a nem homopolimerek és a rövid homopolimerek indel hosszát. Másrészt úgy tűnik, hogy a hosszabb homopolimerek esetében a nagyobb evolúciós időszak (például az ember és a főemlős közös őse között) a nagy indelek túlreprezentáltságához kapcsolódik, ami potenciálisan elfedi a genomban az indel variáció valódi sebességét.

Ezúton szeretnénk megköszönni a brudnoi laboratórium tagjainak és Shamil Sunyaevnek a munkával kapcsolatos értékes kritikákat.


Primer a genomszekvenáláshoz

A genom a sejtmagban található összes DNS -ből áll. A DNS négy kémiai építőelemből vagy "bázisból" áll (az egyszerűség kedvéért rövidítve G, A, T és C), és a DNS-ben kódolt biológiai információ ezen bázisok sorrendje szerint van meghatározva. A diploid szervezetek, akárcsak az emberek és az összes többi emlős, szinte minden DNS -jük másolatát tartalmazzák (azaz olyan kromoszómapárokat, amelyek mindegyik párjának egy kromoszómáját minden szülő örökölte). A szervezet genomjának méretét általában a bázisok teljes számának tekintik a nukleáris DNS egy reprezentatív példányában. A diploid szervezetek (például az emberek) esetében ez minden kromoszómapár egy példányának összegének felel meg.

Az élőlények általában különböznek genomméretükben. Például a genomja E. coli (a bélben élő baktérium)

5 millió bázis (más néven megabázis), egy gyümölcslégyé az

123 millió bázis, és az emberé

3 milliárd bázis). Vannak meglepő szélsőségek is, mint például a loblolly fenyő esetében - genomja az

23 milliárd bázis méretű, több mint hétszer nagyobb, mint a miénk. Nyilvánvaló, hogy a genom szekvenálásának költsége a méretétől függ. Az alábbi vita az emberi genomra összpontosít, ne feledje, hogy az emberi genom egyetlen „reprezentatív” másolata

3 milliárd bázis méretű, míg egy adott személy tényleges (diploid) genomja igen

A genomok nagyok, és – legalábbis a mai módszerekkel – bázisaik nem „olvashatók ki” sorrendben (vagyis szekvenálhatók) egyetlen lépésben. Inkább a genom szekvenálásához a DNS -t először kisebb darabokra kell bontani, majd minden egyes darabot kémiai reakcióknak kell alávetni, amelyek lehetővé teszik az alapok azonosságának és sorrendjének megállapítását. Az egyes DNS-darabokból származó megállapított bázissorrendet gyakran „szekvencia-olvasásnak” nevezik, és a kapott szekvencia-leolvasások gyűjteményét (amelyek száma gyakran milliárdokban haladja meg) azután számítási úton újra összeállítják a kiindulási genom szekvenciájának kikövetkeztetése céljából. . Az emberi genomok szekvenálását manapság segíti az emberi genom rendelkezésre álló „referencia” szekvenciáinak elérhetősége, amelyek fontos szerepet játszanak a számítási összeszerelési folyamatban. Történelmileg a genomok lebontását, az egyes DNS-darabok szekvenálását, majd az egyes leolvasások egyes szekvenciák összeállítását a kiindulási genom szekvenciájának létrehozásához „shotgun szekvenálásnak” nevezték (bár ezt a terminológiát ma már ritkábban használják). Amikor egy teljes genomot szekvenálnak, a folyamatot „teljes genom szekvenálásnak” nevezik. Lásd a 2. ábrát a humán genom szekvenálási módszerek összehasonlításához a Human Genome Project idején és kb.

A teljes genom szekvenálás alternatívája a genom egy részének célzott szekvenálása. Ez leggyakrabban egy genom fehérjét kódoló régióinak szekvenálását foglalja magában, amelyek az úgynevezett „exonok” DNS-szegmensekben találhatók, és a legtöbb genom jelenleg „legjobban megértett” részét tükrözik. Például az emberi genom összes exonja (az emberi „exóma”) megfelel

A teljes emberi genom 1,5%-a. A módszerek ma már könnyen elérhetők az exonok kísérleti „elfogására” (vagy elkülönítésére), amelyek ezután szekvenálhatók egy genom „teljes exome szekvenciájának” előállítására. A teljes exóm szekvenálás extra laboratóriumi manipulációkat igényel, így a teljes exóm szekvencia nem kerül költségbe

A teljes genomból álló szekvencia 1,5%-a. De mivel sokkal kevesebb DNS-t szekvenálnak, a teljes exome szekvenálás (legalábbis jelenleg) olcsóbb, mint a teljes genom szekvenálás.

A genomszekvenciák előállításával kapcsolatos költségek másik fontos hajtóereje az adatok minősége. Ez a minőség nagymértékben függ attól, hogy a genom egyes bázisait átlagosan hányszor „olvassák” a szekvenálási folyamat során. A Humán Genom Projekt (HGP) során a jellemző minőségi szintek a következők voltak: (1) „huzatsorozat” (kiterjed

99,9%-os pontosság) és (2) „kész szekvencia” (a genom >95%-át fedi le

99,99% pontosság). A valóban jó minőségű „kész” sorozat előállítása e meghatározás szerint nagyon költséges, a „szekvenciális befejezés” folyamata nagyon munkaigényes, és ezért magas költségekkel jár. Valójában a ma előállított emberi genomszekvenciák többsége „huzatszekvencia” (néha a fent meghatározott pontosság felett és néha alatta).

Ezért számos tényezőt figyelembe kell venni a genomszekvenálás költségeinek kiszámításakor. A genomszekvenciáknak többféle típusa és minőségi szintje létezik, és magában foglalhatja a folyamat számos lépését és tevékenységét. A genomszekvencia valódi költségeinek megértéséhez tehát ismeretekre van szükség arról, hogy mi volt és mit nem számított bele a költség kiszámításába (pl. Szekvenciaadatok generálása, szekvencia befejezése, előzetes tevékenységek, mint például a térképezés, a berendezések amortizációja, rezsi, közművek, fizetések, adatelemzések, stb.). A valóságban gyakran vannak különbségek abban, hogy mit vesznek figyelembe a genom-szekvenálási költségek különböző helyzetekben történő becslésekor.

Az alábbiakban összefoglaló információk találhatók a következőkről: (1) az első emberi genom szekvenálásának becsült költsége a HGP részeként (2) az emberi genom szekvenálásának becsült költsége 2006-ban (azaz nagyjából egy évtizeddel ezelőtt) és (3) a becsült költség az emberi genom szekvenálásának költsége 2016-ban (azaz jelen időben).

A genom a sejtmagban található összes DNS-ből áll. A DNS négy kémiai építőelemből vagy "bázisból" áll (az egyszerűség kedvéért rövidítve G, A, T és C), és a DNS-ben kódolt biológiai információ ezen bázisok sorrendje szerint van meghatározva. A diploid szervezetek, akárcsak az emberek és az összes többi emlős, szinte minden DNS -jük másolatát tartalmazzák (azaz olyan kromoszómapárokat, amelyek mindegyik párjának egy kromoszómáját minden szülő örökölte). A szervezet genomjának méretét általában a bázisok teljes számának tekintik a nukleáris DNS egy reprezentatív példányában. A diploid szervezetek (például az emberek) esetében ez minden kromoszómapár egy példányának összegének felel meg.

Az élőlények általában különbözőek a genom méretükben. Például a genomja E. coli (a bélben élő baktérium)

5 millió bázis (más néven megabázis), egy gyümölcslégyé

123 millió bázis, az emberé pedig az

3 milliárd bázis). Vannak meglepő szélsőségek is, mint például a loblolly fenyő esetében - genomja az

23 milliárd bázis, több mint hétszer nagyobb, mint a miénk. Nyilvánvaló, hogy a genom szekvenálásának költsége a méretétől függ. Az alábbi vita az emberi genomra összpontosít, ne feledje, hogy az emberi genom egyetlen „reprezentatív” példánya

3 milliárd bázis méretű, míg egy adott személy tényleges (diploid) genomja az

A genomok nagyok, és – legalábbis a mai módszerekkel – bázisaik nem „olvashatók ki” sorrendben (vagyis szekvenálhatók) egyetlen lépésben. A genom szekvenálása érdekében a DNS-t először kisebb darabokra kell bontani, majd minden egyes darabot kémiai reakcióknak kell alávetni, amelyek lehetővé teszik a bázisok azonosságának és sorrendjének megállapítását. Az egyes DNS -darabokból származó alaprendet gyakran „szekvenciaolvasásnak” nevezik, és a kapott szekvencia -leolvasások halmazát (gyakran milliárdokban számozzák) ezután számítással összeállítják, hogy levezethessék a kiindulási genom szekvenciáját . Az emberi genomok szekvenálását manapság segíti az emberi genom rendelkezésre álló „referencia” szekvenciáinak elérhetősége, amelyek fontos szerepet játszanak a számítási összeszerelési folyamatban. A történelem folyamán a genomok lebontásának, az egyes DNS -darabok szekvenálásának, majd az egyes leolvasott szekvenciák újbóli összeállításának folyamatát a kiindulási genom szekvenciájának előállításához „shotgun szekvenálásnak” nevezték (bár manapság ezt a terminológiát ritkábban használják). Amikor egy teljes genomot szekvenálnak, a folyamatot "teljes genom szekvenálásnak" nevezik. Lásd a 2. ábrát az emberi genom szekvenálási módszerek összehasonlításához a Human Genome Project ideje alatt és kb

A teljes genom szekvenálásának alternatívája a genom egy részének célzott szekvenálása. Ez leggyakrabban egy genom fehérjét kódoló régióinak szekvenálását foglalja magában, amelyek az úgynevezett „exonok” DNS-szegmensekben találhatók, és a legtöbb genom jelenleg „legjobban megértett” részét tükrözik. Például az emberi genom összes exonja (az emberi „exóma”) megfelel

A teljes emberi genom 1,5% -a. A módszerek ma már könnyen elérhetők az exonok kísérleti „elfogására” (vagy elkülönítésére), amelyek ezután szekvenálhatók egy genom „teljes exome szekvenciájának” előállítására. A teljes exóm szekvenálás extra laboratóriumi manipulációkat igényel, így a teljes exóm szekvencia nem kerül költségbe

A teljes genom szekvencia 1,5% -a. De mivel sokkal kevesebb DNS-t szekvenálnak, a teljes exome szekvenálás (legalábbis jelenleg) olcsóbb, mint a teljes genom szekvenálás.

A genomszekvenciák előállításával kapcsolatos költségek másik fontos hajtóereje az adatok minősége. Ez a minőség nagymértékben függ attól, hogy a genom egyes bázisait átlagosan hányszor „olvassák” a szekvenálási folyamat során. A Human Genome Project (HGP) során a tipikus minőségi szintek a következők voltak: (1) „vázlat szekvencia” (lefedő

99,9% pontosság) és (2) "kész szekvencia" (a genom 95% -át lefedi a

99,99% pontosság). E definíció szerint valóban jó minőségű „kész” sorozat előállítása nagyon drága, a „sorozat befejezés” folyamata nagyon munkaigényes, és ezért magas költségekkel jár. Valójában a ma előállított emberi genomszekvenciák többsége „huzatszekvencia” (néha a fent meghatározott pontosság felett és néha alatta).

There are thus a number of factors to consider when calculating the costs associated with genome sequencing. There are multiple different types and quality levels of genome sequences, and there can be many steps and activities involved in the process itself. Understanding the true cost of a genome sequence therefore requires knowledge about what was and was not included in calculating that cost (e.g., sequence data generation, sequence finishing, upfront activities such as mapping, equipment amortization, overhead, utilities, salaries, data analyses, etc.). In reality, there are often differences in what gets included when estimating genome-sequencing costs in different situations.

Below is summary information about: (1) the estimated cost of sequencing the first human genome as part of the HGP (2) the estimated cost of sequencing a human genome in 2006 (i.e., roughly a decade ago) and (3) the estimated cost of sequencing a human genome in 2016 (i.e., the present time).


What factors should I consider when selecting a reference genome for mapping? - Biológia

A principal obstacle to completing maps and analyses of the human genome involves the genome’s “inaccessible” regions: sequences (often euchromatic and containing genes) that are isolated from the rest of the euchromatic genome by heterochromatin and other repeat-rich sequence. We describe a way to localize these sequences by using ancestry linkage disequilibrium in populations that derive ancestry from at least three continents, as is the case for Latinos. We used this approach to map the genomic locations of almost 20 megabases of sequence unlocalized or missing from the current human genome reference (NCBI Genome GRCh37)—a substantial fraction of the human genome’s remaining unmapped sequence. We show that the genomic locations of most sequences that originated from fosmids and larger clones can be admixture mapped in this way, by using publicly available whole-genome sequence data. Genome assembly efforts and future builds of the human genome reference will be strongly informed by this localization of genes and other euchromatic sequences that are embedded within highly repetitive pericentromeric regions.


Current Call (OPEN)

The current call for proposals offers multiple capabilities, as described below:

1) Synthesis of genes and pathways for functional characterization. A single proposal can request a total of 100 to 500 kb of DNA synthesis capacity per proposal. A consortium (with co-PIs from at least 3 different institutions) can request up to 1,500 kb. All constructs are synthesized and assembled into user-defined plasmids, sequence validated, and transformed into an E. coli strain before shipment to users. The products are delivered to users as glycerol stocks. Projects requiring specific nucleotide sequences (such as those required for homology-based recombination) may experience lower successful assemblies due to difficulties in synthesizing precise DNA sequences in the absence of refactoring. Therefore, we may have to adjust the scope of the project depending on the complexity of the sequence constraints. Prospective users are encouraged to contact JGI staff to discuss.

2) Synthesis of combinatorial pathway libraries for fast-track metabolic engineering. Each proposal may request up to 500 kb of DNA de novo synthesis capacity to produce millions of basepairs of combinatorial variants. The JGI will also help identify a panel of each pathway component and design final constructs. All constructs are assembled using type II restriction-enzyme-based technologies (e.g., golden gate assembly) into user-defined plasmids and are transformed into E. coli strains before shipment to users no sequencing validations will be performed for the constructs. The products are delivered to users as glycerol stocks.

3) Synthesis of sgRNA libraries. Each proposal may request up to six libraries comprising up to 12,000 sgRNA sequences per library, or more than six libraries with less degree of variants per library. The JGI can help design sgRNA sequences based on the genome sequences of targeted microbes. All sgRNA constructs are synthesized, cloned into user-defined plasmids, and transformed into an E. coli strain as pools. The quality of these libraries is evaluated with sequencing-based analysis using MiSeq before shipment to users. The JGI will deliver the libraries to users as glycerol stocks. The subsequent transformation into the targeted microbes and functional screenings will be performed by users. The JGI can further evaluate enriched sgRNA libraries with sequencing-based analysis using MiSeq.

4) Strain Engineering: Genomic Integration of Synthetic Constructs into a Set of Bacterial Strains. JGI is offering a limited capacity of Chassis-independent recombinase-assisted genome engineering (CRAGE) to users. This technology enables integration of large, complex genetic constructs directly into the chromosomes of diverse gamma-proteobacteria with high accuracy and efficiency. Proposals may request up to 96 constructs to be cloned into a CRAGE compatible vector under the control of a T7 promoter and conjugated into a maximum of 5 gamma-proteobacteria hosts. We currently do not offer domestication of new strains to users.

The current list of preferred microbial species offered through this call include:

Pseudomonas putida KT2440

Yersinia aldovae ATCC 35236

It is recommended that you contact Yasuo Yoshikuni (DNA synthesis program head) to discuss the desired strains prior to submitting your proposal as there may be alternative strains that can be used.

Reference: CRAGE enables rapid activation of biosynthetic gene clusters in undomesticated bacteria https://www.nature.com/articles/s41564-019-0573-8

For additional information (literature citations, video), see this CRAGE blog post.

Applicants are also invited to request one or more other JGI functional genomics capabilities listed below.

5) Sequence data mining. The JGI’s genome portals IMG, Mycocosm and Phytozome contain a wealth of genomic data from microbes, fungi, plants and microbiomes. Proposals may request assistance with database searches for the selection of target genes and pathways for synthesis. However, capacity for analyzing search results and aiding in target selection is very limited users needing assistance with these tasks should contact JGI in advance to discuss feasibility.

6) Metabolomics based functional analyses. Metabolomic technologies at JGI enable users to examine diverse polar and non-polar metabolites from plants, microbes, and environments. In addition, users may request targeted analysis of stable isotope labeling for specific metabolites. Proposals should clearly indicate how the data obtained will be linked to gene function, and may request up to 50 polar metabolite sample analyses or 150 non-polar metabolite sample analyses.

7) Mapping of transcription factor binding sites. High-throughput mapping of putative transcription binding sites enables large-scale characterization of gene regulatory networks in a selected species. Proposals can request in vitro transcription factor binding site mapping by DNA affinity purification sequencing (DAP-seq) for up to 50 transcription factors. DNA/gene synthesis should also be requested for construction of affinity-tagged transcription factor clones used in the assay.

8) RNA-seq. Transcriptional profiling can aid in characterizing gene regulatory pathways activated in response to perturbations or environmental stimuli. Proposals may request RNA sequencing of up to 54 samples from plants, fungi or microbes for the purpose of testing gene function or elucidating regulatory networks.


ABSZTRAKT

The separation of germ cell populations from the soma is part of the evolutionary transition to multicellularity. Only genetic information present in the germ cells will be inherited by future generations, and any molecular processes affecting the germline genome are therefore likely to be passed on. Despite its prevalence across taxonomic kingdoms, we are only starting to understand details of the underlying micro-evolutionary processes occurring at the germline genome level. These include segregation, recombination, mutation and selection and can occur at any stage during germline differentiation and mitotic germline proliferation to meiosis and post-meiotic gamete maturation. Selection acting on germ cells at any stage from the diploid germ cell to the haploid gametes may cause significant deviations from Mendelian inheritance and may be more widespread than previously assumed. The mechanisms that affect and potentially alter the genomic sequence and allele frequencies in the germline are pivotal to our understanding of heritability. With the rise of new sequencing technologies, we are now able to address some of these unanswered questions. In this review, we comment on the most recent developments in this field and identify current gaps in our knowledge.


Nézd meg a videót: Szelfi? Nem! Miért veszélyes kitenni képeket az internetre? (Január 2022).