Információ

32: Személyes genomok, szintetikus genomok, számítástechnika a C és a Si között – Biológia

32: Személyes genomok, szintetikus genomok, számítástechnika a C és a Si között – Biológia


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

32: Személyes genomok, szintetikus genomok, számítástechnika C vs. Si

Szintetikus biológia, metaforák és felelősség

A metaforák nem csupán dekoratív retorikai eszközök, amelyek széppé teszik a beszédet. A világról való gondolkodás és a világra gyakorolt ​​cselekvés alapvető eszközei. A nyelv, amelyet a világ jobbá tételére használunk, számít a szavak, a metaforák számítanak. A szavaknak vannak következményei - etikai, társadalmi és jogi, valamint politikai és gazdasági következményei. Ezeket „felelősségteljesen” kell használni. Ezeket is alaposan át kell tanulmányozni – ezt kívánjuk ezzel a szerkesztőséggel és a kapcsolódó tematikus gyűjteménysel elérni. A szintetikus biológia összefüggésében a természet- és társadalomtudósok egyre jobban érdeklődnek a metaforák iránt, ez az érdeklődési hullám, amelyet ki akarunk aknázni és felerősíteni. A szintetikus biológiáról, az élet metaforáiról és az ilyen metaforák etikai és erkölcsi vonatkozásairól feltörekvő cikkekre és könyvekre szeretnénk építeni. Ez a vezércikk röviden bemutatja a szintetikus biológiát és a felelős innovációt, valamint átfogó áttekintést nyújt a metafora genomikában és szintetikus biológiában való használatának társadalmi, kulturális és etikai hatásairól szóló irodalomról. Célunk, hogy ösztönözzünk egy interdiszciplináris és nemzetközi vitát arról, hogy a metaforák milyen hatással lehetnek a tudományra, a politikára és a nyilvánosságra a szintetikus biológia összefüggésében.


Bevezetés

A poliploidia új genetikai nyersanyagot biztosít az evolúciós diverzifikációhoz, mivel a génduplikáció új génfunkciók és szabályozó hálózatok kialakulásához vezethet 1 . Mindazonáltal a teljes genom duplikáció (WGD) viszonylag ritka előfordulás állatokban, összehasonlítva a gombákkal és a növényekkel 2 . Az ősi WGD két köre történt a gerincesek utolsó közös ősében, további körök pedig egyes teleost halfajtákban 2,3,4. Ezeknek a WGD-eseményeknek a rögzítését (azaz „poliploidizációt”) tekintik a gerincesek leszármazási vonalainak evolúciós sikerét meghatározó fő erőnek, mivel elősegíti a fiziológia és a morfológia alapvető változásait, ami új adaptációk kialakulásához vezet 5,6 . A gerinctelenek közül a patkórák 7, 8, 9 , a pókok és a skorpiók 10 jelentik az egyetlen szexuálisan szaporodó leszármazást, amelyekről ismert, hogy átestek WGD-n (1a. ábra).

a Sematikus diagram, amely szemlélteti az állatok teljes genom-duplikációjának (WGD) jelenlegi ismereteit. Az „?R” a teljes genom duplikációjának ismeretlen köreit jelöli b képek a patkórákokról C. roundiculta és T. tridentatus c Ismételje meg a két patkórák genom tartalmát, C. rotundicauda és T. tridentatus: Kördiagramok, amelyek az ismétlődő tartalmat a teljes genomi tartalom arányában szemléltetik. Genikus versekben jelenlévő ismétlődő tartalom intergénikus régiók és ismétlődő tájképek, amelyek az egyes patkórák-genomokban az átültethető elemek aktivitását illusztrálják. A forrásadatok azt mutatják, hogy ezek a számok a 8. kiegészítő adatokban találhatók.

A patkórákokat „élő kövületeknek” tekintik. A patkórákok legrégebbi tényleges kövületei az ordovíciai időszakból származnak

450 millió évvel ezelőtt (Mya) 11 , és figyelemre méltó módon a fennmaradt fajok morfológiailag viszonylag változatlanok maradtak e rendkívül ősi dátum óta. Hosszú történelmük ellenére azonban csak négy patkórákfaj létezik világszerte: az atlanti patkórák (Limulus polyphemus) Észak-Amerika Atlanti-óceán keleti partjáról és a mangrove patkórákról (Carcinoscorpius rotundicauda), az indo-csendes-óceáni patkórák (Tachypleus gigas), és a háromtüskés patkórák (Tachypleus tridentatus), Dél- és Kelet-Ázsiából 12 . A becslések szerint az összes fennmaradt patkórák eltér egy létező közös őstől

135 Mya 13 , és közös ősi WGD 9 . A közelmúltban egy kiváló minőségű genom összeállítást jelentettek be, mint genomikai erőforrást T. tridentatus 14,15, izgalmas kutatási lehetőséget hagyva más patkórákfajok genomjának elemzésére, hogy megértsük, hogyan alakítják át a WGD-események a genomot, és hogyan alakítják át a genetikai szabályozó hálózatokat gerinctelenekben.

Jelen tanulmányunkban bemutatjuk a mangrove patkórák első kiváló minőségű genomját (C. rotundicauda), valamint a háromtüskés patkórák újraszekvenált genomja (T. tridentatus). Fontos, hogy bizonyítékot mutatunk be az ezekben a genomokban előforduló WGD körök számára, és megvizsgáljuk, hogy ezek a pókokkal közös eseményt jelentenek-e. Megvizsgáljuk a gének és a mikroRNS-ek evolúciós sorsát is mind egyéni, mind populációs szinten ezekben a genomokban. Ez a tanulmány együttesen kiemeli az egyedülálló gerinctelen WGD evolúciós következményeit, ugyanakkor részletes genetikai betekintést nyújt a különféle genomikai, orvosbiológiai és természetvédelmi alkalmazásokhoz.


Vita

A genomika térnyerése és hatása az emberi egészségre

Az 1990-ben alapított Humán Genom Projekt volt az egyik legdrágább és legköltségesebb együttműködésen alapuló vállalkozás a tudományban. Tíz évvel a befejezése óta továbbra is rengeteg új információval szolgál, amelyek következményeit még nem értjük teljesen [8]. A projekt nyílt hozzáférésű jellege arra késztette a tudósokat, mint a tudományos társaságokat, hogy jobb szekvenáló eszközöket és kapcsolódó elemző szoftvereket fejlesszenek ki. Az ezt követő újítások hozzájárultak ahhoz, hogy az évek során a teljes genom szekvenálás árát lecsökkentsék, a kezdeti közel 3 milliárd dollárról 3000 dollár alá, így elérhetővé tették a különböző orvosbiológiai tudományágak kutatói számára [14].

A szekvenáló eszközök fontos szerepet fognak játszani a személyre szabott orvoslás fejlesztésében. Egyes szekvenálási technológiát már a klinikákon is alkalmaznak genetikai állapotok tesztelésére, összetett betegségek diagnosztizálására vagy betegminták ritka változatainak szűrésére. Ezek a tesztek lehetővé teszik az egészségügyi szakemberek számára, hogy pontosan diagnosztizálják a betegséget, és megfelelő, a páciensre jellemző gyógyszert írjanak elő [15, 16]. Az Egyesült Államokban az NIH támogatásával a közelmúltban újszülöttkori szekvenálást kutatnak az újszülöttek ritka és összetett rendellenességeinek vizsgálatára [17, 18]. Fejlesztés alatt állnak olyan technológiák, amelyek lehetővé teszik a születendő gyermek genomjának nem invazív szekvenálását [19]. A személyre szabott genomszekvenálás átalakítja az egészségügy jövőjét. A szekvenált genomok számának növekedése azonban új problémákat vet fel. A genomelemző szoftver működése a kapott szekvenciák és a referencia összehasonlítása révén történik. Mivel az emberi genom különböző egyedek között különbözik, mi a referenciaszekvencia? Mi a küszöb a gyakori és a ritka DNS-változatok megkülönböztetésére?

A genomszekvenálás mindezen érdekes következményei közepette továbbra is vita folyik a tudományos terminológia helyes használatáról. Pontosabban, a “mutation” és “polimorfizmus”, valamint a “pontmutáció” versus “SNP” elnevezések egymástól függetlenül használhatók az azonos eseménysorozat különbségének leírására. egy hivatkozás. Szigorúan grammatikai és etimológiai szempontból a mutáció egy esemény (a mutáció), a polimorfizmus pedig egy állapot vagy minőség (a polimorfitásnak), de ezek a kifejezések kibővítve gyorsan magát a létrejövő eseményt vagy állapotot jelentik. Elvileg egy pont DNS-változat mutációként vagy SNP-ként jelölhető. Mivel nem állnak rendelkezésre egyértelmű szabályok, a genomszekvenáláshoz jelenleg használt szoftvereszközök nem tesznek hozzárendelést, és a különbséget egyszerűen DNS-változatként jelölik meg, elmosva a különbséget a két kategória között.

“Mutáció” és “polimorfizmus”: korábbi definíciók

A humán DNS- és fehérjeszekvenciák szekvenciaváltozatainak (mutációk, polimorfizmusok) egységes és egyértelmű leírását két, 1993-ban publikált közlemény indította el [20, 21]. Ebben az összefüggésben a nukleotidszekvencia bármely ritka változását, általában, de nem mindig betegséget okozó tulajdonsággal, “mutációnak” [22] nevezzük. A nukleotidszekvencia ezen változása fenotípusos változásokat okozhat, vagy nem. A mutációk örökölhetők a szülőktől (csíravonal-mutációk), vagy az egyén élete során szerezhetők be (szomatikus mutációk), ez utóbbi az emberi betegségek, például a rák fő mozgatórugója. Csíravonali mutációk az ivarsejtekben fordulnak elő. Mivel az utódok kezdetben egy petesejt és egy sperma fúziójából származnak, a szülők csíravonali mutációi is megtalálhatók utódaik minden magos sejtjében. A mutációk általában nem javított DNS-károsodásból, replikációs hibákból vagy mobil genetikai elemekből származnak. A DNS-mutációknak több fő osztálya van. Pontmutáció akkor következik be, amikor egyetlen nukleotidot adunk hozzá, törölünk vagy helyettesítünk. A pontmutációkkal együtt a kromoszóma teljes szerkezete megváltozhat, a kromoszómális régiók átfordíthatók, törölhetők, megkettőzhetők vagy áthelyezhetők [23]. A DNS-mutáció egy másik fajtája a �opy number variation”. Ebben az esetben egy gén expressziója felerősödik (vagy csökken) a lókusz allél megnövekedett (csökkent) kópiaszáma révén [24, 25].

A DNS-szekvencia azon eltéréseit, amelyek egy populációban 1 %-os vagy nagyobb gyakorisággal fordulnak elő, polimorfizmusnak nevezik [26]. A populációban tapasztalható magasabb előfordulás azt sugallja, hogy a polimorfizmus természetesen előfordul, akár semleges, akár jótékony hatással. A polimorfizmusok egy vagy több nukleotid változásból is származhatnak, akárcsak a mutációk. Az SNP a leggyakoribb polimorfizmus példája, amelyről azt gondolják, hogy minden 1000 bázispárban előfordul az emberi genomban, és általában a fehérjét kódoló géneket szegélyező területeken található [27] –, amelyek ma már kritikusnak tartják a mikroRNS-kötést és a gén/fehérje szabályozását. kifejezés [28]. Az SNP-k azonban előfordulhatnak kódoló szekvenciákban, intronokban vagy intergenikus régiókban is [27]. Az SNP-ket genetikai aláírásként használják a populációkban bizonyos tulajdonságokra való hajlam tanulmányozására, beleértve a betegségeket is [29].

A probléma anatómiája

A fejlett DNS-szekvenáló eszközök és a személyes genomika korszakában a mutáció és a polimorfizmus ezen korábbi meghatározásai elavultak. Mielőtt több párhuzamos szekvenálást fejlesztettek volna ki, lehetetlen volt ugyanazon beteg genomjának többszörös szekvenálása. Ezen okok miatt akkoriban több genom összeállításából származó referenciaszekvenciát kellett használni. A konszenzusos szekvencia elkészítésekor egy tetszőleges 1 %-os küszöböt állapítottak meg a gyakori (polimorfizmus) és a ritka (mutációs) változatok megkülönböztetésére [26].

A polimorfizmushoz kapcsolódó 1 % vagy magasabb frekvencia egy tetszőleges szám [30], amelyet a tudósok a következő generációs szekvenálás korszaka előtt javasoltak. A küszöbérték tetszőleges, így maga a populáció újradefiniálása is befolyásolhatja a besorolást, a ritka változatok polimorfizmusokká vagy a polimorfizmusok ritka változatokká válnak a vizsgált populáció szerint. Évtizedekig előnyben részesítették ezt a gyakoriságot a populációs modellek kidolgozására, mint a szekvenáló eszközöket, amelyek akkoriban hibásak és munkaigényesek voltak. Az új szekvenálási technológiák megjelenésével és az egyedek ezt követő szekvenálásával egy egészen más kép kezdett kirajzolódni a populáció dinamikájáról. A populációban ritkanak vélt mutációkról azt találták, hogy meghaladják az 1 %-ban meghatározott gyakorisági küszöböt [31]. Ennél is meglepőbb, hogy e ritka mutációk némelyike ​​nem kapcsolódik emberi betegségekhez. Ha összehasonlítjuk a földrajzi és fizikai korlátok által elválasztott populációkat, egy betegséget okozó mutációt egy másik populációban ártalmatlannak találunk, és fordítva [32].

Például a sarlósejtes vérszegénységet a hemoglobin fehérje béta-láncát kódoló gén nukleotidváltozása (SNP rs334) okozza [33]. Valójában az rs334 SNP-nek minősül, mivel kisebb allélgyakorisága a populációban ϡ %. A betegség azoknál az embereknél jelentkezik, akiknél a mutált gén (rs334(TT) genotípus) két kópiája van. A sarlósejtes vérszegénység általában ritka (ρ %) a fejlett országok populációiban [34]. A gén heterozigóta formája (rs334(AT) genotípus) azonban perzisztens Afrika, India és más fejlődő országok populációiban, ahol a malária endémiás [33]. Ezeken a földrajzi helyeken az rs334 heterozigóta hordozói túlélési előnnyel rendelkeznek a malária kórokozójával szemben, és ezért ez a jótékony mutáció az utódokon keresztül a következő nemzedékekbe kerül [35�]. Itt egy ritka változat, amely az egyik populációban (fejlett nemzetekben) súlyos homozigózisos betegséget okoz, egy másik populációban fennmaradhat, hogy túlélési előnyt biztosítson heterozigózis polimorfizmusaként [38]. Az ilyen kivételek egyre nőnek, és azt mutatják, hogy újra kell definiálni a mutáció és a polimorfizmus fogalmát. Tovább bonyolítja a különbséget a mutáció és a polimorfizmus között betegséget okozó képességük alapján. Bár úgy gondolják, hogy természetes előfordulásúak, az SNP-kkel kapcsolatos legújabb kutatások kimutatták, hogy összefüggésbe hozhatók olyan betegségekkel, mint a cukorbetegség és a rák. Legalább 40 SNP-ről kimutatták, hogy csak a 2-es típusú cukorbetegséggel társul [39]. Röviden: nem lehet osztályozni a variációk funkcionális szerepét a populációban előforduló gyakoriság vagy betegséget okozó képesség szerint.

A személyes genomika kontextusa

A “mutáció” és “polimorfizmus” vita sürgős értékelést igényel a következő generációs szekvenálás és a precíziós orvoslás korszakában. Számos nemzetközi együttműködési projekt, mint például az ENCODE (DNS elemek enciklopédiája) és a HapMap (Haplotype Map) indult a genom összes génjének, genetikai variációjának és szabályozó elemének feltérképezésére, hogy összefüggéseket találjanak az emberi biológiával, személyes tulajdonságokkal és betegségekkel [40] ].

Ilyen körülmények között az olyan kereskedelmi vállalatok, mint az Illumina és a Roche, olyan fejlett és robusztus platformokat fejlesztenek, amelyek mind a kis, mind a nagy kutatási létesítmények igényeihez igazodnak. Az e vállalatok közötti növekvő verseny számos különféle technológiát eredményezett, amelyek ma már elérhetőek a genomika új betekintésének elősegítésére [11]. Hasonlóképpen fejlett genomikai eszközöket és elemző szoftvereket fejlesztettek ki, amelyek az adott platformtól függetlenül működhetnek. Az olyan eszközöket használó kutatók, mint a CLC genomika, a Next Gene és a Geno Matrix, hozzáférhetnek és letölthetik a szekvenálási adatkészleteket saját, egyszerűsített kutatásaik céljára. Az ilyen kutatások elsődleges célja finom, összetett és dinamikus szekvenciavariációk keresése. A konzisztens definíciók és az egységes tudományos nyelvezet hiánya hátráltathatja ezt a feltörekvő területet, ahol a genomikai platformok téves hipotéziseket fogalmazhatnak meg, a kutatók pedig félreértelmezhetik a korábbi definíciókon alapuló adatokat.

A probléma különösen fontos a precíziós orvoslás és a személyre szabott kezelések esetében. Például a rák genomjának szekvenálásának egyik fő oka a rákos sejtek egyedi genetikai jellemzőinek azonosítása, amelyeket aztán személyre szabott kezeléssel lehet megcélozni [41]. Ennek megfelelően szükséges a rákos sejtek szomatikus mutációinak osztályozása, és ezen ismeretek felhasználása a rákos és nem rákos sejtek közötti összes különbség terápiás kiaknázására. Ezért a célzott szerrel való kezeléshez a rákos betegnek expresszálnia kell azt a célpontot, amely a rákos sejtekben előforduló specifikus mutációból származik. Ha azonban egy eltérést rosszul osztályoznak, lehetséges, hogy egy polimorfizmust (amely a páciens összes sejtjében jelen van) szomatikus mutációnak tekintjük. Az eredmény toxikus hatás lehet, mivel a célzott kezelés hatással lesz mind a rákos, mind a nem rákos sejtekre, amelyek ugyanazt a genetikai változatot hordozzák. Ez a probléma megelőzhető, ha a csíravonal és a szomatikus rák genomját ugyanabban a betegben szekvenálnák.

Egy másik fontos ok, ami mögött egy ilyen megkülönböztetés szükséges, az, hogy a betegség két egymást követő mutációból eredhet a két találatos hipotézis szerint [42]. Egy populáción belül a csíravonal-mutáció (első találat) a betegek egy részét hajlamosíthatja egy második, szomatikus mutációra, amelynek hatásai létrehozzák a beteg fenotípust [43]. Ebben az összefüggésben a veszélyeztetett populációk azonosítása érdekében rendkívül hasznos lenne különbséget tenni a szomatikus és a csíravonali mutációk között. Például a meningiómás betegek 㰐 %-ánál többszörös meningioma fordul elő. Az első csíravonal-mutáció a SMARCB1 gén hajlamosít a meningiomára, de ez csak akkor következik be, ha a szomatikus mutáció a NF2 gén beavatkozik [44]. A szomatikus és a csíravonal variánsok közötti egyértelmű megkülönböztetés hiányában ez a fajta patogén felfedezés lehetetlen lehet.

Ezt a megközelítést most egy friss tanulmány is alátámasztja. Jones et al. 815 tumor-normális páros mintát értékeltek ki 15 különböző daganattípusból [45] a Next Gene Sequencing segítségével. A könyvtár-előkészítést két módszerrel, teljes exome preparációval és célzott amplifikációval végeztük 111 gén esetében. Az elemzéseket ezután úgy végezték, mintha csak a rákos szövetet szekvenálták volna (referencia humán genom összeállítás GRch37-lite), vagy referenciaként ugyanazon páciens csíravonal DNS-ét vették volna alapul. Az első elemzés során a szerzők nagyon magas álpozitív változatok arányáról számoltak be (31 %, illetve 65 % az exome és a célkönyvtárakban). Ezenkívül a rákos megbetegedések 3 %-ában azonosítottak csíravonal-mutációkat, még akkor is, ha olyan csoportból származtak, ahol nem volt családi előzmény (sporadikus rák). Most, hogy az új szekvenálási technológiák drámaian csökkentették a szekvenálás költségeit, a precíziós orvostudomány és a személyi genomika megköveteli, hogy a DNS-szekvenálási projekt referenciáját ugyanannak a páciensnek a csíravonal DNS-éből kell megszerezni.

Folyamatos vita és a HGVS (Human Genome Variation Society) ajánlásai

A tudósok között folyamatban lévő vita a nómenklatúra mutációjának és polimorfizmusának megoldásáról egy lépés a helyes irányba. A HGVS, a 34 ország 600 tagját tömörítő szövetség vitákat és ajánlásokat foglal magában a világszerte elfogadott általános kifejezések konszenzusos definícióinak és leírásainak kialakítására. Az 1990-es évek eleje óta a HGVS fontos szerepet játszott a mutációs nómenklatúra szabványosításában. A HGVS ajánlásai a tudósok között az évek során folytatott kiterjedt vitákon alapultak.

Az e témában az elmúlt 20 évben megjelent tanulmányok azt mutatják, hogy a HGVS látnoki volt abban, hogy új változtatásokat és bővítményeket javasoljon a viszonylag összetett változatok felfedezése alapján. 2002-ben számos kutató próbált foglalkozni ezzel a nómenklatúra-problémával és a befogadóbb definíciók elkészítésének kihívásaival. Condit et al. azt találta, hogy a mutáció a biológiai tudományokban való felhasználása óta, de különösen a 20. század folyamán, egyre negatívabb konnotációjúvá vált [22]. A kifejezésnek ez a negativitása a második világháború alatti sugárzási kísérletekben és az atomfegyverek használatában, majd később a tudományos-fantasztikus könyvekben és filmekben rögzült. A cikk azt javasolta, hogy egy jobb kifejezés, mint a “variation” és a 𠇊lteration” hasznos lehet, de a tudományos világban való következetlen használata problematikussá teszi.

A közelmúltban további dokumentumok rávilágítottak egy 𠇌onsensus” sürgősségére, amely irányítja a szekvenálási módszerek (adatgyűjtés) és a jelentéstétel kiválasztását. Ezek a tanulmányok rámutatnak arra, hogy a patogén variánsok pontos osztályozása szabványos megközelítést és ezen adatokat tartalmazó adattárak felépítését igényli [46]. Ebben az összefüggésben Richards et al. az American College of Medical Genetics and Genomics (ACMG) képviseletében megállapították, hogy a “mutation” és “polymorphism” kifejezések gyakran okoznak zavart a patogén és jóindulatú hatások helytelen feltételezése miatt. Ezért azt javasolták, hogy mindkét kifejezést a “variant” kifejezéssel helyettesítsék a következő módosítókkal: (i) patogén, (ii) valószínű patogén, (iii) bizonytalan jelentőségű, (iv) valószínű jóindulatú vagy (v) jóindulatú [47].


32: Személyes genomok, szintetikus genomok, számítástechnika a C és a Si között – Biológia

A személyes genomika kritikus fontosságú a genetikai betegségek kezelésére és megelőző diagnosztizálására való képességünk fejlesztésében. Az orvostudomány személyre szabásának lehetőségei ellenére azonban nagyrészt néhány jelentős számítási oldali probléma súlyához kötődik. Ez magában foglal mindent a tárolástól a számításon át a kódig, amelyek mindegyike szóba került a National Center for Supercomputing Applications&rsquo (NCSA) Private Sector Program éves találkozóján.

Az esemény során Dr. Victor Jongeneel, az NCSA és az Illinoisi Egyetem Genomikus Biológiai Intézetének vezető kutatója részletezett néhány szűk keresztmetszetet és lehetséges megoldást, amelyek megalapozzák a személyes genomikával kapcsolatos elvárásokat.

A személyes genomika esetében a probléma nem magának a genomnak a tudományos megértése, hanem az, hogy hogyan lehet rekonstruálni, összehasonlítani és értelmezni a szekvenszerekből származó hatalmas adatokat. Azt állítja, hogy ennek a technológiának mint egésznek a bomlasztó része abban gyökerezik, hogy képesek vagyunk ténylegesen megszerezni az adatokat. Jongeneel szerint a DNS-szekvencia adatok tavalyi mennyisége több volt, mint amennyi a szekvenálás teljes története során keletkezett azelőtt.

A személyes genomika jelenleg nem valóság, mondja Jongeneel. Megjegyzi, hogy azoknak az új szolgáltatásoknak a köre, amelyek néhány száz dollárért kínálják a genom szekvenálását, messze nem teljes körű szolgáltatás. Ezek egyszerűen DNS-t vesznek egy nyálkészletből, megvizsgálják a genomok bizonyos számú pozícióját, amelyekről ismert, hogy változóak, majd megpróbálnak ezekből az információkból személyes jellemzőkre következtetni. Azt állítja, hogy ez nem személyes genomika, mert ebben az esetben minden, amit Ön vizsgál, a populáció egyedei közötti ismert különbségek, és nem a saját genomja. Ezen túlmenően az egyén személyes genomikájának valódi pillantásához szükséges dolgok elvégzése sokkal számításigényesebb, és jóval több, mint néhány száz dollár.

A valódi személyes genomika megvalósításához az egyének közötti minden különbséget elemezni kell. Jongeneel elmagyarázta, hogy az átfogóbb genomiális mintavétel felé haladunk olyan jól finanszírozott projekteken keresztül, mint az 1000 Genomes Initiative, amelynek célja az összes szükséges adat előállítása 1000 dollárért. Azt mondja, ez hamarosan lehetséges lesz, de ismét a számítási szűk keresztmetszetek jelentik a fő korlátot.

Jongeneel a következő generációs szekvenálást biztosító három fő technológiai szállítót idézi, és azt mondja, hogy bár megközelítéseik eltérnek egymástól, egy szekvenált genom esetében átlagosan 8 napig futnak 200 gigabázisnyi információért. Ez emberi genomonként jóval több mint egy terabájtot jelent.

Amikor az emberi genom szekvenciái több száz millió (vagy akár egymilliárd) leolvasás eredménye és mdasha szám, amely a technológia szállítójától függ. Innentől kezdve a kutatóknak meg kell határozniuk, honnan származnak a genomban a közös referenciagenomokhoz képest. Ez az "egyszerű" igazítási folyamat, amelynek során az egyedi genomot a referenciagenommal való összehangolás útján hasonlítják össze, hihetetlenül nagy számításigényű, és az mdashas a következő lépés, ahol értelmezni kell ezt az összehangolást az egyéni különbségek dokumentálásához és a következetesség biztosításához.

Jongeneel azt mondja, hogy ez az igazítási lépés általában több napot vesz igénybe egyetlen minta feldolgozásához, mivel az igazodik a referenciagenomhoz. A folyamat további bonyolítása érdekében mindannyiunkban vannak olyan DNS-darabok, amelyek szükségszerűen megtalálhatók mások DNS-ében. Bár ezek apró különbségek, azt mondja, hogy ezek nagyon nagy különbséget jelenthetnek. Ezen egyedi darabok elemzéséhez az egyes leolvasások teljes összevonása szükséges, hogy a kutatók lássák, hogyan nézhet ki a genom nagyobb szerkezete. És még igényesebb lesz.

A genomok újjáépítéséhez rendkívül összetett gráfok felépítése szükséges, ami önmagában is megterheli a számítási erőforrásokat. Ez még nagyobb igénybevételt jelent, ha a grafikont egyértelművé kell tenni, hogy a tényleges genomszekvencia szempontjából értelmezhető legyen. Végtére is, vannak olyan szekvenciadarabok, amelyek 75-100 nukleotid hosszúságúak, és Ön megpróbálja helyreállítani a több millió vagy milliárd nukleotid hosszúságú genomot. Ez a tudományos megfelelője annak, hogy egy sejtméretű darabot egy hatalmas asztali puzzle-ba illesztünk.

Konkrétabban, mint a kirakós kép, fontolja meg ezt: Jongeneel azt mondja, hogy ha egy teljes genomot szeretne rekonstruálni ilyen információkból, akkor egy gráf felépítéséről beszélve valószínűleg több mint 3 milliárd csomópontja lenne, amelyeknek több mint 10 milliárd élük van. . Ez természetesen azt feltételezi, hogy az Ön adataiban nincsenek hibák, amelyek – elnézését kéri – valószínűleg vannak. Egy közepes méretű klaszteren egy algoritmushoz szükséges nyers idő, amelyhez a megfelelő összeállítás genomonként több hetet vesz igénybe.

Jongeneel szerint ez az a fajta szűk keresztmetszet, amely megakadályozza, hogy néhány érdekes genomikai projekt elinduljon. Például jelenleg arra törekednek, hogy több száz általános gerinces DNS-ének teljes tartományát szekvenálják. Azonban ezeknek az információknak a tárolása, és az egyes fajok esetében több hét elköltése miatt ez most legalábbis elérhetetlenné válik. Azt mondja, hogy van remény a láthatáron, de ehhez újra kell gondolni a kódot és a számítástechnikát.

Azt mondja, hogy a probléma nagyrészt magában a szoftverben rejlik. Csapata lefuttatta a tesztet a széles körben használt ABySS genomösszeszerelőn, amely széleskörű vonzereje van, mivel MPI-t használ, és képes kihasználni a nagyon szükséges klaszterkörnyezetet. Egy szerény méretű élesztő genomjának összeszerelésére vállalkoztak, és megállapították, hogy a falióra és a memóriaigény alapján egyértelmű, hogy ez nem egy méretezhető kód.

Szerinte ez egy sokkal mélyebb problémára utal, és a genomikai szoftvereket fejlesztők többsége nem professzionális fejlesztő. Annak ellenére, hogy integrálnak néhány összetett algoritmikus ötletet, az általuk írt kód &ldquoisn&rsquot megfelel a HPC közösség szabványainak.&rdquo

Ezt tovább kommentálta, mondván, hogy leginkább egy nagyon párhuzamos genomösszeszerelőre van szükség. Rámutatott az arénában elért némi előrelépésre egy Iowa állambeli csoport részéről, de azt mondja, hogy sajnos &ldquoa szoftverük nem nyilvános, így nem elérhető, tesztelhetjük, és nem a közösségben.&rdquo

A Microsoft egyik képviselője a hallgatóságból megkérdezte Jongeneelt, hogy mi lehet a megoldás erre a problémára, megkérdezve, hogy egyszerűen több párhuzamos programozóra, jobb eszközökre vagy nyelvekre van-e szükség ezek fejlesztéséhez, vagy valami más új típusú, méretezhető megoldásra. Jongeneel azt válaszolta, hogy mivel az előállított kód nagy része kutatási szintű, és a technológia olyan gyorsan fejlődik, hogy nagyon rövid idő alatt elavulttá teszi az &ldquonew&rdquo kódot. Azt mondja, hogy a kereskedelmi próbálkozások ugyanezen okból kudarcot vallottak, és amint életképes, skálázható megoldást hoztak létre, amiről lemaradtak az új megoldások felé irányuló gyors mozgástól.

Jongeneel azt mondta, hogy ha a személyes genomikára gondolunk, ha az egymillió embert célzó cél felé akarunk haladni, akkor rövid időn belül elérjük az exabájtos tartományt. Úgy érzi, ezen felül ezeket az adatkészleteket több összetett lépésből álló munkafolyamatokkal kell elemezni, ezért alapvetően újra kell gondolnunk azokat a számítási architektúrákat, amelyek lehetővé teszik az ilyen jellegű kutatásokat.

Ettől eltekintve azt állítja, hogy az egyik mellékkérdés az, hogy mit kezdjünk azzal a hatalmas mennyiségű nyers adattal, amely értékes a jövőbeli kutatások számára (és időnként egyébként is törvényesen megsemmisíthető). Ezzel a hatalmas mennyiségű nyers adattal azt mondja, hogy a &lsquorelevant&rsquo információk kinyerése jelenti a problémát. Jongeneel megjegyzi, hogy nagyszámú genomon adatelemzésre és mintázatok feltárására lesz szükség ahhoz, hogy értelmes eredményeket lehessen elérni.


Vita

Itt bemutatjuk a jelenleg a legrégebbi, majdnem teljes HIV-genomot, amely 1966-ból származik Kinshasában, Kongói Demokratikus Köztársaságban. Ez a DRC66 minta 10 évvel régebbi, mint a korábban legkorábban jellemzett teljes genom, egy 01A1G törzs, amelyet 1976-ban izoláltak vérből, szintén a Kongói Demokratikus Köztársaságban, de a szekvenálás előtt sejtkultúra-passzáláson esett át (38). Csak kilenc másik HIV-1 genom áll rendelkezésre az AIDS felfedezés előtti szakaszából (1978-1982), mindegyik B altípus az Egyesült Államokból (25). A legrégebbi HIV-1 genomi fragmentumok 1959-ből és 1960-ból származó plazma és FFPE mintákból származnak, mindkettő Kinshasából, Kongói Demokratikus Köztársaságból (11, 12). Míg ezek vitathatatlan bizonyítékot szolgáltattak a HIV-1 M csoport jelenlétére és jelentős diverzifikációjára két évtizeddel a felfedezése előtt, a visszanyert rövid szekvenciák nem teszik lehetővé az érintett HIV-1 törzs teljes jellemzését, és csak a filogenetikai információk töredékét tartalmazzák. amely a teljes genomokban jelen van.

A szekvencia lefedettségének elérése érdekében a DRC66 archív genomjában szükségesnek bizonyult az 54 és 106 nt közötti átfedő rövid fragmentumok munkaigényes amplifikációja egy rendkívül érzékeny légkalapácsos PCR eljárásban. Összehasonlításképpen: egy Illumina MiSeq 65 milliónál nagyobb leolvasása, előzetes amplifikáció nélkül ugyanazon a mintán, nem tartalmazott HIV-1 szekvencia adatokat. Az utóbbi megközelítés azonban egy 1918-as FFPE-mintában egy influenza A H1N1 törzs teljes genomját 3000-szeres lefedettséggel biztosította (24). Valószínűleg a sikerbeli különbség a nedves trópusi és a mérsékelt égövi régiók eltérő tárolási körülményeiből fakad, amint azt az is bizonyítja, hogy az olvasmányaink többsége olyan környezeti organizmusoktól származik, amelyek az előkészítés vagy tárolás során behatolhattak a mintába, vagy ami még valószínűbb, viszonylag alacsony vírustiter az FFPE nyirokcsomó mintában.

Globálisan több HIV-1 M csoportos esetet okoznak a C altípusba tartozó törzsek, mint bármely más klád, főként azért, mert Dél-Afrikában van a legmagasabb a HIV-1 terhelés, és ott a C altípus dominál (39). A becslések szerint a KDK délkeleti részéből származtak, a filodinamikai elemzések azt mutatták, hogy a C altípusú törzsek onnan terjedtek el Dél-Afrikába a bányavárosok közötti kapcsolatokon keresztül (13). A LANL HIV szekvencia adatbázisában jelenleg a Kongói Demokratikus Köztársaságból származó HIV-1 szekvenciák körülbelül 19%-a C altípusba sorolható (többnyire részleges génszekvenciákból dokumentálva). A DRC66 szekvencia a C altípusú klád testvérvonalát képviseli, és meglehetősen eltérő: becsléseink szerint a C altípussal közös őse volt körülbelül 20 évvel a hagyományos C altípus közös ősének ideje előtt. geg és pol három nemrégiben leírt, kinshasai és mbuji-mayi rekombináns genomból, amelyekből 2008-ban vettek mintát (17), és egy részleges pol sequence sampled in Sweden in 2000 (40), appear to be the only reported contemporary sequences that also belong to this lineage in part of their genomes, although we cannot be certain we did not miss any short sequence stretches of, e.g., complex recombinant forms that would also cluster with this clade. Villabona-Arenas et al. (17) and Rodgers et al. (19) describe additional so-called divergent C lineages sampled between 1997 and 2012 in DRC that are monophyletic with conventional C with respect to the DRC66 lineage, yet form distinct sister lineages to subtype C. Similarly, for most other HIV-1 subtypes, more divergent lineages can be found in DRC (in particular Kinshasa) and other central African countries than in other regions where the more restricted within-subtype diversity arose in a relatively short time after founder events. The DRC66 genome provides a unique insight into the subtype C-like diversity that would have been present in DRC in the 1960s. The fact that particular residues of the translated integrase protein of DRC66 are known to induce resistance to integrase inhibitor drugs, which were obviously developed long after DRC66 was sampled, highlights that the natural 1960s diversity already harbored some genetic basis for anti-HIV therapy failure.

We further investigated whether the phylogenetic information in the suite of HIV-1 genomes sampled across the past decades, almost all after the discovery of HIV-1, reliably captures HIV-1’s evolutionary rates over the longer time frame that includes HIV-1’s long prediscovery phase in humans. Few calibration points from direct biological observations are typically available to test such conclusions for real-world analyses, especially for such a medically important pathogen. Crucially, such ancient DNA calibration points can lead to dramatic changes in evolutionary histories once thought to be definitively established. For example, recently reported hepatitis B virus sequences from the Bronze age and Neolithic suggested a 100-fold slower evolutionary rate for this double-stranded DNA virus than previously thought (41 ⇓ –43), and such data are prompting updates to evolutionary clock models to better accommodate time-dependent rate variation (10). Because it is impossible to completely rule out such biases without complete genomic information from an early evolutionary time point, we believe it is important to attempt to recover such information from surviving HIV-1 specimens.

Reassuringly, in the context of HIV-1 group M, we do not observe that an “ancient” HIV-1 genome significantly changes evolutionary inferences based on phylogenies built from more-recent genomes. Indeed, there is remarkably little difference in key estimates—including the overall age of the pandemic lineage of HIV—when this sequence is included in phylogenomic analyses. Given that it is more than 50 y older than currently circulating HIV-1 strains, this sequence provides direct evidence for the reliability of dating estimates over the last half-century of HIV-1 circulation. This stands in contrast to the disconnection between short-term rates observed in SIVs and the rates at which SIV strains evolve when averaged across centuries or millennia of evolution in natural populations of different primate species, where molecular clock dating theory has difficulties accommodating the rate differences (6).

Interestingly, our analysis highlights an often-overlooked source of uncertainty in evolutionary divergence dating based on any sample of genomes. The suite of HIV-1 genomes sampled from patients and available in public databases is inevitably a very limited subsample of the true diversity of HIV-1 group M. To investigate the degree of variation such an unavoidable sampling process induces, we subsampled the available GenBank sample of nonintersubtype recombinant HIV-1 group M genomes from Africa, only retaining a small set of genome samples before 1990 in each sample. While credible intervals of all dating and rate estimates overlapped substantially, the overall variation between subsamples was larger than that induced in each subsample when DRC66 was either included or excluded. Besides variation in the underlying evolutionary models used in different studies, usage of different HIV-1 genome dataset samples could also explain why our HIV-1 group M TMRCA estimates are somewhat older here than previously reported: 1920 (95% HPD 1909 to 1930) (13), 1930 (1911 to 1945) (44), 1932 (1905 to 1954) (15), 1920 (1902 to 1939) (14), and 1908 (1884 to 1924) (11). Across our five investigated subsamples, HIV-1 group M TMRCA confidence intervals ranged from 1881 to 1918. We did not further explore the sensitivity of TMRCA estimates to various evolutionary model specifications, though it has been shown for example that the choice of coalescent tree prior may influence TMRCA estimates of HIV-1 for Bayesian inferences (11, 45). While a skygrid coalescent model should be appropriate (46), a recent study that was also based on complete HIV-1 genomes but that used a combination of an exponential and logistic growth model as tree prior (47) estimated 1915 to 1925 as the HIV-1 group M TMRCA. Taken together, while most estimates of the origin of the pandemic lineage of HIV-1 indeed converge to around the turn of the 20th century, phylogenetic uncertainty, evolutionary model specifications, and natural variation among samples of HIV-1’s genomic diversity prevent narrowing down the age estimate to less than a few decades.

In conclusion, using a highly sensitive amplification protocol for degraded archival samples, we here present the oldest HIV-1 near-complete genome available to date. While we are careful not to extrapolate to other pathogen–host systems and much deeper time scales evident in SIV, our study indicates that evolutionary rates calibrated from HIV-1 group M sequences sampled across the decades after its discovery can be used reliably to infer the timing of events that occurred during the prediscovery era. We note that in addition to evolutionary model specifications, the inherent stochasticity associated with a sample of the true viral diversity in nature inevitably introduces uncertainty to phylogenetic dating estimates, which is addressable by purposely subsampling datasets.


Köszönetnyilvánítás

We thank R. Schlapbach and L. Poveda from Zürich Functional Genomics Center (ZFGC) for sequencing support B. Maier and members from ScopeM for electron microscopy support S. Nath from the Joint Genome Institute (JGI) for DNA synthesis and sequencing support F. Rudolf for assistance with yeast marker design H. Christen for conception of computational algorithms and Samuel I. Miller, Markus Aebi, and Uwe Sauer for critical comments. This work received institutional support from Community Science Program (CSP) DNA Synthesis Award Grants JGI CSP-1593 (to M.C. and B.C.) and CSP-2840 (to M.C. and B.C.) from the US Department of Energy Joint Genome Institute, Swiss Federal Institute of Technology (ETH) Zürich ETH Research Grant ETH-08 16-1 (to B.C.), and Swiss National Science Foundation Grant 31003A_166476 (to B.C.). The work conducted by the US Department of Energy Joint Genome Institute, a Department of Energy Office of Science User Facility, is supported by Office of Science of the US Department of Energy Contract DE-AC02-05CH11231.


Etikai nyilatkozatok

Versengő érdekek

Gad Getz receives research funds from IBM and Pharmacyclics and is an inventor on patent applications related to MuTect, ABSOLUTE, MutSig, MSMuTect, MSMutSig and POLYSOLVER. Hikmat Al-Ahmadie is consultant for AstraZeneca and Bristol-Myers Squibb. Samuel Aparicio is a founder and shareholder of Contextual Genomics. Pratiti Bandopadhayay receives grant funding from Novartis for an unrelated project. Rameen Beroukhim owns equity in Ampressa Therapeutics. Andrew Biankin receives grant funding from Celgene, AstraZeneca and is a consultant for or on advisory boards of AstraZeneca, Celgene, Elstar Therapeutics, Clovis Oncology and Roche. Ewan Birney is a consultant for Oxford Nanopore, Dovetail and GSK. Marcus Bosenberg is a consultant for Eli Lilly. Atul Butte is a cofounder of and consultant for Personalis, NuMedii, a consultant for Samsung, Geisinger Health, Mango Tree Corporation, Regenstrief Institute and in the recent past a consultant for 10x Genomics and Helix, a shareholder in Personalis, a minor shareholder in Apple, Twitter, Facebook, Google, Microsoft, Sarepta, 10x Genomics, Amazon, Biogen, CVS, Illumina, Snap and Sutro and has received honoraria and travel reimbursement for invited talks from Genentech, Roche, Pfizer, Optum, AbbVie and many academic institutions and health systems. Carlos Caldas has served on the Scientific Advisory Board of Illumina. Lorraine Chantrill acted on an advisory board for AMGEN Australia in the past 2 years. Andrew D. Cherniack receives research funding from Bayer. Helen Davies is an inventor on a number of patent applications that encompass the use of mutational signatures. Francisco De La Vega was employed at Annai Systems during part of the project. Ronny Drapkin serves on the scientific advisory board of Repare Therapeutics and Siamab Therapeutics. Rosalind Eeles has received an honorarium for the GU-ASCO meeting in San Francisco in January 2016 as a speaker, a honorarium and support from Janssen for the RMH FR meeting in November 2017 as a speaker (title: genetics and prostate cancer), a honorarium for an University of Chicago invited talk in May 2018 as speaker and an educational honorarium paid by Bayer & Ipsen to attend GU Connect ‘Treatment sequencing for mCRPC patients within the changing landscape of mHSPC’ at a venue at ESMO, Barcelona, on 28 September 2019. Paul Flicek is a member of the scientific advisory boards of Fabric Genomics and Eagle Genomics. Ronald Ghossein is a consultant for Veracyte. Dominik Glodzik is an inventor on a number of patent applications that encompass the use of mutational signatures. Eoghan Harrington is a full-time employee of Oxford Nanopore Technologies and is a stock holder. Yann Joly is responsible for the Data Access Compliance Office (DACO) of ICGC 2009-2018. Sissel Juul is a full-time employee of Oxford Nanopore Technologies and is a stock holder. Vincent Khoo has received personal fees and non-financial support from Accuray, Astellas, Bayer, Boston Scientific and Janssen. Stian Knappskog is a coprincipal investigator on a clinical trial that receives research funding from AstraZeneca and Pfizer. Ignaty Leshchiner is a consultant for PACT Pharma. Carlos López-Otín has ownership interest (including stock and patents) in DREAMgenics. Matthew Meyerson is a scientific advisory board chair of, and consultant for, OrigiMed, has obtained research funding from Bayer and Ono Pharma and receives patent royalties from LabCorp. Serena Nik-Zainal is an inventor on a number of patent applications that encompass the use of mutational signatures. Nathan Pennell has done consulting work with Merck, Astrazeneca, Eli Lilly and Bristol-Myers Squibb. Xose S. Puente has ownership interest (including stock and patents in DREAMgenics. Benjamin J. Raphael is a consultant for and has ownership interest (including stock and patents) in Medley Genomics. Jorge Reis-Filho is a consultant for Goldman Sachs and REPARE Therapeutics, member of the scientific advisory board of Volition RX and Paige.AI and an ad hoc member of the scientific advisory board of Ventana Medical Systems, Roche Tissue Diagnostics, InVicro, Roche, Genentech and Novartis. Lewis R. Roberts has received grant support from ARIAD Pharmaceuticals, Bayer, BTG International, Exact Sciences, Gilead Sciences, Glycotest, RedHill Biopharma, Target PharmaSolutions and Wako Diagnostics and has provided advisory services to Bayer, Exact Sciences, Gilead Sciences, GRAIL, QED Therapeutics and TAVEC Pharmaceuticals. Richard A. Scolyer has received fees for professional services from Merck Sharp & Dohme, GlaxoSmithKline Australia, Bristol-Myers Squibb, Dermpedia, Novartis Pharmaceuticals Australia, Myriad, NeraCare GmbH and Amgen. Tal Shmaya is employed at Annai Systems. Reiner Siebert has received speaker honoraria from Roche and AstraZeneca. Sabina Signoretti is a consultant for Bristol-Myers Squibb, AstraZeneca, Merck, AACR and NCI and has received funding from Bristol-Myers Squibb, AstraZeneca, Exelixis and royalties from Biogenex. Jared Simpson has received research funding and travel support from Oxford Nanopore Technologies. Anil K. Sood is a consultant for Merck and Kiyatec, has received research funding from M-Trap and is a shareholder in BioPath. Simon Tavaré is on the scientific advisory board of Ipsen and a consultant for Kallyope. John F. Thompson has received honoraria and travel support for attending advisory board meetings of GlaxoSmithKline and Provectus and has received honoraria for participation in advisory boards for MSD Australia and BMS Australia. Daniel Turner is a full-time employee of Oxford Nanopore Technologies and is a stock holder. Naveen Vasudev has received speaker honoraria and/or consultancy fees from Bristol-Myers Squibb, Pfizer, EUSA pharma, MSD and Novartis. Jeremiah A. Wala is a consultant for Nference. Daniel J. Weisenberger is a consultant for Zymo Research. Dai-Ying Wu is employed at Annai Systems. Cheng-Zhong Zhang is a cofounder and equity holder of Pillar Biosciences, a for-profit company that specializes in the development of targeted sequencing assays. The other authors declare no competing interests.


Nézd meg a videót: Mik az atomok és hogyan működnek? (Október 2022).