Posudky závěrečné kvalifikační práce

Posudek vedoucího

Jurečková, Kateřina

Předložená bakalářská práce se zabývá identifikací nekódující RNA u Clostridium beijerinckii NRRL B-598. V teoretické části byla provedena literární rešerše na téma nekódující RNA u bakterií a laboratorních metod pro stanovení genové exprese. V praktické části jsou popsána dostupná data na základě, kterých byl následně navržen postup pro identifikaci nekódující RNA u C. beijerinckii. Navržený postup detekce se zaměřuje na identifikaci cis-antisense sRNA pomocí dostupných RNA-Seq dat. Navržený postup je komplexní, propracovaný a zahrnuje mnoho kritérií pro správný výběr kandidátních úseků sRNA. Studentka během implementace algoritmu narážela na řadu problémů, zejména s výpočetní náročností. Optimalizace celého postupu pak byla bohužel provedena na úkor zpracování samotné bakalářské práce, které se věnovala až v závěru semestru v časovém presu. Srozumitelnost a čtivost celé práce snižují nevhodné slovní formulace, dlouhá souvětí nebo nedostatečné vysvětlení některých pojmů a kroků algoritmu. Získané výsledky jsou ovšem slibné a původní. Práce splňuje všechny body zadání. Studentka pravidelně konzultovala postup své práce a k práci přistupovala samostatně a aktivně. Práci doporučuji k obhajobě a hodnotím stupněm B /80 bodů.

Navrhovaná známka: B

Body: 80

Posudek oponenta

Sedlář, Karel

Studentka Barbora Pomykalová se ve své práci zabývá identifikací nekódující RNA u bakterie Clostridium beijerinckii NRRL B-598. Regulace transkripce malými RNA (sRNA) může hrát u bakterií důležitou roli, přitom se jedná o problematiku velmi málo prostudovanou. Téma práce je tedy velmi aktuální. V teoretické části práce studentka pojednává o bakteriích, DNA, RNA, konkrétním kmenu bakterie, který zkoumá, nekódujících RNA a laboratorních technikách pro stanovení genové exprese. Rešerše je podle mě v některých ohledech až zbytečně dlouhá, místy naopak nevhodně povrchní a především celý text působí velmi zmateným dojmem. Například v práci nejsou dobře vysvětleny rozdíly mezi trans a cis kódovanými sRNA, což je pro praktickou část práce, která se zabývá právě jejich detekcí, zcela zásadní chyba. Zmatená slovní spojení se vyskytují napříč celou prací, např „o bakteriích nekódujících RNA“, „části, které nenesou informace o proteinech“, „Sonda je nadále označena buď radioaktivními izotopy (32P), nebo chemiluminiscencí.“, „Bohužel díky neznalosti žádných sRNA“ apod. Například složitě formulovanou větou: „Touto eliminací zůstanou pouze ta čtení, jež jsou v daném směru komplementární s CDS v opačném směru.“ se asi autorka snaží sdělit, že jsou zachována pouze reverzně komplementární čtení k danému CDS. V mnoha větách je spousta textu v závorkách, což výrazně znesnadňuje pochopení vět, občas jsou uvedeny pouze 3 tečky a čtenář si má informaci pravděpodobně domyslet sám. V práci zcela chybí jakákoliv informace o vláknově specifickém RNA-Seq, na kterém je ovšem evidentně postavená celá koncepce praktické části. Na vině je určitě i špatná práce s literaturou, kdy jsou celé kapitoly zpracovány zpravidla s využitím jediného zdroje, který je vztažený vždy k několika odstavcům. Mezi referencemi jsou například i odkazy na proteiny do databáze UNIPROT, což je velmi nestandardní. V praktické části práce studentka navrhla a realizovala algoritmus na vyhledávání pravděpodobně trans kódovaných sRNA. Bohužel to není úplně dobře vysvětleno. Rozhodně však musím podotknout, že identifikace takových sRNA není triviální a navržený postup se mi líbí, byť kvůli svéráznému popisu jej nebylo jednoduché pochopit. Výstupem algoritmu by kromě FASTA souboru s nalezenými sRNA měla být spíš jejich anotace v analyzovaném genomu. V rámci diskuse o pravosti detekovaných sRNA se studentka snažila tyto porovnat se známými sekvencemi z Rfam. Že nebyla nalezena shoda, není překvapením, protože pokud by tyto sRNA byly známé, byly by přímo anotované v analyzovaném genomu, jehož anotace byla sestavena nástrojem PGAP, který přímo využívá porovnání se známými sRNA v Rfam. Diskuse je tedy vedena chybně. To je ovšem pro autorku spíše pozitivní neboť si nemyslím, že jak autorka tvrdí, je potřeba nalezené úseky dále zkoumat, ale opravdu prokazatelně nalezla nové, dosud nepopsané sRNA. Po formální stránce je práce bohužel podprůměrná. Kromě již výše zmíněných chyb je navíc kvalita některých obrázků nízká, některé nejsou přeloženy do češtiny nebo obrázek 2.1 není referencován, byť se asi jedná o převzatý obrázek. Obrázky 5.1 a 5.2 jsou printscreeny webové stránky a jsou zcela zbytečné, například místo obrázku 5.1 mohla autorka sestavit vlastní tabulku popisující vzorky, které použila pro analýzu. Přes množství chyb, z nichž jsem zmínil pouze některé, musím konstatovat, že zadání práce bylo splněno a práce dokonce obsahuje hodnotné původní výsledky, byť jsou pro nedokonalý popis poměrně skryté. Práci tedy určitě doporučuji k obhajobě.

Navrhovaná známka: D

Body: 63

Otázky

V práci tvrdíte, že velikost BAM souboru je do 128 MB. Čím máte toto tvrzení podloženo? Zcela určitě to totiž není pravda.
Váš algoritmus filtruje úseky s pokrytím nižším než 5. Přitom tvrdíte, že tato hodnota byla nastavena deterministicky. Co je myšleno tím, že se nějaká hodnota nastaví deterministicky?
V tabulkách 6.3 a dále se mezi jednotlivými vzorky liší startovací a konečná pozice detekovaných sRNA, jak je toto možné? sRNA je element genomu jehož pozice by se mezi vzorky lišit neměla.
V práci tvrdíte: „Dá se tedy uvažovat, že hledaná sRNA je pouze v úseku odpovídající B2 a D6.“ sRNA je oblast genomu a B2 a D6 jsou vzorky, můžete tuto větu vysvětlit?