Posudky závěrečné kvalifikační práce

Posudek vedoucího

Musilová, Jana

Petr Pirkl se ve své práci zabýval navrhováním genových regulačních sítí. V teoretické části se zaměřil na popis genové exprese, jejího měření a bioinformatického zpracování dat. Oceňuji detailní nastudování a popsání RNA-Seq dat, včetně kroků předzpracování, které nebyly součástí zadání. V praktické části se student věnoval zpracování RNA-Seq dat, navržení algoritmu pro vytvoření genové regulační sítě z těchto dat a jeho testování. Pro testování využil jednak data genové exprese klostridie a nad rámec zadání také data z DREAM4 challenge. Zde bych ocenila podrobnější zhodnocení výstupu pro zadaná data. Srovnáním s dostupnými algoritmy sice studentova práce dosahuje horších výsledků, nicméně tyto algoritmy jsou méně komplexní - nepredikují typ interakce a nejsou schopny zpracovat data genové exprese v časových řadách, ale pouze v jednom čase. Srovnáním s algoritmy pro zpracování RNA-Seq dat či vyhodnocujících i typ interakce by tedy bylo informativnější. Kapitoly jsou vhodně členěné, jejich obsah je srozumitelný a čtivý. Práci s literaturou také hodnotím velmi kladně, student využíval především zahraniční literární zdroje, zejména články v odborných časopisech. Své výsledky student průběžně konzultoval a podněty vždy zapracoval. Pracoval samostatně a iniciativně, časově si jednotlivé úkoly vhodně rozvrhnul. Rozsáhlou problematiku detailně nastudoval a popsal. Všechny kroky zadání hodnotím jako splněné. I přes zmíněné nedostatky práci považuji za zdařilou a navrhuji hodnocení C/75 bodů.

Navrhovaná známka: C

Body: 75

Posudek oponenta

Sedlář, Karel

Student Petr Pirkl se ve své práci zabývá návrhem a realizací výpočetního nástroje pro odvozování genových regulačních sítí. Top-down přístupy pro návrhy genových regulačních sítí jsou horkým tématem systémové biologie, téma práce je tedy vysoce aktuální. V teoretické části práce student pojednává o genové expresi a laboratorních technikách pro její měření, metodách pro předzpracování vstupních dat a také obecně o metodách pro odvození genových regulačních sítí. Bohužel práce obsahuje poměrně velké množství zavádějících informací, namátkou např. že translací vznikají některé typy RNA, že RNA-Seq patří mezi next generation sequencing metody nebo že se dá využít k de novo sestavení genomů a že anaerobní bakterie je tedy tolerantní na přítomnost kyslíku. Příčinou může být špatná práce s literaturou, kdy jsou zpravidla referencovány celé odstavce jedním zdrojem. Klíčové pojmy, výpočetní nástroje či databáze referencovány nejsou, byť je to ve výpočetní biologii standardem. Seznam literatury je nejednotný, někdy obsahuje celá jména, jindy pouze první písmena křestních jmen. V rámci praktické části student navrhl a realizoval velmi zajímavý původní nástroj. Ten sice ve srovnání s dostupnými nástroji dosahuje horších parametrů, ale zase přidává informaci o typu interakce mezi geny, což je zásadní informace. Nástroj má tedy potenciál pro dílčí využívání a zadání práce považuji za splněné. Bohužel ani praktická část není po formální stránce zpracována ideálně, vzorce nejsou podrobně vysvětlené, ani zcela zásadní rovnice 6.2, kde se uvedený základ logaritmu neshoduje s kódem přiloženým k práci ani se základem v uvedené referenci (log v anglickém textu má základ Eulerovo číslo, ale v českém textu základ 10). Práce obsahuje i další nepřesnosti, třeba že sekvence genomu byla stažena z databází GenBank a NCBI, což je nemožné, protože NCBI je instituce spravující databázi GenBank. Byť je celá práce logicky členěna, orientace v textu je znesnadněna tím, že velká část tabulek a obrázků není v textu odkazována nebo také nevhodným používáním anglických výrazů, které jsou navíc skloňované. Proto se prací prolíná velké množství zavádějících informací, např. že hodnoty jsou uloženy v listu, přičemž listem je myšlen seznam. Teorie grafů obsahuje velké množství v češtině ustálených pojmů, proto není vhodné o matici sousednosti psát v českém textu jako o adjacency matrix apod. Přes uvedené výtky musím konstatovat, že práce obsahuje zajímavé původní výsledky, navržený algoritmus působí logicky, dokonce využívá změnu datových struktur tak, aby matematické operace nad nimi vykonávané byly co nejefektivnější. Práci tedy doporučuji k obhajobě a hodnotím stupněm D.

Navrhovaná známka: D

Body: 65

Otázky

V práci se často skloňuje slovní spojení „počet boostrapů“. Toto spojení nedává smysl, můžete jej vysvětlit?
V tabulce 6.2 nejsou uvedené žádné jednotky vypočtených hodnot. Mají tyto hodnoty nějakou jednotku?