Posudky závěrečné kvalifikační práce

Posudek vedoucího

Musilová, Jana

Studentka se věnovala tématu vyhledávání transkripčních motivů. V teoretické části obsáhla všechna témata související se zadáním, jejich popis je ovšem povrchní. Důvodem je nejspíše nedostatečné prostudování či pochopení problematiky, zejména vzájemné informace a nástrojů, které na základě jejího výpočtu odhalují motivy. Nastudování a popsání transkripčních motivů a databází, kde jsou uloženy, mohlo být také detailnější. V praktické části se studentka zaměřila na vytvoření datasetu, algoritmu a na testování. Popis by mohl být opět detailnější. Postrádám zdůvodnění hledání motivů na základě výpočtu vzájemné informace mezi k-mery vytvořenými ze sekvencí, volby prahů a optimalizace formou zobecnění motivů. Např. prahy byly zvoleny pouze vydělením maximální hodnoty získané z jediného datasetu. I když z inovativních řešení mohou vznikat přelomové objevy, je nutné je stavět na platných základech. Navržené postupy toto nesplňují, stejně tak chybí zdůvodnění odklonu od běžně využívaných postupů. Zhodnocení algoritmu a jeho srovnání s dostupnými nástroji je matoucí a nelze z něj vyvodit skutečné klady a zápory. Předpokládám, že je to opět způsobeno nedostatečným nastudováním tématu. Samotný algoritmus je odevzdán ve dvou verzích. Verze 1 při spuštění končí chybou (vkládání hodnot do neexistující proměnné lines, řádek 185). Verze 2 obsahuje špatný název vstupního souboru, po jeho přepsání je funkční. Nicméně zapsání názvu vstupních dat by bylo vhodnější vyžadovat přímo po uživateli (podobně jako délku k-merů a motivů), než ho napevno zapsat na konec kódu. Postrádám dokumentaci, či alespoň krátký návod k používání programu. Po formální stránce je práce na dobré úrovni, je opřena o kvalitní literární zdroje. Nevyskytují se v ní překlepy či gramatické chyby. Ovšem názvy souborů v přílohách jsou jiné, než názvy odkazující na tyto soubory v práci. Studentka pravidelně konzultovala, některé podněty se snažila do práce zapracovat, ale samostatné návrhy k řešení téměř nepřinášela. Přes uvedené výhrady jednotlivé body zadání považuji za hraničně splněné. Navrhuji hodnocení D / 60 bodů.

Navrhovaná známka: D

Body: 60

Posudek oponenta

Jurečková, Kateřina

Studentka Klára Helešická vypracovala bakalářskou práci na téma vyhledávání transkripčních motivů u nemodelových organismů. V rámci literární rešerše jsou popsány metody vyhledávání transkripčních motivů pomocí různých přístupů a databáze transkripčních motivů. Rešerše je místy povrchní a zejména část věnující se vyhledávání transkripčních motivů pomocí vzájemné informace by měla být podrobnější i vzhledem k praktické části, která se na ní zakládá. Studentka v práci cituje celkem 28 literárních zdrojů, ty ovšem nejsou číslovány podle výskytu, většinou jsou citovány celé odstavce nebo některé odstavce nejsou citovány vůbec. V praktické části práce pak studentka vytvořila dataset transkripčních motivů pro petržel zahradní. Popis tvorby datasetu je nedostatečný a matoucí. Dále je zde popsán algoritmus, který studentka v rámci své práce vytvořila. Volba přístupu řešení, zde není zdůvodněna a pravděpodobně vychází z algoritmu MIA, který ovšem není citovaný a není dohledatelný. Samotný algoritmus je k práci přiložen ve dvou verzích, přičemž ani jedna verze není funkční. Jednotlivé funkce nejsou z kódu řádně zdokumentovány a vstupně-výstupní rozhraní většinou ani neodpovídá popisu funkcí v práci samotné. Algoritmus také neukládá žádné výstupy do souboru a uživatel je pouze odkázán na průběžné nic neříkající výpisy proměnných v příkazové řádce. V algoritmu je také na pevno nastaven práh filtrace výsledků podle hodnoty vzájemné informace, ale ten vychází pouze z použitého datasetu. Dále studentka v algoritmu optimalizuje získané výsledky, ale proces optimalizace není dostatečně vysvětlen a není mi jasné, jak lze z výstupů algoritmu optimalizované výsledky získat. V poslední části práce studentka vyhodnocuje výsledky vlastního algoritmu a porovnává je s algoritmy MEME a FIRE. Jelikož algoritmus FIRE na vstupu vyžaduje soubor s genovou expresí, studentka pro testování používá dataset pro rajče jedlé, avšak zdůvodnění jeho použití je značně matoucí a nelze ho ověřit, protože není součástí příloh práce a odkaz na konkrétní článek nebo položku databáze chybí. Všechny algoritmy na závěr porovnává na základě z-skóre. Volba tohoto parametru pro srovnání výsledků není zdůvodněna, vzorec pro výpočet z-skóre chybí a také není v práci uvedeno, z jakých hodnot je počítáno. Po formální stránce je práce na podprůměrné úrovni. Na žádný obrázek nebo tabulku není v textu odkazováno. Tabulky jsou také špatně naformátované nebo jim chybí popis (tabulky na straně 28 až 30). V textu je také odkazováno na soubor, který není součástí přílohy. V práci chybí seznam tabulek a zkratek, některé zkratky nejsou v textu vysvětleny. Práce se také neobchází bez gramatických chyb a překlepů. Vzhledem k uvedeným skutečnostem pak práce celkově působí nelogicky a nepromyšleně, nicméně splňuje všechny body zadání. Práci doporučuji k obhajobě a hodnotím práci stupněm E (58 bodů).

Navrhovaná známka: E

Body: 58

Otázky

Bylo by možné vylepšit predikci motivů využitím všech sekvencí v datasetu současně?
Jak byla provedena analýza časové náročnosti všech algoritmů?
Jak bylo vypočítáno z-skóre v tabulce 4.6?