MIŠČÍK, P. Odhad entropie a komprese biologických sekvencí [online]. Brno: Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií. 2013.

Posudky

Posudek vedoucího

Škutková, Helena

Student Peter Miščík se ve své práci zaměřil na bezeztrátové techniky komprese DNA sekvece. Nejprve provedl literární rešerši o zápisu a obsahu DNA sekvence. Tato část je vzhledem na předchozí vzdělání studenta na přiměřené úrovni, přesto by zde byl vhodný podrobnější rozbor repetitivního charakteru a výrazné redundance v obsahu DNA sekvence. Následuje část odhadu entropie DNA sekvence. Tato část je poněkud nejasná, je těžké pochopit princip, jakým student entropii odhaduje a zejména jak získané výsledky souvisí s obsahem vybraných sekvencí a následnou kompresí těchto sekvencí. Přesto samotná část komprese je na velmi dobré úrovni, student přehledně představuje soudobé komerční kompresní algoritmy, na jejich základě navrhuje svůj vlastní algoritmus, který testuje a srovnává s ostatními. Princip algoritmu je názorně vysvětlen a výsledný kompresní poměr je jen mírně horší ve srovnání s mnohem komplikovanějšími profesionálními algoritmy. Po formální stránce je práce na dobré úrovni. Celkově hodnotím práci 80 body a stupněm B.

Navrhovaná známka
B
Body
80

Posudek oponenta

Kozumplík, Jiří

Autor měl prostudovat problematiku odhadu entropie a navrhnout a realizovat algoritmus komprese a zpětné dekomprese dat biologických sekvencí. V úvodní kompilační části autor popisuje základy molekulární biologie a pojednává o biologických sekvencích včetně formátů používaných k jejich popisu. Popisu pojmu entropie a podmíněná entropie se věnuje v kap.3 (str.13). V kap.3.2 (str.15) popisuje velmi stručně 9 algoritmů pro kompresi sekvencí DNA s příslušnými odkazy na literaturu, uvádí také dosažené průměrné délky slov v bitech na jednu bázi (bpb) některých řetězců DNA z veřejné databáze. Vzhledem k tomu, že báze jsou čtyři a tyto průměrné délky vycházejí po kompresi kolem hodnoty 1,7 bpb z výchozích 2 bpb je jasné, že účinná komprese sekvencí DNA není jednoduchou úlohou. Kolem pojmu entropie se v práci vyskytují některé nejasnosti. Jednou z nich je vlastnost č.2 po definičním vztahu (3.1) na str.13 kde není jasné, co označuje symbol N. Vlastní řešení začíná na str.22 analýzou entropie. Zde nejasnosti kolem pojmu entropie pokračují: Co vyjadřují grafy závislosti entropie na délkách sekvence na obr.4.2 až 4.5? S uvedenými grafy nekorespondují tabulky 4.1 a 4.2, na které není v textu ani odkaz. Jasný není ani obr.4.6 na str.25, který je rovněž bez odkazu, ale asi navazuje na vztah (4.1), podle kterého maximální entropie odpovídá logaritmu z délky sekvence, což vzbuzuje pochybnosti. Nabízí se otázka, jestli je autorovi jasné, co entropie vlastně vyjadřuje. V poslední části autor popisuje navržené algoritmy komprese. V první z nich nazvaným GenCompress se jedná o proudové kódování osmibitových sekvencí (slov ze čtyř dvoubitových bází), které ke kompresi nevede, což se dalo očekávat. Tuto skutečnost potvrzuje tab.4.3 na str.28. Na str.29 začíná popis složitějšího algoritmu kompresDNA inspirovaného exitujícím algoritmem GenCompress (viz str.18). Algoritmus je založen na vyhledávání opakujících se sekvencí. Účinnost metody, kterou autor navrhl a realizoval je sice nižší o 0,1 až 0,2 bpb ve srovnání s dosud publikovanými metodami zkušených autorů, nicméně u všech testovaných sekvencí vede k průměrné délce slova pod 2 bpb, což lze považovat za úspěch. Na rozdíl od analýzy entropie tuto část práce hodnotím jako velmi dobrou. Po formální stránce mám výhrady k seznamu použité literatury, kde není použit jednotný formát, dalším nedostatkem jsou chybějící odkazy na některé obrázky a tabulky.

Navrhovaná známka
D
Body
65

Otázky

eVSKP id 65871