Platforma pro analýzu biologických sekvencí s využitím strojového učení

but.committeeprof. Ing. Lukáš Sekanina, Ph.D. (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) Ing. Michal Hradiš, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Ondřej Lengál, Ph.D. (člen)cs
but.defenceStudent nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Jsou v uloženém modelu uchovány i vybrané vlastnosti z databáze AAindex, které byly při trénování modelu vyhodnoceny jako nejvhodnější?cs
but.jazykangličtina (English)
but.programInformační technologiecs
but.resultpráce byla úspěšně obhájenacs
dc.contributor.advisorMartínek, Tomášen
dc.contributor.authorLacko, Dáviden
dc.contributor.refereeBurgetová, Ivanaen
dc.date.accessioned2022-06-21T07:57:04Z
dc.date.available2022-06-21T07:57:04Z
dc.date.created2022cs
dc.description.abstractStrojové učenie má veľa aktívnych odvetví a jedným z nich je charakterizácia proteínov, pretože experimentálne získavanie charakteristík je drahé a časovo náročné, a taktiež preto, že každoročne sú publikované mnohé sady údajov vhodné na trénovanie takýchto prediktorov. Jedna z nedávno vyvinutých metód, nazývaná innov'SAR, ktorá bola použitá už v niekoľkých aplikáciách proteínového inžinierstva, kombinuje Fourierovu transformáciu z čiastočnou lineárnou regresiou. Avšak, jej implementácia nie je voľne dostupná a samotná metóda nebola štatisticky overená. Cieľom tejto práce je adresovať tieto nedostatky, implementovať túto metódu v jazyku Python, rozšíriť ju a zahrnúť do ľahko použiteľnej platformy, ktorá umožní trénovanie a testovanie modelov. Taktiež bolo vykonané testovanie štatistickej významnosti za účelom overenia dopadu nájdených závislostí medzi sekvenciami a vlastnosťami proteínov. Metóda sa osvedčila ako štatisticky významná so silnými závislosťami nájdenými medzi vstupmi a výstupmi. Novo zozbierané dátové sady haloalkán dehalogenáz sa použili na vytvorenie modelov s validačným skóre Q2 = 0.54 a Q2 = 0.77, čo je takmer dvojnásobné zlepšenie oproti základným modelom. Tieto modely majú potenciál na filtrovanie väčších databáz sekvencií a vyhľadávanie proteínov s potenciálne lepšími vlastnosťami.en
dc.description.abstractMachine learning has many active areas and one of them is protein characterisation since experimental annotation is usually costly and time-consuming, and many datasets suitable for training predictors are currently being published. One of the recent methods, called innov'SAR, combines the Fourier transform with partial linear regression and has been used in several protein engineering applications. However, the code for the method is not freely available and the method itself was not statistically verified. The goal of this thesis is to address these limitations, implement and extend the method using Python language in an easy-to-use platform that allows training and testing of the models. The extensions include parallelization, Spearman scoring function and aligned sequence input. The statistical significance testing is also performed to verify the impact of the found dependencies between input sequences and properties of the proteins. The method proved to be statistically significant with strong dependencies found between inputs and outputs. Two newly collected halalkane dehalogenase datasets were used to train models and they have cross validation scores of Q2 = 0.54 and Q2 = 0.77 with almost double the improvement over the baseline models. Created models allow filtering of large sequence databases and scanning for potential improvements in the protein properties.cs
dc.description.markAcs
dc.identifier.citationLACKO, D. Platforma pro analýzu biologických sekvencí s využitím strojového učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.cs
dc.identifier.other145276cs
dc.identifier.urihttp://hdl.handle.net/11012/207396
dc.language.isoencs
dc.publisherVysoké učení technické v Brně. Fakulta informačních technologiícs
dc.rightsStandardní licenční smlouva - přístup k plnému textu bez omezenícs
dc.subjectstrojové učenieen
dc.subjectproteínové inžinierstvoen
dc.subjectbioinformatikaen
dc.subjectPLSen
dc.subjecthaloalkán dehalogenázyen
dc.subjectmachine learningcs
dc.subjectprotein engineeringcs
dc.subjectbioinformaticscs
dc.subjectPLScs
dc.subjecthaloalkane dehalogenasescs
dc.titlePlatforma pro analýzu biologických sekvencí s využitím strojového učeníen
dc.title.alternativePlatform for Biological Sequence Analysis Using Machine Learningcs
dc.typeTextcs
dc.type.driverbachelorThesisen
dc.type.evskpbakalářská prácecs
dcterms.dateAccepted2022-06-14cs
dcterms.modified2022-06-20-10:23:14cs
eprints.affiliatedInstitution.facultyFakulta informačních technologiícs
sync.item.dbid145276en
sync.item.dbtypeZPen
sync.item.insts2022.06.21 09:57:04en
sync.item.modts2022.06.21 08:14:45en
thesis.disciplineInformační technologiecs
thesis.grantorVysoké učení technické v Brně. Fakulta informačních technologií. Ústav počítačových systémůcs
thesis.levelBakalářskýcs
thesis.nameBc.cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
final-thesis.pdf
Size:
2.11 MB
Format:
Adobe Portable Document Format
Description:
final-thesis.pdf
Loading...
Thumbnail Image
Name:
Posudek-Vedouci prace-25037_v.pdf
Size:
86.18 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Vedouci prace-25037_v.pdf
Loading...
Thumbnail Image
Name:
Posudek-Oponent prace-25037_o.pdf
Size:
87.98 KB
Format:
Adobe Portable Document Format
Description:
Posudek-Oponent prace-25037_o.pdf
Loading...
Thumbnail Image
Name:
review_145276.html
Size:
1.48 KB
Format:
Hypertext Markup Language
Description:
review_145276.html
Collections