Platforma pro analýzu biologických sekvencí s využitím strojového učení

Loading...
Thumbnail Image
Date
ORCID
Mark
A
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Strojové učenie má veľa aktívnych odvetví a jedným z nich je charakterizácia proteínov, pretože experimentálne získavanie charakteristík je drahé a časovo náročné, a taktiež preto, že každoročne sú publikované mnohé sady údajov vhodné na trénovanie takýchto prediktorov. Jedna z nedávno vyvinutých metód, nazývaná innov'SAR, ktorá bola použitá už v niekoľkých aplikáciách proteínového inžinierstva, kombinuje Fourierovu transformáciu z čiastočnou lineárnou regresiou. Avšak, jej implementácia nie je voľne dostupná a samotná metóda nebola štatisticky overená. Cieľom tejto práce je adresovať tieto nedostatky, implementovať túto metódu v jazyku Python, rozšíriť ju a zahrnúť do ľahko použiteľnej platformy, ktorá umožní trénovanie a testovanie modelov. Taktiež bolo vykonané testovanie štatistickej významnosti za účelom overenia dopadu nájdených závislostí medzi sekvenciami a vlastnosťami proteínov. Metóda sa osvedčila ako štatisticky významná so silnými závislosťami nájdenými medzi vstupmi a výstupmi. Novo zozbierané dátové sady haloalkán dehalogenáz sa použili na vytvorenie modelov s validačným skóre Q2 = 0.54 a Q2 = 0.77, čo je takmer dvojnásobné zlepšenie oproti základným modelom. Tieto modely majú potenciál na filtrovanie väčších databáz sekvencií a vyhľadávanie proteínov s potenciálne lepšími vlastnosťami.
Machine learning has many active areas and one of them is protein characterisation since experimental annotation is usually costly and time-consuming, and many datasets suitable for training predictors are currently being published. One of the recent methods, called innov'SAR, combines the Fourier transform with partial linear regression and has been used in several protein engineering applications. However, the code for the method is not freely available and the method itself was not statistically verified. The goal of this thesis is to address these limitations, implement and extend the method using Python language in an easy-to-use platform that allows training and testing of the models. The extensions include parallelization, Spearman scoring function and aligned sequence input. The statistical significance testing is also performed to verify the impact of the found dependencies between input sequences and properties of the proteins. The method proved to be statistically significant with strong dependencies found between inputs and outputs. Two newly collected halalkane dehalogenase datasets were used to train models and they have cross validation scores of Q2 = 0.54 and Q2 = 0.77 with almost double the improvement over the baseline models. Created models allow filtering of large sequence databases and scanning for potential improvements in the protein properties.
Description
Citation
LACKO, D. Platforma pro analýzu biologických sekvencí s využitím strojového učení [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.
Document type
Document version
Date of access to the full text
Language of document
en
Study field
Informační technologie
Comittee
prof. Ing. Lukáš Sekanina, Ph.D. (předseda) doc. Ing. Jiří Jaroš, Ph.D. (místopředseda) Ing. Michal Hradiš, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Ondřej Lengál, Ph.D. (člen)
Date of acceptance
2022-06-14
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A. Otázky u obhajoby: Jsou v uloženém modelu uchovány i vybrané vlastnosti z databáze AAindex, které byly při trénování modelu vyhodnoceny jako nejvhodnější?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO