• čeština
    • English
  • English 
    • čeština
    • English
  • Login
View Item 
  •   Repository Home
  • Závěrečné práce
  • bakalářské práce
  • Fakulta informačních technologií
  • 2009
  • View Item
  •   Repository Home
  • Závěrečné práce
  • bakalářské práce
  • Fakulta informačních technologií
  • 2009
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Vyhledávání nejčastějších n-tic slov

The Most Frequent Word n-Grams

Thumbnail
View/Open
final-thesis.pdf (706.0Kb)
review_25621.html (1.430Kb)
Author
Holec, Matúš
Advisor
Smrž, Pavel
Referee
Szőke, Igor
Grade
B
Alternative metrics PlumX
http://hdl.handle.net/11012/54698
Altmetrics
http://hdl.handle.net/11012/54698
http://hdl.handle.net/11012/54698
Metadata
Show full item record
Abstract
Tato práce se zabývá návrhem a implementací efektivního systému vyhledávání n-tic slov v textu. Systém je založen na principu dávkového zpracování, což umožňuje zpracování rozsáhlých textů. V první části práce jsou shrnuty principy stávajících metod sloužících pro extrakci n-gramů. V další části je popsán implementovaný systém a následně i jeho urychlení pomocí paralelizace dávkového zpracování. V závěru je uvedeno srovnání výkonnosti dostupných implementací s navrženým systémem, jakož i porovnání časové náročnosti sekvenčního přístupu s paralelním.
 
This thesis deals with design and implementation of effective system for word n-grams extraction from texts. System is based on batch processing therefore it is able to process large text corpuses. The first part contains principles of existing methods for an n-gram extraction. The next part includes description of the implemented system as well as the approach of acceleration system by paralelizing the batch processing. The last part contains efficiency comparison between available implementations and designed system and time complexity comparison between sequential and paralelized approach.
 
Keywords
zpracování přirozeného jazyka, extrakce n-gramů, dávkové zpracování, rozsáhlé textové korpusy, natural language processing, n-gram extraction, batch processing, text corpuses of large size
Language
čeština (Czech)
Study brunch
Informační technologie
Composition of Committee
Date of defence
2009-06-16
Process of defence
Result of the defence
práce byla úspěšně obhájena
Persistent identifier
http://hdl.handle.net/11012/54698
Source
HOLEC, M. Vyhledávání nejčastějších n-tic slov [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2009.
Collections
  • 2009 [366]
Citace PRO

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV
 

 

Browse

All of repositoryCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

LoginRegister

Statistics

View Usage Statistics

Portal of libraries | Central library on Facebook
DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback | Theme by @mire NV