Analýza recenzí výrobků

Loading...
Thumbnail Image
Date
ORCID
Mark
C
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoké učení technické v Brně. Fakulta informačních technologií
Abstract
Zákazníci internetových obchodov generujú obrovské množstvo informácii o službách a produktoch pomocou recenzií, ktoré sú dôležitým zdrojom spätnej väzby. Táto diplomová práca sa zaoberá vytvorením systému pre analýzu recenzií výrobkov a obchodov v českom jazyku. Popisuje doterajšie spôsoby analýzy sentimentu a naväzuje na aktuálne riešenia. Výsledný systém implementuje automatické sťahovanie dát a ich indexáciu, následne analýzu sentimentu spolu so sumarizáciou textu v podobe zhlukovania podobných viet na základe vektorovej reprezentácie textu. Súčasťou je aj grafické užívateľské rozhranie vo forme webovej stránky. Počas semestra bol vytvorený dataset recenzií s celkovým počtom prevyšujúci šesť miliónov recenzií spolu s rozhraním na jednoduchý export dát.
Online store customers generate vast amounts of product and service information through reviews, which are an important source of feedback. This thesis deals with the creation of a system for the analysis of product and shop reviews in the czech language. It describes the current methods of sentiment analysis and builds on current solutions. The resulting system implements automatic data download and their indexing, subsequently sentiment analysis together with text summary in the form of clustering of similar sentences based on vector representation of the text. A graphical user interface in the form of a web page is also included. A review data set with a total of more than six million reviews was created during the semester along with an interface for easy data export.
Description
Citation
KLOCOK, A. Analýza recenzí výrobků [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2020.
Document type
Document version
Date of access to the full text
Language of document
sk
Study field
Informační systémy
Comittee
doc. Mgr. Adam Rogalewicz, Ph.D. (předseda) doc. Ing. Peter Chudý, Ph.D., MBA (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen)
Date of acceptance
2020-07-17
Defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C. Otázky u obhajoby: V technické zprávě píšete (pod napisem "Predspracovanie dát" na str. 27-28): """ Síce aktuálne riešenia mapovania sekvencií do vektorového priestoru využívajú vlastné tokenizery, ako napríklad kúsky slov, je vhodné tieto dáta tokenizovať, lemantizovať, poprípade previesť do kmeňového tvaru (stem), odstrániť stop slová, pre ďalšie spracovanie. """, ale už nepíšete, proč je vhodné data tokenizovat vlastním způsobem. Mohl byste toto objasnit? Na str. 29 zmiňujete pojmy "pretrénovanie" a "pred-trénovanie" v tom samém významu, což považuji za chybu (tato chyba se vyskytuje vícekrát, domnívám se tedy, že se nejedná o překlep). Mohl byste vysvětlit pojmy "přetrénování" (over-training) a "předtrénování" (pre-training) v kontextu neuronových sítí? Jak dlouho vám trvalo vytvořit dataset? Zkoušel jste web Heureka.cz kontaktovat?
Result of defence
práce byla úspěšně obhájena
Document licence
Standardní licenční smlouva - přístup k plnému textu bez omezení
DOI
Collections
Citace PRO