Toward customized tracking of topic evolution

Patrick Kiss

Toward customized tracking of topic evolution

2019

Patrick Kiss

Das Analysieren von Themen uber eine Zeitspanne war seit langer Zeit immer wieder Thema mehrerer Arbeiten und hat viel Interesse bei Wissenschaftlern gezeigt. Es gibt einen weitlaufig bekannten Algorithmus, der bisher oft verwendet wird, jedoch gibt es mittlerweile einen neuen Ansatz, dieses Problem zu losen. Dieser neue Ansatz verwendet Wortmodelle und Algorithmen zum Bilden von Gruppierungen ahnlicher Entitaten. In dieser Arbeit vergleichen wir diese beiden Ansatze und erarbeiten das Hintergrundwissen, das man benotigt, um den neuesten Ansatz zu verstehen. Wir erklaren die Problemstellungen, welche sich bei dem neueren Ansatz ergeben haben und noch offen sind. Einerseits stellten die damaligen Autoren fest, dass die gefundenen Themen zwar alles in allem gut waren, jedoch gab es auch eine grose Anzahl an ungewollten Themen, welche nicht wichtig erschienen. Andererseits war auch die Analyse eines Themas selbst problematisch, da sich manche Themen, vor allem in einem grosen Datenset, aus einer hohen Anzahl an Wortern zusammensetzten, was ein Thema nicht immer uberschaubar machte. Weiters gab es keine Moglichkeit, die Worter nach ihrer Wichtigkeit fur ein Thema zu reihen. In unserer Arbeit fugen wir zum einen die Moglichkeit hinzu, Themen zu filtern. Mithilfe der bereits im bestehenden Algorithmus genutzten Netzwerkstruktur, verwenden wir bekannte Metriken der Netzwerkanalyse, um die Wichtigkeit eines Themas zu definieren. Wir haben mehrere Kombinationen dieser Analysemethoden getestet, um zum besten Ergebnis zu kommen. Zum anderen gibt es nun einen Weg, Worter in einem Thema zu filtern und nach Originalitat zu reihen. Hierzu verwenden wir die k-core decomposition, um die wichtigsten Kernworter eines Themas zu finden, und reihen diese dann mithilfe der TF-IDF. In unserer Evaluierung haben wir einerseits um die Bewertung mehrerer User gebeten, andererseits haben wir auch objektive automatische Analysemethoden angewendet. Bei der Userbewertung haben wir User, die ein von uns erstelltes Datenset fur ihr eigenes Paper verwendeten, um die Beantwortung mehrerer Fragen einer Umfrage gebeten. Hierbei wurden Fragen bezuglich der Qualitat und Brauchbarkeit unserer Themen gestellt. Weiters wurden zwei Use Case Studies basierend auf zwei verschiedenen Datensets erstellt. Bei der quantitativen Evaluierung haben wir auf den Pairwise Mutual Information score zuruckgegriffen, mit welchem wir die Koharenz eines Themas (Wie gut die Worter in einem Thema zusammenpassen) getestet haben. Zum Abschluss wird auch die Laufzeit jedes Teils des neuen, adaptierten Algorithmus analysiert. Der Vergleich zeigt, dass beide Evaluierungstypen darin ubereinstimmen, dass unsere Adaptierungen zu einer Verbesserung des Algorithmus gefuhrt haben und dieser nun besser zur weiteren Analyse verwendet werden kann. Weitere Verbesserungsmoglichkeiten und deren Begrundungen werden zum Abschluss der Arbeit angefuhrt.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations