Casual analytics : advancing interactive visualization by domain knowledge

Harald Bosch

Casual analytics : advancing interactive visualization by domain knowledge

2014

Harald Bosch

The often cited information explosion is not limited to volatile network traffic and massive multimedia capture data. Structured and high quality data from diverse fields of study become easily and freely available, too. This is due to crowd sourced data collections, better sharing infrastructure, or more generally speaking user generated content of the Web 2.0 and the popular transparency and open data movements. At the same time as data generation is shifting to everyday casual users, data analysis is often still reserved to large companies specialized in content analysis and distribution such as today's internet giants Amazon, Google, and Facebook. Here, fully automatic algorithms analyze metadata and content to infer interests and believes of their users and present only matching navigation suggestions and advertisements. Besides the problem of creating a filter bubble, in which users never see conflicting information due to the reinforcement nature of history based navigation suggestions, the use of fully automatic approaches has inherent problems, e.g. being unable to find the unexpected and adopt to changes, which lead to the introduction of the Visual Analytics (VA) agenda. If users intend to perform their own analysis on the available data, they are often faced with either generic toolkits that cover a broad range of applicable domains and features or specialized VA systems that focus on one domain. Both are not suited to support casual users in their analysis as they don't match the users' goals and capabilities. The former tend to be complex and targeted to analysis professionals due to the large range of supported features and programmable visualization techniques. The latter trade general flexibility for improved ease of use and optimized interaction for a specific domain requirement. This work describes two approaches building on interactive visualization to reduce this gap between generic toolkits and domain-specific systems. The first one builds upon the idea that most data relevant for casual users are collections of entities with attributes. This least common denominator is commonly employed in faceted browsing scenarios and filter/flow environments. Thinking in sets of entities is natural and allows for a very direct visual interaction with the analysis subject and it stands for a common ground for adding analysis functionality to domain-specific visualization software. Encapsulating the interaction with sets of entities into a filter/flow graph component can be used to record analysis steps and intermediate results into an explicit structure to support collaboration, reporting, and reuse of filters and result sets. This generic analysis functionality is provided as a plugin-in component and was integrated into several domain-specific data visualization and analysis prototypes. This way, the plug-in benefits from the implicit domain knowledge of the host system (e.g. selection semantics and domain-specific visualization) while being used to structure and record the user's analysis process. The second approach directly exploits encoded domain knowledge in order to help casual users interacting with very specific domain data. By observing the interrelations in the ontology, the user interface can automatically be adjusted to indicate problems with invalid user input and transform the system's output to explain its relation to the user. Here, the domain related visualizations are personalized and orchestrated for each user based on user profiles and ontology information. In conclusion, this thesis introduces novel approaches at the boundary of generic analysis tools and their domain-specific context to extend the usage of visual analytics to casual users by exploiting domain knowledge for supporting analysis tasks, input validation, and personalized information visualization. Die oft zitierte Informationsexplosion beschrankt sich nicht auf vergangliche Kopien zum Zwecke der Datenubertragung und grose Mengen an multimedialen Aufnahmen. Auch hochqualitative, strukturierte Daten aus diversen Forschungsrichtungen werden immer leichter und freier zuganglich. Das liegt hauptsachlich an gemeinschaftlich erzeugten Datensammlungen und einer besseren Infrastruktur zum Datenaustausch oder, allgemeiner formuliert, an den von Nutzern erzeugten Inhalten des "Web 2.0" sowie Initiativen zur Erhohung der Transparenz bei offentlichen Daten. Wahrend die Datenerzeugung vermehrt durch Gelegenheitsnutzer erfolgt, bleibt die Datenanalyse in der Hand von grosen Unternehmen wie Amazon, Google und Facebook, um nur einige zu nennen, die auf die Analyse und die Bereitstellung von Inhalten spezialisiert sind. Hierbei kommen vollautomatische Algorithmen zum Einsatz, um Metadaten und Inhalte zu analysieren und die Interessen und Einstellungen der beteiligten Nutzer abzuleiten, um im Weiteren passende Empfehlungen und Werbeeinblendungen prasentieren zu konnen. Neben dem Problem, dadurch eine "Filterblase" zu erzeugen, in welcher dem Nutzer - auf Grund des selbstverstarkenden Charakters einer auf dem bisherigen Verlauf basierenden Empfehlung - niemals seine Einstellung kontrastierende Informationen gezeigt werden, haben vollautomatische Ansatze inharente Probleme dabei, unerwartete Erkenntnisse zu liefern oder sich einer Veranderung anzupassen. Diese Probleme fuhrten zur Einfuhrung der Forschungsrichtung Visual Analytics (VA). Wenn normale Nutzer eigene Analysen auf den verfugbaren Daten betreiben wollen, sehen sie sich mit generischen Werkzeugen und derren Fulle an Funktionen und Einsatzmoglichkeiten und VA-Speziallosungen fur einzelne Domanen konfrontiert. Beide Ansatze sind nicht geeignet, um Gelegenheitsnutzer bei ihrer Analyse zu unterstutzen, da sie nicht zu den Zielen und den Fahigkeiten des Benutzers passen. Die Erstgenannten sprechen aufgrund ihres Funktionsumfangs und ihrer programmierbaren Visualisierungen eher Analyseexperten an. Die Letzteren tauschen allgemeine Machtigkeit gegen leichtere Bedienbarkeit und eine an die Domane angepasste Benutzung. Diese Arbeit beschreibt zwei Ansatze, um mit der Hilfe von interaktiven Visualisierungen die Lucke zwischen allgemeingultigen Werkzeugen und Speziallosungen aus einzelnen Domanen zu verringern. Der erste Ansatz basiert auf der Idee, dass die meisten fur die Allgemeinheit interessanten Datensatze auf Entitaten und Attribute reduziert werden konnen. Dieser kleinste gemeinsame Nenner findet beim facettierten Browsen und bei Filter/Flow-Umgebungen bereits haufig Anwendung. In Mengen zu denken entspricht unserer alltaglichen Erfahrung und erlaubt einen sehr direkten, visuellen Zugang zu den Objekten der Analyse und ist daher eine gute Basis, um Analysefunktionalitaten umzusetzen. Die Interaktion mit Entitatsmengen in eine Filter/Flow-basierte Graphstruktur zusammenzufassen, kann dazu genutzt werden, die Analysetatigkeit zentral aufzuzeichnen und dadurch die Kollaboration, Berichtserstellung und Wiederverwendung von Filtern und Zwischenergebnissen zu unterstutzen. Diese generischen Analysefunktionen werden als Plug-In-Komponente angeboten, welche in einige domanenspezifische Datenanalyse- und Visualisierungsprototypen integriert wurde. Dadurch kann die Komponente von dem impliziten Fachwissen des Domanenwerkzeugs (z.B. durch semantisch aufgeladene Entitatswahl und spezialisierte Datenreprasentation) profitieren, wahrend sie zur Strukturierung und Aufzeichnung des Analyseprozesses des Benutzers herangezogen wird. Der zweite Ansatz nutzt bereits kodiertes Domanenwissen in Form einer Ontologie, um dem Benutzer die Interaktion mit den sehr spezifischen Daten der Domane zu erlauben. Durch die Betrachtung der Zusammenhange zwischen Konzepten der Ontologie kann die Benutzungsoberflache automatisch erweitert werden, um auf Probleme in der Benutzereingabe hinzuweisen und die Resultate des Systems bedarfsgerecht anzuzeigen. Dabei werden die domanenspezifischen Visualisierungen fur jeden Benutzer aufgrund seines Profils und der ontologischen Informationen personalisiert und orchestriert. Zusammenfassend beschreibt die Arbeit damit neue Ansatze an der Schnittstelle zwischen generischen Analysewerkzeugen und dem durch den Anwendungsfall vorgegebenen Kontext. Dies erlaubt auch Gelegenheitsnutzern die Vorgehensweise der Visuellen Analyse zur Verfugung zu stellen, indem Analyseaufgaben unterstutzt, Eingaben validiert und Informationsdarstellungen personalisiert werden.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations