Traitement et raisonnement distribués des flux RDF

Xiangnan Ren

Traitement et raisonnement distribués des flux RDF

2018

Xiangnan Ren

Le traitement en temps reel des flux de donnees emanant des capteurs est devenu une tâche courante dans de nombreux scenarios industriels. Dans le contexte de l'Internet des objets (IoT), les donnees sont emises par des sources de flux heterogenes, c'est-a-dire provenant de domaines et de modeles de donnees differents. Cela impose aux applications de l'IoT de gerer efficacement l'integration de donnees a partir de ressources diverses. Le traitement des flux RDF est des lors devenu un domaine de recherche important. Cette demarche basee sur des technologies du Web Semantique supporte actuellement de nombreuses applications innovantes ou les notions de temps reel et de raisonnement sont preponderantes. La recherche presentee dans ce manuscrit s'attaque a ce type d'application. En particulier, elle a pour objectif de gerer efficacement les flux de donnees massifs entrants et a avoir des services avances d’analyse de donnees, e.g., la detection d’anomalie. Cependant, un moteur de RDF Stream Processing (RSP) moderne doit prendre en compte les caracteristiques de volume et de vitesse rencontrees a l'ere du Big Data. Dans un projet industriel d'envergure, nous avons decouvert qu'un moteur de traitement de flux disponible 24/7 est generalement confronte a un volume de donnees massives, avec des changements dynamiques de la structure des donnees et les caracteristiques de la charge du systeme. Pour resoudre ces problemes, nous proposons Strider, un moteur de traitement de flux RDF distribue, hybride et adaptatif qui optimise le plan de requete logique selon l’etat des flux de donnees. Strider a ete concu pour garantir d'importantes proprietes industrielles telles que l'evolutivite, la haute disponibilite, la tolerance aux pannes, le haut debit et une latence acceptable. Ces garanties sont obtenues en concevant l'architecture du moteur avec des composants actuellement incontournables du Big Data: Apache Spark et Apache Kafka. De plus, un nombre croissant de traitements executes sur des moteurs RSP necessitent des mecanismes de raisonnement. Ils se traduisent generalement par un compromis entre le debit de donnees, la latence et le cout computationnel des inferences. Par consequent, nous avons etendu Strider pour prendre en charge la capacite de raisonnement en temps reel avec un support d'expressivite d'ontologies en RDFS + (i.e., RDFS + owl:sameAs). Nous combinons Strider avec une approche de reecriture de requetes pour SPARQL qui beneficie d'un encodage intelligent pour les bases de connaissances. Le systeme est evalue selon differentes dimensions et sur plusieurs jeux de donnees, pour mettre en evidence ses performances. Enfin, nous avons explore le raisonnement du flux RDF dans un contexte d'ontologies exprimes avec un fragment d'ASP (Answer Set Programming). La consideration de cette problematique de recherche est principalement motivee par le fait que de plus en plus d'applications de streaming necessitent des tâches de raisonnement plus expressives et complexes. Le defi principal consiste a gerer les dimensions de debit et de latence avec des methologies efficaces. Les efforts recents dans ce domaine ne considerent pas l'aspect de passage a l'echelle du systeme pour le raisonnement des flux. Ainsi, nous visons a explorer la capacite des systemes distribuees modernes a traiter des requetes d'inference hautement expressive sur des flux de donnees volumineux. Nous considerons les requetes exprimees dans un fragment positif de LARS (un cadre logique temporel base sur Answer Set Programming) et proposons des solutions pour traiter ces requetes, basees sur les deux principaux modeles d’execution adoptes par les principaux systemes distribuees: Bulk Synchronous Parallel (BSP) et Record-at-A-Time (RAT). Nous mettons en œuvre notre solution nommee BigSR et effectuons une serie d’evaluations. Nos experiences montrent que BigSR atteint un debit eleve au-dela du million de triplets par seconde en utilisant un petit groupe de machines

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations