Contribution à la fouille de données : règles d'association et interactivité au sein d'un processus d'extraction de connaissances dans les données

2005 
Au regard du nombre croissant des grandes bases de donnees, determiner la facon dont sont organisees les donnees, les interpreter et en extraire des informations utiles est un probleme difficile et ouvert. En effet, a l'heure actuelle, notre capacite a collecter et stocker les donnees de tout type, outrepasse nos possibilites d'analyse, de synthese et d'extraction de connaissances dans les donnees. Notre travail se situe au niveau de la recherche de regles d'association qui constitue une tâche de fouille de donnees. Cette derniere presente des resultats qui permettent aux experts de facilement interpreter les regles une a une. Les methodes de generation sont combinatoires et engendrent un nombre eleve de regles qui sont difficilement exploitables. Plusieurs approches de reduction de ce nombre ont ete proposees comme l'usage de mesures de qualite, le filtrage syntaxique par contraintes, la compression par les bases representatives ou generiques. Cependant, ces approches n'integrent pas l'expert dans le deroulement du processus limitant ainsi l'aspect interactif du processus. En effet, l'expert ne sait pas toujours initialement quelle connaissance il souhaite obtenir. Nous analysons l'activite cognitive de l'expert dans differents processus de recherche de regles d'association et nous montrons que dans ces approches, l'expert n'intervient pas durant les tâches du processus. Pour accroitre cette interactivite avec l'expert, il est necessaire que celui-ci soit au coeur du processus afin de repondre a l'un des objectifs de l'ECD. Nous nous basons sur les systemes orientes-tâches, qui se focalisent sur les differentes tâches que l'expert doit realiser, et proposons l'algorithme SHARK qui est une approche hybride basee sur l'utilisation d'une recherche hierarchique s'appuyant sur une taxinomie d'attributs et d'une approche anthropocentree de maniere a inclure l'expert dans le processus. Nous couplons ainsi la connaissance explicite fournie par l'algorithme et la connaissance tacite de l'expert. L'utilisation d'une interface graphique adaptee s'avere donc necessaire pour que l'expert puisse interagir de maniere optimale avec le processus. L'efficacite de cet algorithme a ete montree sur un probleme reel de marketing faisant intervenir des experts du monde bancaire. En outre, la fouille de donnees visuelle presente un interet non negligeable puisque l'esprit humain peut traiter une plus grande quantite d'informations de maniere visuelle. Comme des quantites tres importantes de regles sont generees, la fouille de donnees visuelle s'avere etre une etape incontournable pour ameliorer encore notre approche. Nous presentons un etat de l'art des principales techniques de visualisation de regles d'association. Parmi ces representations, nous nous focalisons sur les representations de type matrice 3D presentant la particularite de generer des occlusions. Une occlusion est un chevauchement d'objets dans un environnement 3D rendant certains de ces objets pas ou peu visibles. Apres avoir defini formellement le probleme d'occlusions, nous montrons qu'il s'agit d'un probleme d'optimisation qui est de trouver le meilleur ordre possible des itemsets sur les deux axes pour limiter les occlusions. Nous proposons une heuristique permettant de reduire significativement les occlusions generees. Les resultats que nous avons obtenus sont presentes et discutes.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    4
    Citations
    NaN
    KQI
    []