Extraction de données web par couplage entre structures HTML avec une ontologie commune

2003 
Beaucoup d'applications accederaient et integreraient des donnees de pages web, regulierement mises a jour, si celles-ci etaient utilisables directement. Cependant, jusqu'a ce jour, l'extraction automatique de ces donnees n'est pas triviale en raison de l'aspect visuel pour lequel les pages web sont concues. Toutefois, la plupart des sites web generes automatiquement ont des structures HTML relativement fixes. C'est pourquoi nous proposons une methode d'extraction basee sur l'utilisation des ces structures couplees a une ontologie commune a plusieurs sources. Cette approche a ete implementee sous la forme d'un outil, appele WeDaX, lequel permet de creer de facon semi-automatique des descriptions d'extraction de donnees de pages web. Ces descriptions peuvent par la suite etre utilisees automatiquement par des logiciels, notamment pour recuperer des donnees mises a jour regulierement, pour autant que les structures des documents restent coherentes. Les donnees, ainsi extraites sous forme XML et faisant reference a une ontologie commune, peuvent etre facilement fusionnees.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []