Extraction de données web par couplage entre structures HTML avec une ontologie commune

Hicham Snoussi,Laurent Magnin,Jian-Yun Nie

Extraction de données web par couplage entre structures HTML avec une ontologie commune

2003

Beaucoup d'applications accederaient et integreraient des donnees de pages web, regulierement mises a jour, si celles-ci etaient utilisables directement. Cependant, jusqu'a ce jour, l'extraction automatique de ces donnees n'est pas triviale en raison de l'aspect visuel pour lequel les pages web sont concues. Toutefois, la plupart des sites web generes automatiquement ont des structures HTML relativement fixes. C'est pourquoi nous proposons une methode d'extraction basee sur l'utilisation des ces structures couplees a une ontologie commune a plusieurs sources. Cette approche a ete implementee sous la forme d'un outil, appele WeDaX, lequel permet de creer de facon semi-automatique des descriptions d'extraction de donnees de pages web. Ces descriptions peuvent par la suite etre utilisees automatiquement par des logiciels, notamment pour recuperer des donnees mises a jour regulierement, pour autant que les structures des documents restent coherentes. Les donnees, ainsi extraites sous forme XML et faisant reference a une ontologie commune, peuvent etre facilement fusionnees.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations