Indexation de co-occurrences guidée par la structure des documents et contrôlée par une ontologie et l'exploitation du corpus.

2008 
Confronte a la problematique de l'indexation de tres grands corpus documentaires d'entreprises, nous avons mis au point une methode simple mais efficace (en terme de temps de calcul et de volumetrie), permettant de filtrer par document les co-occurrences les plus representatives de ceux-ci. Nous nous placons dans un contexte de co-occurrences pour deux raisons. D'une part les requetes portant sur des corpus specialises, et composees par des experts, s'appuient sur peu de termes precisement choisis dont nous indexons les associations, et d'autre part car cela facilitera la construction de cartes semantiques de navigation dans les concepts du corpus. L'axe principal de ce travail est la prise en compte de la structure des documents en validant les contenus des paragraphes par ceux de leurs titres. Notre methode s'appuie sur des mesures tf.idf successives effectuees dans le contexte d'un document et non d'un corpus, sur les contenus des paragraphes auxquels sont integres progressivement la hierarchie des titres les introduisant. Puis nous exploitons simultanement une ontologie de controle et les requetes des utilisateurs comportant les termes precedemment discrimines pour valider par le theoreme de Bayes, les associations semantiques ainsi determinees.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    8
    References
    2
    Citations
    NaN
    KQI
    []