Similarité de second ordre pour l'exploration de bases textuelles multilingues

2013 
Cet article decrit l'utilisation de la technique de similarite de second ordre pour l'identification de textes semblables au sein d'une base de rapports d'incidents aeronautiques melangeant les langues francaise et anglaise. L'objectif du systeme est, pour un document donne, de retrouver des documents au contenu similaire quelle que soit leur langue. Nous utilisons un corpus bilingue aligne de rapports d'accidents aeronautiques pour construire des paires de pivots et indexons les documents avec des vecteurs de similarites, tels que chaque coordonnee correspond au score de similarite entre un document dans une langue donnee et la partie du pivot de la meme langue. Nous evaluons les performances du systeme sur un volumineux corpus de rapports d'incidents aeronautiques pour lesquels nous disposons de traductions. Les resultats sont prometteurs et valident la technique.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    8
    References
    2
    Citations
    NaN
    KQI
    []