Utilité d'un couplage entre Word2Vec et une analyse sémantique latente : expérimentation en catégorisation de données textuelles.

2019 
Nous reexaminons dans cet article les methodes de vectorisation de textes dans le cadre d’une etude de classification de documents. Nous etudions les methodes basees sur des plongements de mots (word2vec) ou de documents (analyse semantique latente, ou sac de mots associees a diverses ponderations) ainsi que certaines combinaisons de ces methodes. A cette fin, nous evaluons ces methodes de vectorisation en utilisant trois modeles de classification (un percep- tron multicouches, une machine lineaire a vecteurs supports optimisee par des- cente de gradient stochastique et un classifieur multinomial naif de Bayes). Nos resultats montrent que le modele propose pour associer les methodes word2vec et LSA, qui conjugue les deux caracterisations complementaires du contexte d’occurrence des mots (local pour word2vec et global pour LSA), permet de produire une vectorisation robuste, en general plus discriminante que les autres approches testees.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []