Utilité d'un couplage entre Word2Vec et une analyse sémantique latente : expérimentation en catégorisation de données textuelles.
2019
Nous reexaminons dans cet article les methodes de vectorisation de
textes dans le cadre dune etude de classification de documents. Nous etudions
les methodes basees sur des plongements de mots (word2vec) ou de documents
(analyse semantique latente, ou sac de mots associees a diverses ponderations)
ainsi que certaines combinaisons de ces methodes. A cette fin, nous evaluons ces
methodes de vectorisation en utilisant trois modeles de classification (un percep-
tron multicouches, une machine lineaire a vecteurs supports optimisee par des-
cente de gradient stochastique et un classifieur multinomial naif de Bayes). Nos
resultats montrent que le modele propose pour associer les methodes word2vec
et LSA, qui conjugue les deux caracterisations complementaires du contexte
doccurrence des mots (local pour word2vec et global pour LSA), permet de
produire une vectorisation robuste, en general plus discriminante que les autres
approches testees.
Keywords:
- Correction
- Source
- Cite
- Save
- Machine Reading By IdeaReader
0
References
0
Citations
NaN
KQI