On the estimation of the latent discriminative subspace in the Fisher-EM algorithm

2012 
The Fisher-EM algorithm has been recently proposed in (2) for the simultaneous visualization and clustering of high-dimensional data. It is based on a discriminative latent mixture model which fits the data into a latent discriminative subspace with an intrinsic dimension lower than the dimension of the original space. The Fisher-EM algorithm includes an F-step which estimates the projection matrix whose columns span the discriminative latent space. This matrix is estimated via an optimization problem which is solved using a Gram-Schmidt procedure in the original algorithm. Unfortunately, this procedure suffers in some case from numerical instabilities which may result in a deterioration of the visualization quality or the clustering accuracy. Two alternatives for estimating the latent subspace are proposed to overcome this limitation. The optimization problem of the F-step is first recasted as a regression-type problem and then reformulated such that the solution can be approximated with a SVD. Experiments on simulated and real datasets show the improvement of the proposed alternatives for both the visualization and the clustering of data. Resume : L'algorithme Fisher-EM a ete recemment propose dans (2) pour simultanement visualiser et classer automatiquement des donnees de grande dimension. Il se base sur un modele de melange latent et discriminant qui modelise les donnees dans un sous-espace de dimension intrinseque plus petite que celle de l'espace des observations. L'algorithme Fisher-EM est compose d'une etape F qui estime la matrice de projection dont les colonnes engendrent le sous-espace latent. Cette matrice est estimee via un probleme d'optimisation, lequel est resolu, dans l'algorithme original, par une procedure de type Gram-Schmidt. Malheureusement, cette procedure souffre dans certains cas d'instabilites numeriques qui peuvent engendrer une deterioration de la qualite de la visualisation ou de la classification automatique des donnees. Pour pallier cette limitation, nous proposons deux alternatives d'estimation du sous-espace latent. Le probleme d'optimisation de l'etape F est reecrit tout d'abord comme un probleme de regression puis reformule de telle maniere que la solution peut etre approchee par une SVD. Des experiences sur des donnees simulees et reelles montrent l'interet des alternatives proposees pour la visualisation et la classification automatique des donnees.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    23
    References
    5
    Citations
    NaN
    KQI
    []