Corpus complexes et standards : un retour sur le projet CoMeRe

2020 
Le present article se propose de revenir sur le projet national CoMeRe (Communication Mediee par les Reseaux) en insistant sur la complexite du corpus developpe. Constitue de quatorze sous-corpus varies, le corpus CoMeRe est un corpus de reference de la communication mediee par les reseaux en francais. Quatorze enseignants-chercheurs de huit laboratoires differents se sont impliques dans le projet et ont ete guides par trois mots cles lors de leurs collaborations : variete, standards et acces ouvert.Le corpus CoMeRe a ainsi ete construit sur une hypothese de variete et contient une gamme etendue d’interactions de la CMR dont nous restituons les differences et les caracteristiques principales (courriels, clavardage, SMS, forums de discussion Internet, blogs, tweets, discussions Wikipedia, interactions provenant de mondes synthetiques). Nous detaillons ensuite comme le corpus CoMeRe a ete rendu interoperable : les quatorze sous-corpus ont ete standardises, suivant le modele de l’espace d’interaction elabore lors du projet (Chanier & Jin, 2013) d’une part et suivant les propositions de representation standardisee des corpus de la CMR en TEI (Text Encoding Initiative, 2019) elaborees en lien avec les partenaires europeens. Enfin, les collegues tenaient a diffuser le corpus en acces ouvert pour permettre son utilisation par la communaute scientifique. Nous revenons sur les retombees du projet liees a la diffusion du corpus dans la conclusion de notre article.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    2
    References
    0
    Citations
    NaN
    KQI
    []