Aspects théoriques et méthodologiques de la représentativité des corpus

Najib Arbach , Saandia Ali

En 1982, Francis (1991 :17) définit un corpus comme suit :’A collection of texts assumed to be representative of a given language, dialect, or other subset of a language, to be used for linguistic analysis.’Le critère de la représentativité allait ensuite être évoqué par la quasi-totalité des ouvrages et articles de référence sur la linguistique de corpus. Cet article tentera de définir la représentativité en illustrant ses axes, et d’expliciter les méthodologies de la représentativité qui incluent les notions de catégorisations, d’échantillonnage et de volume des données.Pour ce faire, nous tenterons de comprendre l’importance de cette notion et de sa récurrence au sein de la littérature traitant de la linguistique de corpus. Nous distinguerons ensuite les différentes méthodologies employées dans le but d’atteindre la représentativité dans la constitution de corpus. Les deux principaux courants méthodologiques que nous examinerons sont ceux de la « stratification en amont » représenté par Biber (1993a, 1993b) pour le premier, et celui des « monitor corpus » représenté par Sinclair (1991, 1996, 2004) pour le second. Nous nous intéresserons en détail à la question de la taille des corpus, et nous conclurons par une revue rapide de la situation actuelle, accompagnée de quelques recommandations destinées aux compilateurs de corpus constitués ou futurs.

Publication details

DOI: 10.4000/corela.3029

Full citation:

Arbach, N. , Ali, S. (2013). Aspects théoriques et méthodologiques de la représentativité des corpus. Corela 13 (HS), pp. n/a.

This document is available at an external location. Please follow the link below. Hold the CTRL button to open the link in a new window.