corpus

m
Lingüística i sociolingüística

Col·lecció de frases o de texts a partir de la qual el lingüista estableix l’anàlisi i la descripció d’una llengua.

Els criteris per a organitzar la col·lecció de textos s’estableixen de manera acurada per a aconseguir que els materials que formen part del corpus siguin representatius, en un domini concret, d’una llengua (per als corpus monolingües) o de diverses llengües (en el cas dels corpus multilingües). En funció de la seva finalitat els corpus poden ésser generals o amb finalitats específiques; segons el canal de producció dels textos emmagatzemats poden ésser corpus orals o corpus escrits i, tenint en compte el contingut dels corpus, poden ésser de llengua general o de diferents àmbits d’especialitzats. Els corpus lingüístics amb finalitats específiques permeten l’estudi d’aspectes concrets de la gramàtica o del lèxic, l’extracció de dades estadístiques, la descripció del comportament d’una determinada població de parlants, l’anàlisi comparativa de diverses varietats lingüístiques, el desenvolupament i l’evolució de sistemes de processament del llenguatge natural o, fins i tot, la millora del rendiment d’aplicacions orintades al reconeixement de la veu. En l’àmbit català destaca el Corpus textual informatitzat de la llengua catalana (CTILC), de l’Institut d’Estudis Catalans, que conté documents escrits entre els anys 1833 i 1988 i que serveix com a base per a la redacció del Diccionari descriptiu de la llengua catalana , en procés d’elaboració.