Lingüística del corpus

La palabra «corpus» está en latín y se usa como tecnicismo de la lingüística. Literalmente significa «cuerpo», pero en realidad se refiere a un conjunto grande de textos representativos de cierto ámbito. Un corpus no tiene por qué ser digital (en el pasado no lo eran); pero ahora nos estamos refiriendo a conjuntos de textos escogidos, digitalizados y algunas veces anotados (es decir, con etiquetas de información gramatical o literaria); muchos de ellos están disponibles en red. Un equipo de lingüísticas, filólogos e ingenieros se ponen a trabajar juntos para decidir cómo recoger la muestra, qué anotaciones hacer y cómo será el acceso posterior a las consultas. Por ejemplo, existe un corpus de sonetos del Siglo de Oro español o un corpus de charla oral juvenil madrileña; sin embargo, el más famoso sin duda es el CREA (Corpus de Referencia del Español Actual), que es muy amplio y recoge muchísimos textos de todos los ámbitos y temas, tanto escritos como orales, y de todos los países de habla hispana, desde 1975 hasta 2004. ¿Para qué nos sirven los corpus?

Pueden servir para muchos tipos de investigación estadística; por ejemplo, para hallar la frecuencia de una palabra dentro de un idioma, la variación de dicha frecuencia a lo largo del tiempo, de la región, del género textual o del tema… También puede servir para localizar contextos de uso de una palabra y comprenderla mejor. Puede servir para hacer un estudio de concordancias entre textos diferentes e incluso decidir la autoría de una obra literaria (estilometría computacional). Y, finalmente, quizás lo más importante no es esta ayuda que la tecnología presta a la filología, sino el uso de corpus anotados para entrenar inteligencias artificiales o procesamiento del lenguaje natural, que ya explicamos en la anterior entrada.

La palabra «corpus» está en latín y se usa como tecnicismo de la lingüística. Literalmente significa «cuerpo», pero en realidad se refiere a un conjunto grande de textos representativos de cierto ámbito. Un corpus no tiene por qué ser digital (en el pasado no lo eran); pero ahora nos estamos refiriendo a conjuntos de textos…

Deja un comentario

Issue is a magazine-style theme design that displays blog posts, reviews, artwork and news.

⏬

It comes with different styles to spark your creativity in making it just as you’d like to.

Designed with WordPress

MagBlog is a magazine theme focused on sizable type and imagery to expand your content. Make it yours ⏬

Diseña un sitio como este con WordPress.com
Comenzar