Corpus lingüístico
conjunto amplio y estructurado de ejemplos reales de uso de la lengua / De Wikipedia, la enciclopedia encyclopedia
Estimado Wikiwand AI, Seamos breves simplemente respondiendo estas preguntas clave:
¿Puede enumerar los principales datos y estadísticas sobre Corpus lingüístico?
Resumir este artículo para un niño de 10 años
Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden obtenerse de textos escritos (los más comunes), o muestras orales (generalmente transcritas).[1] Los corpus pueden ser textuales, cuando compilan textos orales o escritos, o de referencia, cuando registran concordancias extraídas de textos. En español, un ejemplo de corpus de referencia es el Corpus Básico del Español de Chile.[2]
Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos. Es decir, en cuanto a su estructura, variedad y complejidad, un corpus debe reflejar una lengua, o su modalidad, de la forma más exacta posible; en cuanto a su uso, preocuparse de que su representación sea real. Los corpus[3] tienen similitudes con los textos porque están compuestos por ellos, por otro lado, no son textos en sí, porque a diferencia de los mismos, no tiene sentido analizarlos en su totalidad. Un texto tiene un principio y un fin, y es cohesivo y coherente en mayor o menor grado, mientras que un corpus carece de tales características por no poseer una estructura, sino sólo una composición. Por esta razón conviene analizar un corpus recurriendo a herramientas y metodología propias.
Debido a su tamaño, accesibilidad, información lingüística y enciclopédica, muy alta fiabilidad y otras particularidades, la compilación de los corpus ha llegado a ser uno de los principales, si no el principal, método e instrumento de la investigación de la lengua en la lingüística general.[4]
La necesidad de trabajar las muestras recogidas de forma eficaz y económica (teniendo en cuenta su enorme extensión), ha alentado el desarrollo de una de las ramas con más futuro de la lingüística contemporánea: la lingüística computacional. Actualmente los corpus se recogen y almacenan de manera electrónica.