Intro A La Linguistica Del Corpus
Intro A La Linguistica Del Corpus
Intro A La Linguistica Del Corpus
2
Esta obra está bajo una licencia de Creative Commons.
Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.
3
Introducción a la lingüística de corpus, sus usos y aplicaciones. Liendo, P. y otros
Índice
1. Prólogo
2. ¿Qué es la Lingüística de Corpus?
2.1 ¿Qué beneficios aporta la LC en el ámbito del aprendizaje de las
lenguas?
2.2 Lingüística de corpus: ¿un marco teórico o metodológico?
2.3 Un poco de historia: lingüística, LC y enseñanza de las lenguas
2.4 ¿Cómo impacta en la educación superior? La enseñanza del idioma
inglés como lengua extranjera (ILE) y la formación de traductores
2.4.1. El corpus en la enseñanza de ILE
2.4.2. El corpus en la formación de traductores
2.4.2.1. Estudios de Traducción con corpus
3. ¿Qué es un corpus? ¿Para qué sirve? ¿Qué tipos de corpus existen?
3.1 Corpus, géneros y tipologías textuales
3.1.1 Los corpus y la alfabetización académica
3.2 Diseño de corpus: qué es, tipos de corpus
3.2.1 Tipos de corpus
3.2.2 Importancia de la digitalización
4. Herramientas informáticas para la gestión de corpus digital
4.1 Programas y aplicaciones para la gestión de corpus
4.2 Corpus informatizados de consulta en línea
5. ¿Qué herramientas existen para anotar y analizar un corpus?
5.1 ¿Para qué analizar un corpus? La importancia de definir paradigma y
método de investigación
5.2 ¿Cómo anotar y analizar un corpus?
5.2.1. ¿Qué significa marcar en este contexto?
5.2.2. ¿Cómo se visualizan los resultados?
5.3. Algunos ejemplos del uso de herramientas para anotar y analizar
4
corpus
5.3.1. ATLAS.ti
5.3.2. CATMA 6
6. Palabras finales
5
Agradecimiento
6
Introducción a la lingüística de corpus, sus usos y aplicaciones. Liendo, P. y otros
1. Prólogo
Este manual tiene como principal objetivo lograr una aproximación a las
distintas definiciones de corpus y de la Lingüística de Corpus (LC), así como
ofrecer guías prácticas para su uso. Se produce en el marco de las
investigaciones del proyecto PIN I J031, Alfabetización Académica y Tipologías
Textuales en la Enseñanza del Inglés para la Traducción (2018-2022),
Traductorado Público en Idioma Inglés, Universidad Nacional del Comahue,
Argentina.
En el transcurso del mencionado proyecto, hemos leído y conversado
extensamente sobre la centralidad de los corpus textuales en el ámbito
académico en la actualidad, sobre todo gracias a los avances tecnológicos de
los últimos veinte años. Y mediante esta práctica, hemos descubierto que
estas herramientas son mucho más que instrumentos para reunir datos; se
han constituido como ejes temáticos, teóricos y metodológicos de
investigaciones de los más variados campos y de corte eminentemente
transversal e interdisciplinario.
No obstante, podría decirse que la iniciativa de diseñar esta publicación
surge casi por casualidad. En las reuniones de nuestro equipo de trabajo —en
un tiempo presenciales, hoy aún virtuales— los intercambios sobre cuestiones
académicas de forma y de fondo con respecto al curso de los avances en la
investigación van siempre acompañados por el comentario de situaciones
relativas a nuestro quehacer en las aulas: la relevancia de ciertos conceptos
para la didáctica de una materia, la importancia del desarrollo de alguna
estrategia en la labor traductora, la posible aplicación de una herramienta a la
enseñanza, por citar solo algunos ejemplos.
Es así que pensamos que podría ser interesante compartir nuestros
hallazgos sobre la LC y sus principales usos con la comunidad académica de
7
nuestra universidad, en particular, y hacer extensiva la invitación a miembros
de otras instituciones educativas relacionadas con el aprendizaje de lenguas
segundas o extranjeras. El punto de partida para la redacción del manual fue
la realización de una encuesta. El análisis de las respuestas obtenidas por ese
medio nos permitió observar que, si bien la mayoría de las personas
encuestadas sabe qué es o para qué se utiliza un corpus de textos (72,9%),
menos de un treinta por ciento recuerda fehacientemente que se haya
utilizado un corpus en sus clases de idioma extranjero —poco menos que un
tercio de las y los docentes, y alrededor de un cuarto de las y los estudiantes—.
También es interesante destacar que la mayor parte de las y los estudiantes
consultados refirieron a usos prácticos de los corpus en las clases, como
resolución de dudas terminológicas o de colocaciones, mientras que entre las
ventajas de su utilización señalaron el desarrollo de estrategias, como agilizar
búsquedas, identificar géneros o incorporar vocabulario; y competencias, por
ejemplo, la traductora, y sus subcompetencias.
Los resultados de la encuesta nos alentaron a pensar en este manual como
una herramienta útil para docentes y estudiantes, que permita comprender
qué es un corpus, cómo se vincula con el aprendizaje de lenguas extranjeras, y
qué usos se les puede dar en las clases. Y con el mismo espíritu de
construcción colectiva del conocimiento, los invitamos a volcar sus opiniones
en un cuestionario, luego de leer o utilizar este manual. Esperamos sus
respuestas y sugerencias para seguir generando otras formas de divulgación y
transferencia.
El objetivo último de este manual es proporcionar un andamiaje de los
aspectos principales de la LC y sus aplicaciones áulicas para el aprendizaje de
las lenguas y la didáctica de la traducción. A tal fin, proporcionaremos
algunas definiciones de LC, y su relación con la educación, en particular en la
enseñanza de lenguas extranjeras y la formación de traductores (§ 2). Luego
compartiremos algunas definiciones de corpus, diseño de corpus,
clasificaciones y tipologías textuales, y su vinculación con los géneros
textuales (§ 3). A continuación, incluiremos un listado de corpus en línea (en
8
inglés y español) y algunos ejemplos de búsqueda (§ 4), así como una guía
práctica para anotar y analizar corpus propios según el paradigma de
investigación (§ 5). La lista de referencias al final de cada sección permitirá
ahondar en los temas que resulten de interés.
Nos despedimos con el deseo de que este manual resulte relevante para su
práctica y formación, y a la espera de sus opiniones.
9
Introducción a la lingüística de corpus, sus usos y aplicaciones. Liendo, P. y otros
10
que se centra en el estudio de las producciones lingüísticas de los
hablantes en una situación concreta; por lo tanto, ofrece valiosas
oportunidades para analizar cómo los alumnos utilizan su lengua o sus
lenguas;
que brinda una base empírica para el desarrollo de materiales educativos
y metodológicos de diversa índole, así como para la construcción de
gramáticas, tesauros, y diccionarios;
que ofrece ejemplos más naturales que los que proporcionan muchas
veces los libros de textos y las bases de recursos didácticos, porque son
una muestra del uso real de la lengua y el bagaje cognitivo de sus
hablantes;
que estos ejemplos permiten, en términos chomskianos, la observación
y el análisis de la actuación lingüística (performance), en contraposición
con la competencia lingüística (competence), y así es posible desarrollar
teorías lingüísticas sobre el funcionamiento y la adquisición del lenguaje
(ver también § 2.3);
que facilita la descripción, análisis y enseñanza de los distintos tipos de
discursos, tanto generales como especializados, orales y escritos;
que sus aportes han favorecido una mayor centralidad del léxico en la
enseñanza-aprendizaje de lenguas extranjeras, en particular en lo que
respecta a las colocaciones y las expresiones idiomáticas o «unidades
prefabricadas»;
que todo lo señalado anteriormente ha influido en la evaluación, ya que
se observa un mayor énfasis en las estructuras gramaticales, los giros
idiomáticos y las palabras clave en contexto en el diseño de pruebas y
ejercicios, su input textual y los criterios de valoración utilizados.
11
como una metodología.
Si consideramos que los corpus se usan como modelos de uso; es decir, que
son representativos de los usos reales de las lenguas en una comunidad
determinada, debemos coincidir con Pérez Paredes (2021: 1): «A corpus is
used to model usage and we can think of a corpus as a proxy for usage»1. Si
pensamos en un corpus como en un agente o representante del uso real, este se
convierte en un instrumento, un método utilizado por los investigadores para
buscar la respuesta a su pregunta.
Dado este enfoque empírico de la LC, Parodi (2008), por ejemplo, entiende
que la LC no es otra rama de la lingüística, como lo son la sintaxis o la
semántica, sino un método de investigación aplicable a otras disciplinas desde
enfoques teóricos diversos, que es flexible (porque se basa en datos originales
y completos, como unidades de sentido y con propósitos comunicativos
específicos), si bien cuenta con principios reguladores bien definidos.
Por otra parte, para Leech (1992), la LC no es un campo de estudio, sino
un área disciplinar determinada por la centralidad de los corpus que posee
metodologías específicas resultantes de la integración de los avances
tecnológicos y de ciertas categorizaciones. Otros autores, como Sinclair
(1991) y Simpson y Swales (2001), sostienen que la LC es una técnica o una
tecnología, que tiene al corpus mismo como fundamento y depende
principalmente de una construcción adecuada, para que el resultado sea una
base de datos representativa.
Una postura conciliadora de estas posiciones es la de Pérez Paredes
(2021). Este autor explica que la gran variedad de enfoques y paradigmas
utilizados en las investigaciones sobre educación devienen en inconsistencias
terminológicas, que resultan de las diferentes perspectivas sobre la realidad y
las epistemologías utilizadas. Es por esto que destaca la importancia de
vincular las metodologías de investigación con los supuestos filosóficos a los
que se adhiere. En general, las investigaciones definen, por un lado, la
epistemología y las perspectivas teóricas; por otro los métodos y la
12
metodología. Sin embargo, el uso de métodos distintos, concluye Pérez
Paredes, proporcionará explicaciones de la realidad diferentes, ya que estos
dependen de metodologías, perspectivas teóricas y paradigmas investigativos
diversos. Este autor resume la relación etiológica —o causativa— entre
epistemología, teoría, metodología y método, tal como se describe en la
Figura 1.
Figura 1
Figure 1.3 Research in education – Based on Pring (2004) and Gray’s (2004)’s
adaptation of the work of Crotty (1998) (Pérez Paredes, 2021: 8)
13
señalar que:
14
visión idealizada, focalizada —en términos chomskianos— en la competencia
lingüística (linguistic competence) en desmedro de la actuación (performance) o
lenguaje en uso. Esta última era, para la LG, demasiado cambiante e
impredecible para ser un objeto de ciencia adecuado.
A comienzos de la década de 1960, se observa un resurgimiento de los
estudios basados en corpus, que resultó principalmente de los avances en las
tecnologías computacionales y un renovado interés en los usos de las lenguas
naturales y cotidianas y su variabilidad en distintos registros y géneros. Al
mismo tiempo, surgen en Inglaterra y los países escandinavos importantes
proyectos de investigación abocados a la construcción de grandes corpus
lingüísticos digitales en idioma inglés.
Alrededor de veinte años después, en la década de 1980, se observa un
segundo momento en la LC, y se identifica con la creación de mega-corpus de
cientos de millones de palabras. También se puede detectar un tercer giro,
probablemente aún en curso, que emerge del interés por el estudio de
discursos especializados. Estos constituyen normalmente muestras más
pequeñas, si se las compara con los corpus generales, pero de mayor
focalización temática, estructural y funcional.
En el marco de la Lingüística aplicada a la enseñanza de las lenguas, el
resurgimiento en el interés en la LC es importante en función del diseño de
enfoques didácticos. Algunos especialistas en pedagogía de las lenguas como
Stern (1983, 1992) o Richards y Rodgers (1986) plantean que para diseñar un
proyecto didáctico es necesario hacer explícito qué entendemos por una
lengua —cómo la definimos, qué significa ser un usuario experto, cuáles son
las unidades básicas de su estructura—, así como establecer qué significa
enseñarla o aprenderla. De tal modo, los enfoques didácticos de los últimos
cuarenta años tienen una orientación mayormente comunicativa o
socioconstructivista, por lo que parten de una concepción del lenguaje como
un fenómeno social, con un propósito comunicativo.
En este contexto, se puede visualizar la importancia de la LC en el diseño
15
curricular para la enseñanza de lenguas. Es decir, un usuario experto de una
lengua necesitará poseer conocimientos lingüísticos sistémicos, discursivos y
socioculturales; y la enseñanza-aprendizaje de dicha lengua será un proceso en
el que las y los estudiantes elaboran sus propias teorías lingüísticas según el
input con el que se enfrentan y la negociación de las correcciones que reciben,
de acuerdo con el enfoque comunicativo (Canale & Swain,1980; Swain, 1985;
Krashen, 1987, 1988). El uso de corpus deviene en un contacto con datos
sobre el uso real de la lengua que favorece el aprendizaje como construcción
social, y prepara al estudiante para desempeñarse con eficacia en un contexto
académico o profesional determinado.
16
inglés) de Tim Johns, quien incorporó el corpus y el análisis de
concordancias para la enseñanza del inglés como lengua extranjera, en el
que se inspiró el equipo COBUILD (Corpas Pastor, 2012).
Si bien ambos enfoques tenían como objetivo que las y los estudiantes
accedan a un entorno real de uso de la lengua, se diferencian en que el
Enfoque Léxico utiliza los datos provenientes del corpus para la investigación
y el diseño curricular; mientras que el DDL introduce el corpus en el aula y
promueve el descubrimiento autónomo a partir de los datos reales. Para ello,
utiliza dos tipos de procedimientos::
17
han evolucionado las tecnologías de la información y de la comunicación,
también lo ha hecho el campo laboral de estos profesionales de la
comunicación. Es más, las tecnologías aplicadas a la traducción han cobrado
tal relevancia que se ha desarrollado un área específica en torno a esta
temática: la informática aplicada a la traducción.
A su vez, los avances en los estudios en el área de la didáctica de la
traducción indican claramente cuáles son las competencias que se deben
desarrollar para adquirir la macrocompetencia traductora, que incluye a las
siguientes competencias:
18
adquiere un rol central, y su finalidad varía según la necesidad. Las opciones
pueden ser diversas, de un corpus se pueden extraer terminología específica,
fraseología, colocaciones, patrones sintagmáticos (léxico-gramaticales),
equivalentes, entre otros ejemplos. A su vez, el uso de corpus paralelos y
comparables en el aula de traducción tiene otras aplicaciones: por un lado,
permite a las y los estudiantes analizar las técnicas y estrategias utilizadas por
profesionales, y por otro, acceder a textos auténticos escritos por
especialistas.
Referencias
19
Canale, M. & Swain, M. (1980). Theoretical bases of communicative
approaches to second language teaching and testing, Applied Linguistics, 1 (1),
1-47.
Corpas Pastor, G. (2012). Corpus, tecnología y traducción. En Casas
Gómez, M. & García Antuña, M. (Coords.), XII Jornadas de Lingüística, 2, 75-
98.
Gray, D.E. (2004). Doing Research in the Real World. Sage Publications
Limited.
Krashen, S. D. (1987). Principles and Practice in Second Language
Acquisition. Prentice-Hall International.
Krashen, S.D. (1988). Second Language Acquisition and Second Language
Learning. Prentice-Hall International.
Leech, G. (1992). Corpora and theories of linguistic performance. En
Svartvik, J. (Ed.), Directions in Corpus Linguistics (pág. 105-122). Mouton de
Gruyter.
Martín Mor, A., Piqué Huerta,, R. y Sánchez-Gijón, P. (2014). Cambios
en el paradigma de la traducción especializada. IX Simposio sobre traducción,
terminología e interpretación. La Habana, (1-10).
Parodi, G. (2008). Lingüística de Corpus. Una Introducción al Ámbito,
RLA. Revista de Lingüística Teórica y Aplicada, 46 (1), 93-119.
Pérez Paredes, P. (2021). Corpus Linguistics for Education. A Guide for
Research. Routledge.
Richards, J. C., & Rodgers, T. S. (1986). Approaches and methods in
language teaching. Cambridge University Press.
Pring, R. (2004). The Philosophy of Education. Bloomsbury.
Simpson, R. & Swales, J. (1991). Corpus Linguistics in North America. The
University of Michigan Press
Sinclair, J. (Ed.) (1991). Corpus, Concordance, Collocation. Oxford
University Press.
20
Stern, H. H. (1983). Fundamental concepts in language teaching. Oxford
University Press.
Stern, H. H. (1992). Issues and options in language teaching. Oxford
University Press.
Swain, M. (1985). Communicative Competence: Some roles of
Comprehensible Input and Comprehensible Output in its Development. En
Gass, S. & Madden, C. (Ed.), Input in second language acquisition (pág. 235–
253). Newbury House.
21
Introducción a la lingüística de corpus, sus usos y aplicaciones. Liendo, P. y otros
22
se establece entre corpus escritos y corpus orales. Dentro de estos últimos,
están los corpus que son transcripciones del habla, y los que tienen tanto la
transcripción como el registro en audio. Además, los corpus se pueden
clasificar según el porcentaje y la distribución de los textos que lo componen o
según la especificidad de los temas de dichos textos —especializados o
generales—. Otros se diferencian según la cantidad de texto que se incluye en
el corpus: algunos incluyen pocos textos completos, y otros incluyen muchos
extractos de varios textos. También existen los corpus anotados, es decir,
aquellos que no solo tienen textos o extractos, sino también etiquetas con
información morfológica, sintáctica y semántica (ver también § 3.2.2, 4.2 y
5.1).
En lo que respecta al campo de la traducción, una de las clasificaciones
más relevantes es la de corpus ad hoc, que puede definirse como una colección
de textos compilados para la realización de un trabajo de traducción
específico (Rodríguez-Inés, 2008). También se encuentran los corpus
paralelos y los comparables (Krüger, 2012). Los primeros son una colección de
textos en la lengua meta y las traducciones de dichos textos; los segundos
consisten en textos traducidos y originales en la misma lengua. Se podrían
mencionar clasificaciones de corpus que toman en cuenta otros aspectos,
pero no las veremos aquí.
Género y Tipología son dos términos que se usan para clasificar textos en
distintos grupos. Diversos lingüistas ofrecen definiciones distintas de ambos
términos, y no hay un acuerdo general sobre dónde termina uno y empieza el
otro. De forma sencilla, podemos decir que el género es una manifestación
textual con propósitos comunicativos particulares y reconocidos por una
comunidad discursiva (Swales 1990, 2004; Bhatia 1993, 2004). Es decir, la
23
cantidad de géneros posibles es ilimitada; hay tantos géneros como
comunidades discursivas.
Los géneros se diferencian entre sí por su propósito comunicativo,
organización retórica, realizaciones léxico-gramaticales, dinamismo y
evolución. Swales (1990) sugiere que los géneros varían también según otros
parámetros, por ejemplo, su intención retórica, medio o modo de
comunicación, y grado de atención por parte del emisor a la audiencia
potencial. Bhatia (1993), por su parte, hace hincapié en la necesidad de
determinar un propósito o finalidad comunicativa para poder definir un
género, ya que cualquier cambio significativo en el propósito comunicativo
resultará en un género diferente. Así, para Bhatia, un anuncio publicitario y
una solicitud de trabajo son un mismo género, ya que ambos tienen como
finalidad promocionar.
Muchos autores proponen otras definiciones de género que no citaremos
en este manual, ya que propician más confusión que claridad. Y si en el marco
de esta indeterminación terminológica intentamos definir tipología textual, o
tipo textual, se nos presentan nuevos desafíos. Una definición útil puede ser la
de Beaugrande y Dressler (1981), por ejemplo, quienes señalan que las
tipologías textuales se conforman según las formas en las que se pueden
utilizar los textos pertenecientes a un género. Estos autores mencionan una
señal de tránsito, una rima infantil o un artículo periodístico como ejemplos
de tipos textuales; no obstante, otros autores (Swales y Bathia, entre otros)
dirían que estos son géneros.
En el ámbito del análisis del discurso y la traducción, también existen
discrepancias. A la clasificación en textos descriptivos, narrativos y
argumentativos, Beaugrande y Dressler la definen como tipos textuales, Reiss y
Vermeer (1991) como campo estilístico, y Trosborg (1997), como tipo de texto
según la finalidad retórica. A modo de síntesis, se puede afirmar que estos y
otros autores concuerdan sobre la importancia de analizar los conceptos de
género y tipo de texto, si bien la mayoría reconoce la imposibilidad de hacer
24
una clasificación acabada de ellos, por ser categorías dinámicas que varían y
evolucionan dentro de una comunidad discursiva.
Podemos concluir que, para elaborar un corpus de textos, resulta
imprescindible primero adherir a una tipología o definir una que se
enmarque dentro de una concepción de géneros textuales. Algunas
características a tener en cuenta para definir un género son:
25
también nos muestran las complejidades y los matices del lenguaje natural.
Así es que nos pueden aclarar cuestiones sobre el uso de colocaciones, de
terminología especializada, de expresiones idiomáticas y también de unidades
prefabricadas, entre otros. Proponer que los alumnos realicen el análisis de
los corpus constituye una grandiosa oportunidad para que formulen hipótesis
de trabajo, por ejemplo: ¿en qué tipo de texto encontramos este aspecto? ¿Por
qué? (Tolchinsky, 2014). Entre sus múltiples aplicaciones debemos destacar
que el trabajo directo con corpus de textos propicia el aprendizaje por
descubrimiento, la autonomía y la reflexión de los procesos de aprendizaje en
el ámbito académico (Elvira-García, 2021).
26
cantidades de textos, que son accesibles para los usuarios y recuperables
cuando lo necesiten (Elvira-García, 2021).
27
Figura 2. Tipología de Corpus
Esquema 4. Tipología de corpus (Elvira-García, 2021:48)
28
(2021) entre tres categorías de diseño de corpus:
Una vez que se decidió el tipo de corpus comienza la tarea de compilar los
textos.
29
anotación, en cambio, es un recurso que nos permite realizar un análisis de la
lengua del mensaje en sí (Elvira-García, 2021) (ver también § 3, 4.2 y 5.1). Si
trabajamos con corpus digitalizados, los resultados que podemos obtener al
realizar las búsquedas nos mostrarán el uso de determinado aspecto que sea
de nuestro interés.
Los corpus se pueden anotar en todo los niveles gramaticales, además es
posible realizar anotaciones especializadas (ver también § 4.2). El uso de
herramientas digitales como CATMA (§ 5.1) permite etiquetar los textos
seleccionados que forman parte del corpus, anotando los distintos rasgos que
previamente se han establecido o definido. En pocas palabras, podemos
resumir que el uso de anotaciones permite explorar los resultados que
arrojan, y así realizar un acercamiento más incisivo a los textos objeto de
nuestro estudio. Es preciso considerar que el sistema de anotación será el que
nos sea útil, y eso debe ser consensuado entre los usuarios del corpus o
investigadores de antemano.
Referencias
Baker, M. (1995). Corpora in translation studies: an overview and some
suggestions for future research. Target 7(2), 223-243.
Beaugrande, R. & Dressler, W. (1981). Introducción a la lingüística del texto.
Ariel.
Bhatia, V. K. (1993). Analysing Genre: Language Use in Professional Settings.
Longman
Bhatia, V. K. (2004). Worlds of Written Discourse: A Genre-based View.
Continuum.
Elvira-García, W. (2021). Uso de Corpus en la Clase de ELE La Lengua Real
como modelo. Cuadernos de Didáctica. Difusión.
Krüger, R. (2012). Working with Corpora in the Translation Classroom.
Studies in Second Language Learning and Teaching, 2(4), 505-525.
30
https://doi.org/10.14746/ssllt.2012.2.4.4
Liendo, P. (2017). Proyecto de Investigación Alfabetización Académica y
Tipologías textuales en la enseñanza del inglés para la traducción. Facultad de
Lenguas. Universidad Nacional del Comahue.
https://bibliotecadelenguas.uncoma.edu.ar/items/show/332
Liendo, P; Maure, N; Maluenda, S; Salinas, S. (2018). Alfabetización
académica: Traducción, investigación y enseñanza. En Actas Congreso El
Conocimiento como espacio de encuentro. 5ta edición.
Marin, Marcos (1994). Informática y Humanidades. Gredos.
Reiss, K. & Vermeer, H. (1991). Grundlegung einer Allgemeinen
Translationstheorie (2da edición). Niemeyer.
Rodríguez-Inés, P. (2008) Uso de corpus electrónicos en la formación de
traductores (inglés-español-inglés) (ISBN 9788449043307), [Tesis doctoral,
Universitat Autònoma de Barcelona]. Tesis Doctorals en Xarxa.
https://www.tdx.cat/handle/10803/286111#page=1.
Sinclair, J. (1991). Corpus, concordance, collocation. Oxford University
Press.
Swales, J. M. (1990). Genre Analysis: English in Academic and Research
Settings. Cambridge University Press.
Swales, J. M. (2004). Research Genres: Explorations and Applications.
Cambridge University Press.
Tolchinsky, L. (2014). El uso de corpus lingüísticos como herramienta
pedagógica. Textos. Didáctica de la Lengua y de la Literatura (65), pág. 9-17.
Trosborg, A. (1997) (Ed.). Text Typology and Translation. John Benjamins.
31
Introducción a la lingüística de corpus, sus usos y aplicaciones. Liendo, P. y otros
32
quien investiga pueda aprovechar al máximo la información contenida en el
corpus (Torruella & Listerri, 1999).
En nuestra opinión, según los programas más comunes, en el proceso de
trabajo con corpus electrónico, podríamos identificar cinco etapas o fases de
aplicación de herramientas informáticas:
1. Creación
2. Anotación
3. Análisis
4. Visualización
5. Exportación
33
2. Anotación: codificación, asignación de etiquetas, anotación sintáctica y
semántica (parsing).
3. Análisis: de concordancia, colocación, co-ocurrencia, frecuencia, listas
de palabras.
4. Visualización: nubes de palabras, redes de términos, árbol doble,
gráficos de distribución, exploración.
5. Exportación: datos en diferentes formatos de intercambio de archivos
capaces de ser interpretados por otras aplicaciones informáticas tales
como: xml, csv, txt, rdf, html, etc.
Fase de Creación
Fase de Anotación
ANVIL -- anotador
ANNIS -- anotador
34
CorefAnnotator -- anotador
Dexter -- anotador
DisMO -- anotador
UAM CorpusTool -- anotador
UAM ImageTool -- anotador
Fase de Análisis
aConCorde -- concordancias
AntConc -- concordancias
AntPConc -- concordancias
Concordancer -- concordancias
ConcGramCore -- colocación, concordancias
Pareidoscope -- colocación
KHCoder -- analizador, compilador
KWords -- palabras clave
OneClick Terms -- palabras clave
kfNgram -- n-gramas
Kits de Investigación
Del mismo modo, recopilamos algunos enlaces a los corpus más conocidos
que pueden consultarse de manera directa en internet. Algunos de estos
corpus pueden descargarse para trabajar sin conexión:
Corpus de Referencia
35
English-Corpora.org -- Mark Davies -- inglés
CREA -- Real Academia Española -- español
CORPES XXI -- Real Academia Española -- español
Corpus del español -- Mark Davies -- español
CORDIAM. Corpus Diacrónico y Diatópico del Español de América --
Academia Mexicana de la Lengua -- español
El Grial -- Pontificia Universidad Católica de Valparaíso -- español
Corpus de Aprendientes
36
(ver en Youtube: https://www.youtube.com/watch?v=m6e_NUJI_rM)
Referencias
Parodi, G. (2008). Lingüística de Corpus. Una Introducción al Ámbito,
RLA. En Revista de Lingüística Teórica y Aplicada, 46 (1), 93-119.
RAEInforma. (2021). El CORPES XXI, en un minuto.
https://www.youtube.com/watch?v=m6e_NUJI_rM
Rodríguez Ines, P. (2008). Uso de corpus electrónicos en la formación de
traductores [Tesis Doctoral, Universitat Autónoma de Barcelona].
https://www.tdx.cat/bitstream/handle/10803/286111/pri1de2.pdf?
sequence=1&isAllowed=y
Berberich, K. & Ingo Kleiber (2020). Tools for Corpus Linguistics.
https://corpus-analysis.com/ Torruella, Joan & Llisterri, Joaquim. (1999).
Diseño de corpus textuales y orales. En Filología e informática.
https://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/LinguisticaDeCorpus.
Tramallino, C. P. (2021). Avances en el tratamiento computacional en corpus
de aprendientes de español como lengua segunda y extranjera. Quintú
Quimün. Revista de Lingüística, 5.
http://revele.uncoma.edu.ar/htdoc/revele/index.php/lingustica/article/view/3189
Vivaldi Palatresi, J. (2009). Catálogo de herramientas informáticas
relacionadas con la creación, gestión y explotación de corpus textuales.
37
Revista Tradumàtica: tecnologies de la traducció, 7, 1-9.
2 Disponible en https://www.youtube.com/watch?v=m6e_NUJI_rM
38
Introducción a la lingüística de corpus, sus usos y aplicaciones. Liendo, P. y otros
39
relaciones, y su dinamismo.
40
por ejemplo, indicando o marcando características propias del tipo de texto,
del uso de la lengua, etc.
41
5.3. Algunos ejemplos del uso de herramientas para
anotar y analizar corpus
Como se explicó anteriormente, un corpus puede adaptarse a distintos
propósitos de investigación. Esta característica hace posible realizar, por un
lado, un análisis cuantitativo para identificar rasgos o propósitos comunes o
frecuentes de un tipo de texto y, por otro lado, un análisis cualitativo para
registrar ocurrencias lingüísticas, como colocaciones, metáforas,
terminología, etc.
En paralelo con la LC, la tecnología computacional también avanzó
vertiginosamente en el desarrollo de hardware (sistemas físicos) y de software,
(programas computacionales), lo cual permitió que, a mediados de la década
de 1980 y en poco tiempo, surgieran los programas informáticos de ayuda al
análisis cualitativo de datos —también conocido como QDA, por sus siglas en
inglés— y así sus primeros usuarios, los analistas cualitativos. No obstante,
desde entonces, su uso ha aumentado considerablemente entre académicos
que realizan investigaciones cualitativas y cuantitativas. Estos notables
avances tecnológicos contribuyeron a la construcción y el almacenamiento de
estas bases de datos computarizadas, así como al desarrollo de sistemas de
interrogación y recuperación de la información contenida en dichos sistemas
(Parodi, 2008) (ver también §4).
A continuación, se detallarán dos herramientas de marcado de textos, que
permiten realizar tanto un análisis cualitativo como cuantitativo y que
ofrecen distintas opciones de visualización de resultados, como ya se
mencionó en §5.2.2.
5.3.1. ATLAS.ti
42
ATLAS.ti3 es un programa informático de ayuda al análisis cualitativo de
datos (QDA). En resumen, el programa permite segmentar y codificar datos
específicos, determinar relaciones o diálogos entre distintos códigos y
desarrollar anotaciones para llevar adelante una revisión precisa del sistema
que se utiliza. Es decir, el análisis se almacena y organiza en un único archivo,
llamado Unidad Hermenéutica, donde se encuentran los documentos primarios
—en el caso de los investigadores en lengua y lingüística, los textos—, de los
que se extraen citas (segmentos) a los que se aplican los códigos (etiquetas).
Estos códigos son las unidades básicas de análisis, que luego pueden
relacionarse para formar familias (y subfamilias) (Muñoz Justicia & Sahagún
Padilla, 2017). Estas relaciones, llamadas vínculos, pueden visualizarse en vistas
de red, como se muestra en la Figura 4.
Figura 4.
ATLAS.ti 7 Quick Tour - Guía Rápida (Friese).
43
interpretación de datos —como la selección, el etiquetado y la anotación—, es
importante destacar que su propósito final no es la automatización completa
de estos procesos. En resumen, estas son las principales ventajas del uso de
Atlas.ti:
5.3.2. CATMA 6
44
manera, si existe más de una interpretación para un texto determinado, el
sistema no interfiere de ninguna forma en la selección de múltiples etiquetas
ni en las anotaciones incluidas.
El programa combina tres módulos de funciones interactivas: el módulo
Anotar permite la creación flexible de conjuntos de etiquetas y el etiquetado
digital de textos; el módulo Analizar ofrece una serie de opciones de análisis
predefinidas, así como la posibilidad de introducir consultas individualizadas;
y con el módulo Visualizar, se obtiene una disposición gráfica de los datos.
Estos son, brevemente, los principales beneficios que ofrece el uso de
CATMA 6:
45
Figura 5.
Visualización de proyectos en CATMA 6
Referencias
Friese, Susanne (2021). ATLAS.ti 9 Windows User Manual. ATLAS.ti
Scientific Software Development.
https://doc.atlasti.com/ManualWin.v9/ATLAS.ti_ManualWin.v9.pdf
Muñoz Justicia, J & Sahagún Padilla, M. (2017). Hacer análisis cualitativo
con Atlas.ti 7. Manual de uso. Versión 11. Licencia Creative Commons.
Atribución 4.0 Internacional.
https://manualatlas/psicologiasocial.eu/atlasti7.html
Parodi, G. (2008). Lingüística de Corpus. Una Introducción al Ámbito,
RLA. En Revista de Lingüística Teórica y Aplicada, 46 (1), 93-119.
46
Introducción a la lingüística de corpus, sus usos y aplicaciones. Liendo, P. y otros
Esperamos que la lectura de este manual haya resultado útil. De ser así,
agradeceremos su difusión, y los invitamos a contactarse con nuestro equipo
para enviarnos consultas y sugerencias. Por último, nos será de gran ayuda
recibir sus comentarios. Los alentamos a completar el cuestionario.
¡Muchas gracias!
47