Este trabajo es un estudio empírico descriptivo correlacional que tiene por objetivo principal caracterizar el grado de especialización textual, particularmente su léxico y relación emisor-destinatario, a partir de un corpus de textos...
moreEste trabajo es un estudio empírico descriptivo correlacional que tiene por objetivo principal caracterizar el grado de especialización textual, particularmente su léxico y relación emisor-destinatario, a partir de un corpus de textos analizados por cuatro grupos de informantes, usando como base la teoría sociocognitiva de la percepción y el aprendizaje automático. Esta tesis doctoral viene motivada por la escasez de estudios que pretenden estudiar el grado de especialización textual, en concreto, sus condicionantes y límites y, especialmente, el grado intermedio: el texto semiespecializado. Las hipótesis esbozadas están relacionadas con: (1) la posibilidad de encontrar pruebas lingüísticas que se ajusten a cada uno de los grados de especialización; (2) la relación de similitud entre texto semiespecializado y texto no especializado; (3) la relevancia del tema o el tipo textual en la discriminación del grado de especialización; (4) la similitud perceptiva de los usuarios a la hora de distinguir el grado; y (5) la relevancia de la relación emisor-destinatario y la terminología como factores de distinción del grado de especialización. En este trabajo tomamos como marco de estudio la teoría de la comunicación para estudiar elementos diversos como son el texto, la tipología textual, el campo de la terminología, el término como objeto de estudio, la noción de valor especializado, el conocimiento especializado, los procedimientos de reformulación y las características vinculadas hasta ahora al discurso especializado, así como las propuestas de clasificación binaria y continuum. Nuestro material de trabajo está compuesto por un corpus que cuenta con 315 textos y medio millón de palabras. Su representatividad cualitativa para estudiar el grado de especialización textual reside en que parte de tres temas diferentes (reconocidos socialmente, como son el derecho, la informática y la medicina). Posteriormente, hemos seleccionado siete tipos textuales posibles en los tres temas (el artículo en revista científica, la entrada de blog, la revista o web de divulgación especializada, la noticia, la entrevista, la participación en foro y la tesis doctoral). De esta combinación de tipo textual y tema se han recopilado 15 textos. En dicho corpus se estudian diversas variables, tanto cuantitativas como cualitativas. Entre las variables cualitativas encontramos las variables nominales (el tipo de texto y el tema del texto). Entre las variables cualitativas ordinales encontramos el emisor, el destinatario, y la clase de texto. Entre las variables cuantitativas, se analizan el número de formas léxicas, la ratio estandarizada entre tipos de formas léxicas y el total de formas léxicas, el índice de densidad terminológica, el número de procedimientos de reformulación y el índice de reformulación. Parte de estas variables son proporcionadas por el investigador, mientras que otra parte es proporcionada por cuatro grupos de informantes (estudiante, usuario medio, traductor e investigador), lo que arroja una base de datos con 1260 patrones que es analizada mediante la correlación manual de dos o más variables y mediante aprendizaje automático. El análisis mediante técnicas de aprendizaje automático emplea los algoritmos de red bayesiana, de regresión logística, el árbol de decisión J48 y el algoritmo de agrupamiento no supervisado k-means mediante el software WEKA. Las principales conclusiones sugieren la relevancia de las formas léxicas semicrípticas y crípticas en la discriminación de los polos opuestos del grado de especialización, así como el destinatario como factor regulador de la configuración discursiva de los textos cuando se atiende al grado. También se han identificado las similitudes del texto semiespecializado con los otros dos grados, principalmente con el texto divulgativo (desde un punto de vista formal) y con el texto especializado (desde un punto de vista semántico).
This work is an empirical descriptive correlational study whose main objective is to depict the text specialization degree, especially its lexical forms and speaker-recipient relationship, based on a corpus of texts analyzed by four groups of informants, using as a basis the sociocognitive theory of perception and machine learning. This doctoral thesis is motivated by the scarcity of studies that intend to analyze the text specialization degree, in particular, its determining factors and limits and, especially, the intermediate degree: the semi-specialized text. The outlined hypotheses are related to: (1) the possibility of finding linguistic evidences that may correspond to each of the specialization degrees; (2) the relationship of similarity between semi-specialized text and non-specialized text; (3) the relevance of the topic or the type of text in the discrimination of specialization degree; (4) the perceptive similarity of the users when it comes to distinguishing the specialization degree; and (5) the relevance of the speaker-recipient relationship and the terminology as factors of distinction of the specialization degree. In this work, the theory of communication is taken as a frame of reference to study diverse elements such as text, textual typology, the field of terminology, the term as an object of study, the notion of specialized value, specialized knowledge, reformulation methods and the characteristics linked up to now for the specialized discourse, as well as binary and continuum classification proposals. Our material of study is composed of a corpus of 315 texts and half a million words. Its qualitative representativeness to study the text specialization degree lies in that it is based on three different subjects (socially recognized, such as law, computer science and medicine). Subsequently, seven possible types of texts in these three subjects have been selected (article in scientific journal, blog post, scientific-divulgation magazine or web, news, interview, participation in a forum and doctoral thesis). From this combination of type of text and subject, 15 texts have been collected. In this corpus several variables are studied, both quantitative and qualitative. Among the qualitative variables the nominal variables are found: the type of text and the subject of the text. Among ordinal qualitative variables the speaker, the recipient, and the text class are studied. Among the quantitative variables, the number of lexical forms, the standardized ratio between types of lexical forms and the total of lexical forms, the terminological density index, the number of reformulation means and the reformulation index are analyzed. Part of these variables are provided by the researcher, while another part is provided by four groups of informants (student, average user, translator and researcher), which yields a database with 1260 patterns that is analyzed through the manual correlation of two or more variables and through machine learning. The analysis using machine learning techniques employs Bayesian network, logistic regression algorithms, the J48 decision tree and the unsupervised k-means clustering algorithm using the WEKA software. The main conclusions suggest the relevance of semi-cryptic and cryptic lexical forms in the discrimination of the opposite poles of the specialization degree, as well as the recipient as a regulating factor of the discursive configuration of the texts when attending the degree. The similarities of the semi-specialized text with the other two degrees have also been identified, mainly with the non-specialized text (from a formal point of view) and with the specialized text (from a semantic point of view).