Academia.eduAcademia.edu

PROPUESTA DE CONSTRUCCIÓN DE NUEVOS

2024, Oralia

https://doi.org/10.25115/oralia.v27i2.9510

Abstract

Despite the fact that corpus linguistics has been nourished in recent years by data collected in the new electronic communication channels, the bases 1 El presente trabajo se ha realizado en el marco del Proyecto de Investigación Agenda 2050. El español de Málaga: Procesos de variación y cambio espaciales y sociales (PID2019-104982GB-C52), financiado por el Ministerio de Economía y Competitividad y fondos FEDER, en la Universidad de Málaga.

Oralia A n á l i s i s d e l D i s c u r s o O r a l 27/2 Diciembre, 2024 PROPUESTA DE CONSTRUCCIÓN DE NUEVOS CORPUS: LOS MENSAJES DE VOZ DE WHATSAPP COMO FUENTE DE DATOS LINGÜÍSTICOS Álvaro Molina García Antonio Manuel Ávila Muñoz S ta a r epa PROPUESTA DE CONSTRUCCIÓN DE NUEVOS CORPUS: LOS MENSAJES DE VOZ DE WHATSAPP COMO FUENTE DE DATOS LINGÜÍSTICOS1 Álvaro Molina García2 Universidad Complutense de Madrid (España) Antonio Manuel Ávila Muñoz3 Universidad de Málaga (España) Resumen A pesar de que la lingüística de corpus se ha nutrido en los últimos años de datos recogidos en los nuevos canales de comunicación electrónica, las bases procedentes de fuentes orales de origen telemático son aún escasas. No obstante, al igual que en otras muchas áreas de investigación, la crisis sanitaria provocada por la covid-19 ha generado la necesidad de acelerar la incorporación de este tipo de material en la investigación sociolingüística. En consecuencia, dentro del marco del Proyecto PRESEEA-Málaga, consideramos que la recogida de mensajes de voz enviados a través de la aplicación WhatsApp puede ser una forma rápida, eficaz y de bajo coste para la construcción de corpus lingüísticos orales de nueva planta. En el presente trabajo, se expone una discusión teórica sobre las ventajas e inconvenientes de este tipo de corpus. Además, se detalla la metodología empleada para la recogida, almacenamiento y organización de los materiales que hemos empleado hasta ahora en la Universidad de Málaga, con especial atención a los planes de codificación creados y a las estrategias de clasificación usadas. Finalmente, se muestran ejemplos de los materiales almacenados en un intento de presentar la potencialidad de análisis que ofrece este nuevo tipo de corpus. Palabras clave: corpus telemático; mensajes de voz de WhatsApp; Lingüística de Corpus; PRESEEA. Abstract Despite the fact that corpus linguistics has been nourished in recent years by data collected in the new electronic communication channels, the bases 1 El presente trabajo se ha realizado en el marco del Proyecto de Investigación Agenda 2050. El español de Málaga: Procesos de variación y cambio espaciales y sociales (PID2019- 104982GB- C52), financiado por el Ministerio de Economía y Competitividad y fondos FEDER, en la Universidad de Málaga. 2 N.º ORCID: 0000-0001-5900-9921. Dirección de correo: [email protected]. 3 N.º ORCID: 0000-0002-5239-2670. Dirección de correo: [email protected]. ORALIA, vol. 27/2, 2024, págs. 135-166. 136 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. from oral sources of telematic origin are still scarce. However, as in many other research areas, the health crisis caused by COVID-19 has generated the need to accelerate the incorporation of this type of material in sociolinguistic research. Consequently, within the framework of the PRESEEA-Málaga Project, we consider that the collection of voice messages sent through the WhatsApp application can be a fast, efficient and low-cost way to build new oral linguistic corpora. This paper presents a theoretical discussion on the advantages and disadvantages of this type of corpus. In addition, the methodology used for the collection, storage and organization of the materials that we have used up to now at the University of Malaga is detailed, with special attention to the coding plans created and the classification strategies used. Finally, examples of the stored materials are shown in an attempt to present the analysis potential offered by this new type of corpus. Keywords: telematic corpus; WhatsApp voice messages; Corpus linguistics; PRESEEA. Fecha de recepción: 05/10/2023 Fecha de aceptación: 14/12/2023 Fecha de la versión definitiva: 21/12/2023 0. Introducción La crisis sanitaria provocada por la covid-19 agudizó la enorme dificultad que suponen los desplazamientos para realizar entrevistas presenciales con el fin de obtener materiales lingüísticos orales para la construcción de corpus. Pero también nos proporcionó el acceso a procedimientos diferentes de recogida de información lingüística adaptados a la era digital. En la actualidad, parece que la consolidación de nuevas opciones de comunicación oral, como el envío de audios a través de la aplicación de mensajería instantánea WhatsApp, ofrece una serie de innumerables ventajas de las que todavía no se han aprovechado ramas como la dialectología, la sociolingüística o la propia lingüística de corpus. En el presente trabajo pretendemos exponer, de manera general, una de las propuestas más relevantes del proyecto Agenda 2050. El español de Málaga: Procesos de variación y cambio espaciales y sociales referida a la construcción de corpus telemáticos de nueva planta que permitan continuar con el análisis del habla de la ciudad de Málaga iniciado hace más de 30 años. En concreto, se trata de crear una base de datos lingüística recogida de manera telemática y constituida por materiales orales enviados mediante el formato de audios de WhatsApp (*.opus, fácilmente convertibles a mp3). En primer lugar, se exponen los antecedentes previos sobre la investigación basada en corpus lingüísticos en la ciudad de Málaga y se reflexiona sobre las ventajas que pueden ofrecer en la actualidad los corpus creados a partir de datos de inmediatez oral como los que nos ofrece WhatsApp. A ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 137 continuación, se presenta el procedimiento que se está siguiendo actualmente para recoger el material, con especial énfasis en las nuevas posibilidades que ofrece esta propuesta metodológica. Por último, antes de presentar las conclusiones, se analizan las impresiones obtenidas en la primera fase del proyecto, se exponen algunos ejemplos reales y se muestran las ventajas y dificultades que han surgido en esta etapa inicial. 1. Antecedentes 1.1 La comunidad de habla. Málaga y el proyecto PRESEEA La propuesta de construcción de un corpus telemático puede entenderse como un complemento metodológico en el contexto del Proyecto para el Estudio Sociolingüístico del Español de España y de América (PRESEEA). El proyecto PRESEEA se organiza en torno a la constitución de un macrocorpus sociolingüístico y sincrónico del español creado con datos procedentes de diferentes áreas dialectales de la lengua española, con una metodología común que permita una comparación fiable. El proyecto se construye sobre una serie de fundamentos epistemológicos (Moreno Fernández, 1996) que, aunque pueden ser consultados in extenso en la propia página web de PRESEEA (https://preseea.linguas.net/ [última consulta, 8 de febrero de 2023]), se resumen en los siguientes puntos (Vida 2007: 24-25): 1. Los datos se recogen, principalmente, en núcleos urbanos hispanohablantes. PRESEEA se nutre del trabajo de más de 40 equipos de investigación sociolingüística presentes en las principales ciudades de habla hispana de todo el mundo: Madrid, Bogotá, México DF, Santiago de Chile, Nueva York, Lima, Montevideo, Bogotá, Asunción, etc. 2. Los materiales que faciliten los análisis lingüísticos deben proceder de la grabación de entrevistas semidirigidas. En ellas, el entrevistador trata de estimular la participación de los informantes mediante módulos temáticos previamente diseñados con el objetivo de garantizar la aparición de situaciones de habla espontáneas. 3. Las distintas muestras obtenidas deben ser representativas del universo que se pretende estudiar y comparables entre sí (1/25 000 informantes para ciudades de unos dos millones de habitantes). Se diseñan sobre la base de un esquema de cuotas de afijación uniforme a partir de tres parámetros de preestratificación: sexo, edad y nivel educacional. 138 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. Dentro de los equipos de PRESEEA, se encuentra el que estudia los usos lingüísticos de la ciudad de Málaga. La Tabla I representa la muestra con la que se trabaja en esta ciudad de casi un millón de habitantes, compuesta por 54 hablantes, clasificados en tres grupos generacionales (primera generación: 18-34 años; segunda generación: 35-54 años; tercera generación: >55 años), identidad de género (hombres, mujeres) y niveles de instrucción (básicos: sin estudios o con educación obligatoria; intermedios: bachillerato, formación profesional; superiores: estudios universitarios), con un total de tres informantes por casilla. Hasta la fecha, se han recogido 2 corpus PRESEEA-Málaga. En primer lugar ‒publicado en tres volúmenes‒ el corpus PRESEEA-Málaga I (Vida 2007; Ávila et al. 2008; Lasarte et al. 2009), asumió la preestratificación arriba expuesta y fue recogido en la década de los 90. A través de la realización de entrevistas semidirigidas, los datos obtenidos permitieron realizar investigaciones sobre el vernacular urbano de Málaga con resultados que afectan a todos los niveles de análisis lingüístico (Vida 2003; Villena 1994, 2001, 2005; Hernández y Villena 2009). Tabla I. Muestra-tipo por cuotas del proyecto PRESEEA-Málaga Generación 1 (20-34 años) Generación 2 (35-54 años) Generación 3 (más de 55 años) H M H M H M Nivel de estudios 1 3 3 3 3 3 3 18 Nivel de estudios 2 3 3 3 3 3 3 18 Nivel de estudios 3 3 3 3 3 3 3 18 Total 9 9 9 9 9 9 54 Total No obstante, el análisis exhaustivo de los datos reveló que era necesario incorporar variables mesosociales y de pequeña escala que explicasen aquellos casos particulares que no se ajustaban a las predicciones de los modelos obtenidos, ya fuese porque se trataba de hablantes jóvenes de nivel socioeconómico alto que ofrecían un porcentaje elevado de rasgos vernaculares, o porque eran hablantes de edad avanzada de nivel socioeconómico bajo que presentaban realizaciones más cercanas a patrones de actuación lingüística propios del español estándar peninsular. Con el fin de mejorar el modelo de explicación de la comunidad de habla de Málaga sobre la base de estas variables, entre 2013 y 2015 se recogieron las grabaciones del corpus PRESEEA-Málaga II (Vida, en prensa). Su explotación facilitó, igualmente, el desarrollo de nuevos trabajos que permitieron avanzar en el establecimiento de patrones sociolingüísticos ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 139 propios de la comunidad estudiada (Vida 2016; Villena y Vida 2017; Ávila 2017; Molina 2019, 2020, 2021). En esta ocasión, además, tras la escucha atenta de todas las entrevistas y el análisis de los cuestionarios sociobiográficos obtenidos para cada informante, se construyeron perfiles de la biografía lingüística de todos los participantes con el fin de extraer variables postestratificacionales que pudiesen mejorar el modelo inicial. Esta tarea de reinterpretación de los datos probó que los intereses culturales de los hablantes –al margen de la educación reglada– y, en definitiva, la construcción de variables que reflejan lo que Bourdieu denomina capital cultural incorporado (Bourdieu 1977, 1984) mejoraban la explicación de la variación en comparación con las variables estratificacionales y de estatus como el nivel de instrucción formal (Villena 2018; Molina 2021). Los resultados de los diversos estudios sociolingüísticos en los planos fonético-fonológico, morfosintáctico, léxico y pragmático realizados a partir de la explotación de los corpus PRESEEA-Málaga I y PRESEEA-Málaga II ponen de manifiesto que la comunidad de habla de esta ciudad está muy polarizada desde el punto de vista social. Por un lado, el grupo de hablantes principalmente jóvenes, de origen urbano, de estrato socioeconómico alto y con amplio capital cultural incorporado fomenta la aparición de una nueva variedad coinética cercana al español estándar, propia de los conocidos procesos de nivelación dialectal que están surgiendo de manera frecuente en diversos países europeos (Hinskens 1998; Kerswill 2003; Britain 2009; Røyneland 2010; Cerruti 2019). Los jóvenes malagueños con aspiraciones y posibilidades de apertura al exterior se identifican lingüísticamente mediante la convergencia fonológica con la variedad estándar del español peninsular en lo que se refiere, en esencia, al ataque silábico (Villena y Ávila 2014; Molina 2021) y propician la aparición de una variedad lingüística intermedia. Por otro lado, el grupo de hablantes compuesto por personas de edad más avanzada, de origen rural, de estrato socioeconómico medio-bajo, que no presenta un interés real en alejarse de las costumbres y creencias locales, mantiene firmemente los rasgos dialectales tradicionales del español meridional, tales como la indistinción de las coronales fricativas, la aspiración de la fricativa velar, la fricatización de la africada sorda, etc. Este grupo, en concreto, fomenta la divergencia dialectal que se presenta como el contrapunto a la corriente observada con anterioridad (Villena y Vida 2017). De esta forma, en la Málaga actual encontramos dos extremos socio-demográficos considerados en algunos estudios como pijos o limonetis (estratos sociales altos) y merdellones o malaguitas (estratos sociales bajos) (Ávila 2017). Sin embargo, a pesar de los buenos indicios que sugieren estos resultados basados en los corpus PRESEEA-Málaga I y II, creemos que no manifiestan una representatividad suficiente como para mostrar el panorama lingüístico de todo el espectro social. 140 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. Es cierto que, como se ha indicado, la inclusión de variables de hablante de pequeña escala basadas en la biografía lingüística y los intereses y costumbres personales funciona para explicar aquellos casos que el modelo inicial no predecía correctamente. Sin embargo, como refleja el Gráfico 1, la intuición sociolingüística del equipo de investigación de la ciudad de Málaga indica que la polarización es aún mayor que la que muestran los resultados obtenidos hasta ahora. Se percibe a diario un número de rasgos muy próximos tanto a los modelos vernaculares como a los modelos estándar producidos por un porcentaje elevado de hablantes cuyas características sociales dificultan el acceso del investigador a través del trabajo de campo habitual. Por consiguiente, se antoja necesaria la creación de un tercer corpus en el seno de PRESEEA–Málaga que consiga recoger los datos lingüísticos producidos por estos hablantes de ambos polos del espectro sociolingüísticos. El objetivo de este nuevo corpus es abarcar por completo el continuo social de la ciudad de Málaga y obtener datos de calidad que consigan reflejar, en toda su extensión, la realidad lingüística que la comunidad de habla articula y percibe. Gráfico 1. Diferentes variedades lingüísticas y corpus de Málaga En definitiva, la suma de la necesidad de constituir un corpus que recoja esta realidad sociolingüística, junto a las dificultades metodológicas que ha supuesto la insólita situación de crisis sanitaria, están en el origen de la propuesta de recogida telemática de datos orales para construir un nuevo corpus; el PRESEEA-Málaga III, formado por audios procedentes de la aplicación de mensajería instantánea WhatsApp. 1.2 La incorporación del corpus telemático a la metodología de estudio dialectal En los últimos años, la investigación sociolingüística ha puesto el foco en los nuevos canales de comunicación y las tipologías textuales asociadas a ellos: correo electrónico, chat, Twitter, etc. (Crystal 2006, Sánchez Upegui 2008, Zappavigna 2011, Gutiérrez-Sanz 2016; etc.). Sin embargo, la mayoría de los trabajos se han centrado en analizar el código escrito presente en esos canales. Recientemente, el proyecto What’s up, Switzerland? ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 141 (Ueberwasser y Stark 2017), por ejemplo, ha recogido el primer corpus multilingüe a gran escala de mensajes escritos de WhatsApp (617 chats, 763 650 mensajes). La irrupción y expansión de los audios de WhatsApp ha introducido por primera vez un verdadero modelo híbrido entre, por un lado, la escritura (los textos se pueden borrar o reescribir, la información del contenido se acumula en cada mensaje, se espera una respuesta a solo alguno de los elementos, se requiere un tipo especial de interacción con los mensajes escritos, etc.) y, por otro lado, la oralidad (mensajes orales, con presencia de elementos fonéticos segmentales y suprasegmentales, etc.). Asimismo, en nuestra opinión, la recogida de un corpus telemático puede ayudar a paliar el escollo metodológico que supone el acceso a hablantes situados en ambos extremos del continuo sociolingüístico en el que se distribuye la comunidad de habla, como hemos mostrado en el apartado anterior. Frente a la recopilación tradicional de corpus basados en entrevistas presenciales o en el ‘nuevo’ código escrito presente en las nuevas redes sociales, el corpus oral telemático que proponemos ofrece las siguientes ventajas: • • Accesibilidad. Una de las principales ventajas que se obtienen con la recogida de material oral a partir de aplicaciones que permiten el envío de mensajes de voz, como WhatsApp, es que se consigue una accesibilidad considerablemente mayor en comparación con procedimientos previos. Como se detallará más adelante, en el apartado de descripción metodológica, la posibilidad de que el efecto bola de nieve funcione con este tipo de soportes, mediante el establecimiento de grupos de informantes, por ejemplo, permite evitar en cierta medida el problema de la representatividad. El hecho de que los colaboradores puedan conseguir material de diferentes fuentes con muy poco esfuerzo favorece que el investigador acceda sin demasiados problemas a los estratos socioeconómicos más polarizados. Como es lógico, algunos colaboradores/informantes se convierten así tanto en sujetos de estudio como en actores esenciales en el proceso de recogida de materiales lingüísticos, pues actúan como recopiladores de la información buscada al actuar como colaboradores en el proceso de recogida de materiales. Espontaneidad. Posiblemente, una de las principales causas por las que los anteriores proyectos basados en corpus orales no conseguían reflejar de manera fiel la polarización social completa se deba a que no se haya evitado con éxito la paradoja del observador (Labov 1972). Es evidente que cuando los usuarios de la variedad vernacular son conscientes durante la entrevista de que están siendo grabados, fuerzan artificialmente su actuación lingüística hacia 142 Álvaro Molina y Antonio M. Ávila • • • • ORALIA, vol. 27/2, 2024, págs. 135-166. un registro más formal y estándar. Sin embargo, la grabación de audios de WhatsApp tiende a realizarse de manera natural y fluida. Solo en contadas ocasiones se fuerza la pronunciación de manera no natural. Podría decirse que el envío habitual de mensajes mediante este medio naturaliza el proceso hasta el punto de que consigue neutralizarse, en buena medida, los efectos indeseados de la paradoja del observador (nunca se debe olvidar que la paradoja del observador siempre va a existir, incluso cuando el hablante no es sujeto de una investigación y tan solo se supone juzgado por aquel hablante con el que interactúa). Adaptación. La tarea de entrevistar a un gran número de hablantes eleva la carga de trabajo de manera considerable. La crisis sanitaria provocada por el coronavirus, además, ha implicado el desarrollo social de la labor investigadora mediante vías no presenciales. Los investigadores en el ámbito de las humanidades necesitan incorporar los medios más actuales para adaptarse a esta situación. En este sentido, parece innegable que la recogida de material de manera telemática se encuentra acorde con estas necesidades académicas y sociales. Actualización e Inmediatez. Hoy en día, la recodificación de las variables durante el análisis y la interpretación continua de los datos supone una constante asumida, aunque no siempre resuelta. El método científico exige por definición que los resultados obtenidos conlleven una reformulación de las hipótesis originales e incluso de la metodología. La inmediatez y facilidad que aporta la recogida virtual de datos orales permite que se incorporen modificaciones de manera constante. Como es lógico, una recogida de datos tradicional basada en la actuación presencial cara a cara retrasaría esta actualización en directo o incluso la imposibilitaría. La actualización inmediata y continua de los datos permite que la investigación alcance una mayor riqueza y profundidad. Cuantificación. A pesar de que los corpus de PRESEEA siguen el criterio de representatividad poblacional del 0,025 % (Labov, 1972), las bases de datos incorporan tan solo 54 hablantes para ciudades como Málaga. De nuevo, la inmediatez característica de esta recogida metodológica permite aumentar considerablemente el número de hablantes que conformen el corpus. Así, se podrá probar qué influencia estadística supone este aumento de informantes sobre los resultados obtenidos. Variables fonético-fonológicas. A diferencia de los corpus construidos a partir de los textos escritos que proporcionan las nuevas redes sociales telemáticas, la recogida de audios de WhatsApp ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 143 añade la ventaja de poder realizar, además de los análisis que permiten las citadas redes, otros de tipo fonético–fonológico. Esta ampliación analítica supone incluir uno de los niveles de estudio que parecen ofrecer mayor significado social y geográfico a los estudios de corte sociolingüístico y dialectal y, en consecuencia, resulta fundamental para el desarrollo de las investigaciones en curso sobre dialectología social y sociolingüística variacionista. No obstante, si bien es cierto que son numerosas las ventajas que ofrece esta nueva técnica de recogida de datos, no está exenta de ciertos inconvenientes. Por un lado, la posible superposición de voces y la mala calidad de algunas grabaciones en origen pueden dificultar la labor de etiquetación impresionista de ciertas variantes lingüísticas. Asimismo, estas circunstancias pueden influir negativamente en el correcto análisis acústico de los datos, ya que el control del experimento (micrófono de grabación, ruido de fondo, distancia de los informantes respecto al micrófono, reposo o movimiento del informante, control de los solapamientos de turno, etc.) se pierde en gran medida. Si la bajada notable de calidad del audio se ve compensada por la naturalidad y espontaneidad del discurso recogido habrá de ser valorada a medida que se implemente este tipo de corpus. Lo que es innegable es que las circunstancias señaladas hasta aquí suponen dedicar tiempo a cribar una parte del material que, por diversos motivos, no será aprovechable para determinados análisis; aunque esta circunstancia es habitual, en mayor o en menos medida, en cualquier modalidad de corpus lingüístico. Por otro lado, la incorporación masiva de voces procedentes de grupos de WhatsApp puede hacer perder el control del investigador sobre los informantes en su origen y, con ello, comprometer su correcta identificación social. A ello hay que añadir que, en ocasiones, el acceso directo a los intervinientes en los grupos muy amplios puede ser difícil, con lo que la obtención de los permisos individuales para el uso de los materiales podría comprometer su explotación por cuestiones de protección de datos y preservación de la intimidad. Precisamente para paliar estos inconvenientes, hemos diseñado unas fichas específicas de identificación tanto del origen de los audios como de los informantes que intervienen en ellos que presentamos en el correspondiente apartado metodológico. No obstante lo anterior, consideramos que las ventajas de construir corpus telemáticos orales como el que aquí presentamos superan las limitaciones señaladas. A los beneficios expuestos hasta ahora (accesibilidad, espontaneidad, adaptación, actualización e inmediatez, cuantificación, análisis fonético-fonológico) hay que añadir sus diversas aplicaciones potenciales: en primer lugar, como se ha señalado, supondrá una metodología dialectal y sociolingüística innovadora fácilmente extensible a otros ámbitos de estudio. Los resultados del proyecto no solo arrojarán datos concretos sobre la 144 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. ciudad de Málaga, sino que permitirán determinar si esta nueva metodología telemática basada en registros orales procedentes de las redes sociales que ofrecen las nuevas tecnologías es una técnica de recogida de datos válida y extrapolable a diferentes investigaciones. En este sentido, consideramos que el contexto general del proyecto PRESEEA es idóneo para demostrar la validez del método. En segundo lugar, permitirá realizar nuevas investigaciones en el seno del análisis del discurso y la estructura conversacional ampliadas a grupos sociales considerados, hasta ahora, de difícil acceso. En tercer lugar, el corpus permitirá, al igual que PRESEEA-Málaga I (1995) y PRESEEA-Málaga II (2015), análisis de variacionismo sociolingüístico y de corte dialectal y geográfico, con variables de los diferentes niveles de análisis, incluido el fonético (tanto impresionista como acústico). Pero ahora, con una renovación y actualización constante de los materiales, sin necesidad de esperar 20 años para la construcción de nuevos corpus. 2. Metodología 2.1 Recogida de audios en WhatsApp. Técnicas y organización del material lingüístico Como se refleja en el Gráfico 2, la recogida de materiales puede realizarse mediante dos procedimientos distintos, aunque complementarios: el almacenamiento de audios procedentes de conversaciones privadas (audios individuales), o aquellos cuyo origen sean los grupos de WhatsApp. Estos podrán ser creados ad expreso o podrían existir previamente. Audios individuales. En primer lugar, la manera más intuitiva y directa de obtener datos orales telemáticos consiste en solicitar a los contactos cercanos de los investigadores que reenvíen audios recibidos en las últimas semanas y meses. De esta manera, no se obtienen solo materiales orales, sino que se consigue de antemano minimizar los efectos de la paradoja del observador. Una diferencia fundamental con la entrevista tradicional es que en estas los informantes son conscientes de que están siendo observados antes de comenzar a hablar, mientras que con este método los informantes serán conscientes de que van a ser observados después de hablar. Es posible también optar por la técnica de recogida en bola de nieve. Así, con un esfuerzo mínimo, el investigador consigue acceder a informantes de todo el espectro social. Como hemos sostenido hasta ahora, con el fin de poder investigar sobre la importancia de este modelo híbrido oralidad – escritura sobre el análisis de discurso y la estructura de la conversación, puede pedirse a los informantes que reenvíen conversaciones completas que se hayan producido mediante audios. En la actualidad, este tipo de conversaciones parece haberse normalizado y no resulta extraño encontrar intercambios relacio- ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 145 nados de más de un minuto de duración que se estructuran como conversaciones organizadas. No obstante, a pesar de que en apariencia se trata de un medio oral, no puede obviarse que en él quedan rastros de la escritura, como la no superposición de contenido, la posibilidad de eliminar el mensaje antes (incluso después) de enviarlo, etc., lo que afecta innegablemente a la alternancia de turnos y a la disposición de contenidos. Sin embargo, el envío de este tipo de conversaciones completas permite analizar la influencia de factores como las marcas que dejan los audios escuchados por la otra parte (doble tic azul), reproducir al doble de velocidad los audios, etc. Gráfico 2. Esquema de los diferentes tipos de intercambio propuestos para la recogida telemática de materiales orales Grupos de WhatsApp. Otra posibilidad consiste en recoger materiales orales enviados a grupos de WhatsApp. Esto supone también un avance en la metodología dialectal tradicional, que recomendaba recoger los materiales individualmente para evitar los solapamientos de las intervenciones que, a menudo, dificultaba los análisis. Los grupos de WhatsApp permiten, además, un estudio más real del papel que juegan las nuevas redes sociales (variables mesosociales) y la influencia que existe entre los hablantes en la actuación lingüística (estatus, jerarquía, tenor). No solo se establece una comparación entre el comportamiento lingüístico de hablantes que ocupan un determinado puesto en una red social, sino que se puede analizar de inmediato cómo los hablantes modifican sus actuaciones lingüísticas en función de los factores señalados. Los grupos de WhatsApp también ofrecen nuevas posibilidades de obtener discursos lo más espontáneos posible a través de estrategias programadas. Se pueden enviar juegos o adivinanzas que los miembros del grupo deben resolver mediante sus intervenciones. También pueden enviarse diferentes noticias de actualidad, vídeos presentes en la red sobre temas que 146 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. generen polémica y, en definitiva, utilizar todos los recursos que las nuevas tecnologías digitales ofrecen para conseguir que los miembros del grupo interactúen oralmente de manera fluida, dinámica y natural. Tipo de Intercambio. Como hemos comentado, la posibilidad de reducir en gran medida los efectos de la paradoja del observador es una de las grandes ventajas que supone la constitución de un corpus como el aquí propuesto. En consecuencia, se ha considerado como variable de estudio el tipo de intercambio comunicativo que da origen al mensaje de voz: por un lado, se recogen audios tanto de grupos de WhatsApp como privados que existían con anterioridad a la recogida del material que, en consecuencia, han sido grabados sin que el hablante fuese consciente de que iba a ser objeto de investigación lingüística; por otro lado, se propone la creación de grupos de WhatsApp ex profeso con informantes seleccionados previamente. Para tal fin, se crean grupos con diversos hablantes y se les pide que, en la medida de lo posible, se comuniquen solo mediante audios. Se espera que los participantes, conscientes de que ese contenido va a ser analizado, opten por variantes más formales y menos vernaculares. De esta manera, se consigue la incorporación de una nueva variable que pueda medir indirectamente el grado de formalidad o espontaneidad del discurso. De manera general, se deberían establecer grupos de hablantes entre los que ya exista una relación previa. Sin embargo, es posible crear grupos de voluntarios que no se conozcan y cuya interacción se limite tan solo a conversar sobre ciertos temas en el grupo. Esta sería otra manera de conseguir marcar diferencias de formalidad y de enriquecer la variedad del material recogido. Presencia del Investigador. La presencia o ausencia del investigador en el grupo de WhatsApp es otra manera de medir la formalidad e informalidad de los audios. Si se consigue registrar un mayor número de rasgos dialectales en aquellos grupos en los que el investigador no está presente, estaremos en disposición de afirmar que se trata de variantes vernaculares que los hablantes tratan de frenar en contextos de una mayor formalidad. En caso de que los hablantes no alteren en exceso su comportamiento lingüístico, podría añadirse la ventaja de que el investigador actúe, además, como participante, lo que puede ayudar a dinamizar el grupo mediante determinadas preguntas, propuesta de temas de debate o reflexión, etc., sin depender de forma directa de una tercera persona ajena al grupo que actúe como pseudomoderador. Por ello, hemos considerado la presencia/ausencia del investigador en los grupos de WhatsApp analizados como variable de estudio. 2.2 Muestra de hablantes y cuestionarios En cuanto a las variables de hablante que estratifican el nuevo corpus, se ha expuesto la necesidad de superar las barreras macrosociales que hasta ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 147 ahora se venían aplicando (edad, sexo, nivel educacional). La idea básica es reorganizar el método de investigación tradicional y no aplicar la interpretación solo a los resultados y al análisis, sino también a la metodología y a la recogida de datos. En nuestro caso, la única condición exigible de manera previa al envío de audios (y que más adelante se comprueba) es que los hablantes hayan nacido en la ciudad de Málaga o residan en ella desde un periodo de tiempo superior a 15 años. También es necesario plantearse cómo adaptar las técnicas de muestreo y métodos de campo. Uno de los primeros pasos consiste en realizar un trabajo etnográfico previo que incluya la identificación interpretativa de registros y grupos perceptivos. Para ello, hemos realizado una revisión de investigaciones en Málaga sobre percepción comunitaria (Molina 2019, 2021) que analiza en profundidad la indexicalidad de las variantes lingüísticas en los tres niveles sociales: macroestratificacional, mesosocial y de pequeña escala/biográfico (Villena y Vida 2017). Los resultados muestran una tendencia hacia la pérdida progresiva de los rasgos lingüísticos marcados regionalmente por parte de las mujeres urbanas jóvenes educadas pertenecientes a la clase social media-alta: ingresos económicos altos, residencia en las zonas más prestigiosas de la ciudad; con redes sociales laxas y con un buen acopio tanto de capital objetivado (instrucción posobligatoria de los padres y de la pareja), como de capital incorporado (interés por adquirir conocimientos fuera de la educación reglada). En la metodología tradicional, primero se configuran las variables sociales, se buscan informantes que cumplan el perfil requerido y, a veces, se les pide que rellenen un cuestionario sociológico durante o tras la entrevista. Sin embargo, el proceso ahora es diferente: primero se recoge el material lingüístico que resulta interesante y que tiene calidad suficiente para conformar el corpus y, después, se localiza al informante. Si el emisor de los audios los envía al investigador directamente, tan solo deben rellenar un formulario de concesión para uso académico e investigador. Si el emisor de los audios es una tercera persona, el remitente de los audios debe primero informar al emisor original de que los audios se van a enviar a un investigador para que realice análisis lingüísticos y estadísticos, y se le pide que rellene el formulario de protección de datos. Esto aplica de igual forma al envío de audios que han sido grabados con anterioridad. En aquellos grupos que vayan a generar nuevo contenido, deben ser conscientes de que su material va a ser empleando para la investigación y deben rellenar el correspondiente formulario de cesión de derechos. Una vez recogido el material lingüístico, el investigador trata de obtener información sociológica sobre los hablantes y sobre las circunstancias de la interacción comunicativa a través de cuestionarios específicos estructurados en bloques (Anexo I): 148 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. A. Información sobre los hablantes. Se recoge por medio de una ficha de datos sociológicos elemental. En ella se señala la identidad de género, edad y nivel de instrucción formal tanto del emisor como del destinatario del mensaje de voz. B. Información sobre las circunstancias de la interacción. Este apartado del cuestionario recoge datos que sirven para reconstruir la relación que existe entre el emisor y el destinatario del mensaje: grado de proximidad, tipo de relación, formalidad y determinados factores enunciativo-situacionales que pudiesen ser de interés interpretativo y analítico: temática, tipo de registro, fuerza ilocutiva del acto de habla, principalmente. El poder de condicionamiento de los actos de habla generados en el producto final es innegable. La actuación lingüística del informante variará, y alcanzará un registro más espontáneo y próximo a lo considerado ‘vernacular’, cuando existan relaciones de solidaridad y cercanía entre los hablantes. De igual modo, todos los audios se identifican mediante una matrícula que se complementa con información adicional: Información sobre el archivo de audio Matrícula Ejemplo: MA_HE3_001_01 Se sigue la identificación propuesta en el entorno de PRESEEA, donde MA responde a los caracteres identificativos de la comunidad estudiada, en este caso MA por la ciudad de Málaga, seguido del código de identificación sociolingüística del informante (Género: H(ombre) o M(ujer); Variedad que refleja el audio: V(ernáculo) o E(stándar); Grupo de edad: 1,2,3) y de un número de tres cifras desde el 001 hasta el número máximo de informantes. Finalmente, aparece una numeración de dos cifras desde el 01 que indica el número de audio asociado al informante. Duración del audio (tiempo expresado en segundos) Transliteración completa del audio Carpeta de origen (para preservar el anonimato, los nombres de las carpetas se presentan aquí solo con la inicial del nombre asignado) 1. K 2. MC ORALIA, vol. 27/2, 2024, págs. 135-166. 3. 4. 5. 6. 7. Propuesta de construcción de nuevos corpus... 149 Ch ME CA PyP Grupo de WhatsApp La clasificación en distintas carpetas obedece solo a criterios de recogida de datos. Los audios que conforman una carpeta suelen caracterizarse por haber sido recopilados por un mismo entrevistador, por haber sido recogidos de una zona geográfica específica, o por tener alguna peculiaridad diferente (Grupo de WhatsApp). En cualquier caso, si se diesen futuras reorganizaciones del material sonoro, estaría prevista su modificación en la base de datos. Los datos anteriores se almacenan en una base de datos general que contiene la información necesaria para organizar a los hablantes según las variables sociales que proporcionen mejores resultados. De nuevo, la facilidad e inmediatez de actualización de datos que el corpus telemático ofrece permite obtener información sociológica del informante con un bajo coste temporal. Componentes situacionales Hemos considerado relevante la inclusión de variables situacionales, derivadas de los estudios de Fishman (1972), Hymes (1974) y Halliday (1978), donde se advierte de que estos componentes situacionales van a marcar las distinciones entre los distintos tipos discursivos, lo que afecta a las interacciones comunicativas. Estos componentes son necesarios para entender cómo se articulan los factores situacionales y cuáles predominan o determinan a los otros, ya que los componentes son interdependientes en todos los casos. En general, los componentes más importantes son el ‘campo’ (‘field’) definido como el tipo de acción social, el papel de las relaciones o ‘tenor’ (‘tenor’) y el ‘modo’ (‘mode’), la organización simbólica. Mostramos a continuación un ejemplo de la estructura de la base de datos codificada donde quedan almacenados todos los datos: 150 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. Matrícula G V E A/A D/A Transliteración K GD ED ID P R FI FII T TC R FI MA_HV2_001 1 1 2 MA_HV2_001_03 0:03 El Olea dice que te da recuerdos 1 1 2 1 1 4 0 0 1 2 0 7 MA_HV2_001 1 1 2 MA_HV2_001_04 0:03 ¿Y por qué no mides eso Carlos, los que hay? 1 1 2 1 1 4 0 0 2 3 0 2 1 1 2 1 1 4 0 0 2 3 0 4 MA_HV2_001 1 1 2 MA_HV2_001_05 0:16 El del lavabo normalmente va a un cero cinco a un metro cero cinco centímetros para normalmente, hay muchas veces que lo ponen más alto para que se quede entre el espejo y el lavabo, el lavabo normalmente tiene uno veinte MA_HV2_002 1 1 2 MA_HV2_002_02 0:05 Carlos entonces que, ¿Cuánto has sacado menos? ¿Pero mucho menos o qué? 1 1 2 1 1 4 0 0 2 3 0 8 MA_HV2_002_03 Espérate que yo no lo tengo guardado, ahora lo buscare y te lo mandare, porque como me llama por la mañana pues ahora 0:10 lo mirare y te lo mandará porque es que no lo tengo ni guardado no le he puesto ni el nombre 1 1 2 1 1 4 0 0 2 3 0 5 MA_HV2_002 1 1 2 Matrícula: Identificación general de la procedencia de la grabación G: Género del emisor (1. Hombre, 2. Mujer, 3. Diferente a 1 y 2) V: Variedad empleada en el audio (1. Vernáculo, 2. Estándar) E: Edad del emisor (1. 20-34 años, 2. 35-54 años, 3. 55 en adelante) ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 151 A/A: Identificación específica del archivo de audio D/A: Duración del audio expresada en segundos Transliteración: transliteración ortográfica y normativa completa del audio K: Carpeta de origen GD: Género del destinatario (1. Hombre, 2. Mujer, 3. Diferente a 1 y 2) ED: Edad del destinatario (1. 20-34 años, 2. 35-54 años, 3. 55 en adelante) ID: Nivel de instrucción del destinatario (1. Estudios básicos o primarios, 2. Estudios medios acabados, 3. Estudios superiores acabados) P: Grado de proximidad emisor/destinatario (0. Valor perdido (falta de información), 1. Insider (amigo, pariente, compañero, vecino de la red personal de contactos), 2. Outsider (conocido o lazo débil de la red personal de contactos), 3. Otros) R: Relación emisor/destinatario (0. Valor perdido (falta de información), (1. Familiar, 2. Amigo, 3. Compañero de trabajo, 4. Vecino, 5. Casero, 6. Jefe o jerarquía superior, 7. Jerarquía subordinada, 8. Otros) FI: Formalidad (tenor-estatus): (0. Valor perdido (falta de información), (1. Solidaridad (relaciones de igualdad), 2. Jerarquía I<R, 3. Jerarquía I>R, 4. Otros) FII: Formalidad (tenor-edad): (0. Valor perdido (falta de información), (1. Solidaridad (relaciones de igualdad), 2. Jerarquía I<R, 3. Jerarquía I>R, 4. Otros) T: Temática (0. Valor perdido (falta de información), (1. Tema cotidiano: diario y común en la relación socializadora de la gente, 2. Tema especializado (técnico): ámbito profesional o académico, 3. Formulas rituales de saludo o despedida, 4. Tema no cotidiano, ni especializado, ni ritualizado) TC: Tema de conversación (0. Valor perdido (falta de información), (1. Familiar, 2. Personal, 3. Profesional, 4. Estudios, 5. Hobbies, …) R: Registro (1. Informal, 2. Formal, 3. Neutro) FI: Fuerza ilocutiva del acto de habla (0. Valor perdido (falta de información), (1. Directivos (tratamos de conseguir que hagan cosas) en beneficio del hablante (órdenes, mandatos, preguntas, prohibiciones, solicitudes, súplicas, etc.), 2. Directivos en beneficio del interlocutor (consejos, sugerencias, advertencias en beneficio del oyente, propuestas, etc.), 3. Asertivos de opinión (decimos cómo son las cosas) (se incluyen rechazos, disensiones, protestas, etc.), 4. Asertivos de información (descripciones del estado actual factual de la realidad), 5. Compromisos (nos comprometemos a hacer cosas) (promesas, contratos, ofrecimientos), 6. Expresivos (expresamos nuestros sentimientos y actitudes) de insultos, recriminaciones, quejas, lamentos, 7. Expresión de agradecimientos, halagos, cumplidos, etc., 8. 152 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. 2.3 Contenido lingüístico de los audios No se establece un filtro previo referido a la calidad, duración o contenido de los materiales sonoros. A diferencia de los corpus tradicionales, un elevado número de material de corta duración puede ofrecer un contenido lingüístico muy útil para la investigación, con lo que el número total de minutos almacenados no tiene que ser muy extenso de forma necesaria. Indudablemente, la duración total de los audios es recogida como una variable independiente más en la base de datos (D/A), pues la actuación lingüística puede estar condicionada, precisamente, por la duración de los mensajes orales. El límite de la calidad de sonido para los análisis fonéticos impresionistas y otros niveles de análisis lo determina la propia inteligibilidad de los materiales. Por ejemplo, el límite de la calidad de sonido para los análisis acústicos lo establece la posibilidad de realizar estudios fiables, que no estén alterados en exceso por el ruido de fondo (audios que se graban andando en la calle, en el metro, con música, etc.). 3. Resultados preliminares. Dificultades y ejemplos Conviene recordar que este trabajo supone la exposición y caracterización de una propuesta metodológica que se encuentra en la fase inicial de su desarrollo. Por tanto, el número de datos recopilados hasta la fecha y las impresiones obtenidas son una primera aproximación al potencial de esta técnica de recogida. No obstante, las ventajas de inmediatez y de recogida pasiva de material oral han permitido almacenar suficientes datos para exponer sucintamente unas primeras impresiones positivas y reflejar cuáles son las dificultades reales que han aparecido en los primeros pasos del proyecto. Hasta el momento, en esta primera fase de recogida de materiales, se han almacenado casi 500 audios, con una duración total de contenido de 20 minutos y 32 segundos. El audio más largo tiene una duración de 3 minutos y 14 segundos y el más breve tan solo de 2 segundos. El número total de palabras contenidas en esos audios es de casi 30 000. Los audios proceden de un total de 76 informantes (H=38, M=38). Por un lado, se trata en su mayoría de hablantes que cumplen el papel prototípico de malaguita; es decir, hablantes de estrato socioeconómico bajo que residen en barrios populares y, en ocasiones, conflictivos desde el punto de vista social. Estos desempeñan profesiones diversas: vendedores ambulantes, camareros, reponedores, boxeadores o desempleados; algunos son aficionados ultras de un equipo de fútbol. Por otro lado, se ha obtenido material de informantes considerados limonetis que residen en barrios acomodados de la ciudad con un estatus social alto que desempeñan, en general, profesiones liberales (abogados, médicos), son altos funcionarios o, incluso, herederos de algún título nobiliario. Como se ha probado con ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 153 anterioridad, el crisol de variedades lingüísticas que define a Málaga es fácilmente identificable, lo que nos ha permitido representar anteriormente el mapa sociolingüístico de la ciudad lingüística de Málaga (Villena 1994; Molina 2021). De manera previa al análisis específico que los audios nos ofrecen, el equipo de trabajo valora muy positivamente los materiales orales recogidos hasta ahora, ya que parecen reflejar de una manera más fiel la imagen sociolingüística que se busca: poseemos ya realizaciones de hablantes con un elevadísimo porcentaje de aparición de variantes fonológicas consideradas vernaculares que representan sin filtros los usos lingüísticos reales de los hablantes. A pesar de que todavía no se ha llevado a cabo un análisis acústico de los documentos, a priori puede decirse que el resultado obtenido es incluso mejor de lo esperado. Si bien es cierto que algunos informantes (muy pocos) envían las notas de voz con algún ruido de fondo, la mayoría de los audios ofrece una calidad suficiente. En este sentido, el porcentaje de archivos de voz desechado hasta el momento es insignificante. La mayor parte de los audios que poseemos proceden de reenvíos de colaboradores que nos han hecho llegar sus intercambios individuales y de varios grupos de WhatsApp en los que participan. Estos últimos parecen presentar un gran potencial, según lo previsto en la descripción metodológica. No solo permiten analizar las interacciones, las alternancias de turnos, los procesos de atenuación y otros parámetros relacionados con el discurso, sino que han resultado ser casos en los que la paradoja del observador se ha conseguido superar con mayor eficacia. Por ejemplo, en uno de los grupos, se genera un enfrentamiento entre dos miembros que parecen haber tenido un problema por la mañana en el trabajo. Comienzan recriminándose mutuamente la actitud en un tono de evidente enfado (las situaciones pasionales acercan la espontaneidad y los usos vernaculares), para, al final, acercar las posturas y destensar la situación mediante diversos mecanismos discursivos. Matrícula: MA_HV2_020_01 A. Mira, Wilson, a mí me gusta el cachondeo más que a ti, pero hay que saber cuándo parar el cachondeo y cuándo seguir. Y hoy creo que te has equivocado porque yo creo que tú, si eres amigo mío, tenías que haber parado nada más que por respeto a mí y a mi mujer. Que no pasa nada, ¿me entiendes?, que no hay problema. Pero hoy te has equivocado, tío. B. Yo preocupado no estoy, ¿me entiendes? Yo sé de que <sic> yo he estado allí, ¿me entiendes?, y mientras hemos estado con la guasa, hemos estado con la guasa, pero todo tiene un principio y un fin, 154 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. Antonio. Si no te fueras equivocado <sic>, pues fuéramos seguido <sic> de guasa igual, ¿me entiendes?, de guay. Pero, como se ha equivocado, ¿me entiendes?, él tiene que saber cuándo parar, ¿me entiendes? Y que no, tío, si yo no salto, es que no soy un hombre, soy un mierda, ¿me entiendes?, había que saltar y punto. Pero, vamos, que sin problemas, que conmigo el Wilson es canela, siempre ha sido canela, pero bueno, le ha dado hoy por ahí al nota, ¿me entiendes?, y yo he tenido que ponerme en mi sitio, yo tampoco me voy a quedar callado. Yo soy latino, primo. Tengo sangre caliente. Estos hablantes, muy próximos al polo vernacular de la ciudad de Málaga presentan, además, prácticamente un 100 % de realizaciones fonológicas prototípicas: • fricativas [∫] en lugar de africadas: cachondeo [ka∫on’ðeo] • neutralización de las fricativas coronales: se habrá dado cuenta de que se ha equivocado [θa’bra ‘ðao ‘kuenta ke θakiβo’kao] • elisión de de -s en posición implosiva: si eres amigo mío [θi ‘ereØ a’miɣo ‘mio] • elisión de fricativas velares intervocálicas: por respeto a tu mujer [por re’pheto a tu mu’he] • neutralización de las líquidas: si yo no salto [θi jo no ‘θaɺto] elisión de sílabas: Antonio, pero vamos [tonio | pero ‘amo] También aparecen estructuras gramaticales locales: uso de imperfecto de subjuntivo por pluscuamperfecto de subjuntivo (si no te fueras equivocado, fuéramos seguido igual), coloquialismos (hemos estado con la guasa; el Wilson es canela; le ha dado por ahí al nota, etc.) y vulgarismos como el dequeísmo (yo sé de que yo he estado allí). Uno de los principales escollos que hemos encontrado hasta ahora ha sido la dificultad para localizar a hablantes de entre 40 y 55 años que enviasen audios con WhatsApp de manera frecuente. Es probable que los jóvenes y nativos digitales estén más acostumbrados al envío de mensajes de voz en sus intercambios comunicativos. Las personas mayores de 55 años quizás utilicen más los mensajes de voz porque les resulta más cómodo que escribir en una pantalla pequeña como la de los teléfonos móviles. Sin embargo, es posible que las generaciones intermedias, tras un esfuerzo por adaptarse al canal de inmediatez escrita, necesiten más tiempo para readaptarse al canal oral. No obstante, como hemos explicado, estamos en una etapa inicial de recogida de los materiales y quizá sea una primera impresión errónea que, en cualquier caso, hay que corroborar. ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 155 Otro asunto que está resultando algo problemático es el de la existencia de un grupo de personas que, incluso ajenas al proceso de nuestra observación lingüística, no parece adoptar un habla natural cuando graban sus mensajes de voz, sino que los construyen de forma llamativamente lenta, trabada, quizá por interferencia con la escritura. Este proceso puede también verse intensificado por la posibilidad que ofrecen los teléfonos móviles de dictar texto para que aparezca como mensaje escrito. Sin embargo, a pesar de las dificultades señaladas y de la disminución de calidad acústica de algunos audios, en el momento actual de construcción del nuevo corpus, es evidente que las ventajas superan con creces a las desventajas. Será necesario seguir cubriendo etapas y recopilando más cantidad de materiales para calibrar el potencial real de esta metodología. 4. Conclusiones La catástrofe sociosanitaria provocada por la pandemia de la covid-19 dificultó enormemente las labores de desplazamiento y, con ello, la posibilidad de realizar entrevistas presenciales que sirvieran para acumular datos lingüísticos dispuestos para su análisis. Sin embargo, la situación anómala prolongada en el tiempo obligó a aprovechar la consolidación de las tecnologías de comunicación de inmediatez oral como un nuevo método de obtención de materiales válidos para el desarrollo de las investigaciones propias de la dialectología y la sociolingüística. La situación particular de la ciudad de Málaga, formada por una comunidad de habla sociolingüísticamente muy polarizada cuyo acceso a los miembros de los extremos del continuo social ha ofrecido bastante resistencia hasta el momento, refuerza aún más la necesidad de incorporación de esta nueva metodología de forma sistemática. Lo que empezó siendo algo transitorio e impuesto, se ha manifestado como algo definitivo y ventajoso respecto a etapas metodológicas previas. El corpus PRESEEA–Málaga III, gestado en el seno del proyecto Agenda 2050. El español de Málaga: Procesos de variación y cambio espaciales y sociales, pretende la recolección de material oral procedente de audios de WhatsApp, ya sea a través de mensajes individuales o de grupos de hablantes previamente existentes o creados ex profeso para la investigación. De esta manera, pueden obtenerse materiales lingüísticos orales con gran rapidez y con un elevado grado de espontaneidad, lo que permite reducir al mínimo los efectos de la paradoja del observador. La propia naturaleza de este canal de comunicación favorece que los mensajes se graben sin que los hablantes sean conscientes de que van a participar en una investigación lingüística. Las primeras semanas de recogida de datos han permitido vislumbrar un elevado potencial a esta propuesta metodológica. El desarrollo de las siguientes fases será clave, no solo por los resultados que puedan obtener- 156 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. se sobre las características dialectales del español peninsular meridional, sino también porque la propuesta podría servir como modelo para futuras investigaciones de corte dialectal y sociolingüístico en diferentes comunidades de habla. Nuestra intención es verificar su adecuación mediante el establecimiento de múltiples bases de datos en diferentes sintopías para acumular experiencias y comprobar su bondad. Consideramos que las características propias del macroproyecto PRESEEA se ajustan muy adecuadamente a este propósito. En nuestro caso, al menos hasta el momento, en apenas unas semanas de trabajo se ha recogido gran cantidad de datos lingüísticos procedente de una serie de hablantes a los que en más de tres décadas de investigación no habíamos sido capaces de acceder. ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 157 BIBLIOGRAFÍA Ávila Muñoz, Antonio M. (2017): «Entre limonetis y malaguitas: Estudio del léxico divergente de proximidad. Nuevos datos del Proyecto CONVERLEX-Málaga malaguitas y limonetis», Hispania 100/4, 538-553. Ávila Muñoz, Antonio M., María de la Cruz Lasarte Cervantes y Juan A. Villena Ponsoda (2008): El español hablado en Málaga II. Corpus oral para su estudio sociolingüístico. Nivel de estudios medio, Málaga: Sarriá. Bourdieu, Pierre (1977): «L’Économie des échanges linguistiques», Langue Française 34, 17-34. Bourdieu, Pierre (1982): «Capital et marché linguistiques», Linguistische Berichte 90, 3-24. Britain, David (2009): «One foot on the grave? Dialect death, dialect contact, and dialect birth in England», International Journal of the Sociology of Language 196/197, 121-155. Cerruti, Massimo (2019): «La formazione di varietà intermedie tra dialetti di base e standard in situazioni europee», Rivista Italiana di Dialettologia 42, 79-99. Crystal, David (2006): Language and the Internet, Cambridge: Cambridge University Press. Fishman, Joshua (1972): Sociología del Lenguaje, Madrid: Cátedra. Gutiérrez Sanz, Víctor (2016): «Retórica de los discursos digitales. Una propuesta metodológica para el análisis de los discursos en Twitter», Aposta, Revista de Ciencias Sociales 69, 67-103. Halliday, Michael A. K. (1978): Language as a Social Semiotic. The Social Interpretation of Language and Meaning, London: Edward Arnold. Hernández Campoy, Juan M. y Juan A. Villena Ponsoda (2009): «Standardness and nonstandardness in Spain: Dialect attrition and revitalization of regional dialects of Spanish», International Journal of the Sociology of Language 196-197, 181-214. Hinskens, Frans (1998): «Dialect Levelling: A two-dimensional process», Folia Lingüística 32, 35-51. Hymes, Dell (1974): Foundations in sociolinguistics: An ethnographic approach, University of Pennsylvania Press. Labov, William (1972): Sociolinguistic Patterns, Filadelfia: University of Pennsylvania Press. Lasarte Cervantes, María de la Cruz, José M. Sánchez Sáez, Antonio M. Ávila Muñoz y Juan A. Villena Ponsoda (2008): El español hablado en Málaga III. Corpus oral para su estudio sociolingüístico. Nivel de estudios alto, Málaga, Sarriá. 158 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. Molina García, Álvaro (2019): «Percepción y distancia acústica: la variación paramétrica individual en la escisión fonemática de /θ/ en el español andaluz. Datos de la ciudad de Málaga», ELUA 33, 111-140. Molina García, Álvaro (2020): «Percepción comunitaria de la distinción fonemática de la /s/ y la /θ/ en hablantes andaluces: Estudio en la ciudad de Málaga», Spanish in Context 17/3, 415-437. Molina García, Álvaro (2021): Fundamentos acústico-perceptivos de la escisión prestigiosa de /θ/. Estudio sociofonético en Málaga, Berna: Peter Lang. Moreno Fernández, Francisco (1996): «Metodología del ‘Proyecto para el Estudio Sociolingüístico del Español de España y América’ (PRESEEA). Presentación», Lingüística 5, 268-271. Røyneland, Unn (2010): «Vertical convergence of linguistic varieties in a language space». En Peter Auer y J. E. Schmidt (eds.), Language and Space. An International Handbook of Linguistic Variation. Theories and Methods, I, Berlín/ Nueva York: Mouton de Gruyter, 259-274. Sánchez Upegui, Alexánder A. (2008): «Aproximación sociolingüístico al uso educomunicativo del chat, el foro y el correo electrónico», Revista Virtual Universidad Católica del Norte 25. <https://revistavirtual.ucn.edu.co/index. php/RevistaUCN/article/view/120/234>. Ueberwasser, Simone y Elisabeth Stark (2017): «What’s up, Switzerland? A corpus-based research project in a multilingual country», Linguistik Online 84/5, 105-126. Vida Castro, Matilde (2003): Restricciones universales sobre la variación de -s- en la distensión silábica: investigación sobre el español hablado en la ciudad de Málaga. Tesis doctoral de la Universidad de Málaga. Vida Castro, Matilde (2007): El español hablado en Málaga I. Corpus oral para su estudio sociolingüístico. Nivel de estudios bajo, Málaga: Sarriá. Vida Castro, Matilde (2016): «Correlatos acústicos y factores sociales en la aspiración de /-s/ preoclusiva en la variedad de Málaga (España). Análisis de un cambio fonético en curso», Lingua Americana 38, 15-36. Vida Castro, Matilde (en prensa): Corpus oral complementario del español hablado en Málaga, Málaga: Universidad de Málaga, Publicación del Grupo Vernacular Urbano Malagueño. Villena Ponsoda, Juan A. (1994): La ciudad lingüística: fundamentos críticos de la sociolingüística urbana, Granada: Universidad de Granada. Villena Ponsoda, Juan A. (2001): La continuidad del cambio lingüístico. Tendencias innovadoras y conservadoras de la fonología del español a la luz de la investigación sociolingüística urbana, Granada: Universidad de Granada. Villena Ponsoda, Juan A. (2005): «How similar are people who speak alike? An interpretative way of using social networks in social dialectology research». En Peter Auer, Frans Hinskens y Paul Kerswill (eds.), Dialect change: Convergence and divergence in European languages, Cambridge/Nueva York: Cambridge University Press, 303-334. ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 159 Villena Ponsoda, Juan A. (2018): «The dilemma of the reliability of geolinguistic and dialectological data for sociolinguistic Research. The case of the Andalusian demerger of /θ/», Acta Lingüística Lithuanica 79, 9-37. Villena Ponsoda, Juan A. y Antonio M. Ávila Muñoz (2014): «Dialect stability and divergence in southern Spain. Social and personal motivations». En Kurt Barunmüller, Steffen Höder y Karoline Kühl (eds.), Stability and divergence in language in contact. Factors and mechanisms, Ámsterdam: John Benjamins, 207-238. Villena Ponsoda, Juan A. y Matilde Vida Castro (2017): «Variación, identidad y coherencia en el español meridional. Sobre la indexicalidad de las variables convergentes del español de Málaga». Lingüística en la Red. <https://ebuah.uah.es/dspace/bitstream/handle/10017/34167/variacion_villena_LIN_2017_15.pdf?sequence=1&isAllowed=y>. Zappavigna, Michele (2011): Ambient affiliation: A linguistic perspective on Twitter, New Media & Society 13/5, 788-806. 160 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. Anexo 1. Ficha para la recogida de datos PRESEEA-Málaga III INFORMACIÓN SOBRE EL INFORMANTE (EMISOR) 1. Informante Ejemplo: MA_HE3_001 Se va a seguir la nomenclatura típica de PRESEEA, donde MA responde a los caracteres identificativos de la comunidad estudiada, en este caso MA por la ciudad de Málaga, seguido del código sociolingüístico del informante (Sexo: H(ombre) o M(ujer); Variedad: V(ernáculo) o E(stándar); Grupo de edad: 1,2,3) y de un número de tres cifras desde el 001 hasta el número máximo de informantes. 2. Variedad empleada en el audio 1. Vernáculo 2. Estándar 3. Identidad de género 1. Hombre 2. Mujer 3. Diferente a 1 y 2 4. Edad 1. Generación 1 (20-34) 2. Generación 2 (35-54) 3. Generación (> 55) INFORMACIÓN SOBRE EL ARCHIVO DE AUDIO 5. Archivo de audio Ejemplo:MA_HE3_001_01 Al nombre del archivo de audio explicado arriba se le añade de una numeración de dos cifras desde el 01 que indica el número de audio asociado al informante, pues hay algunos que aportan más de un mensaje de voz al corpus. ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 161 6. Duración del audio (tiempo expresado en segundos) 7. Transliteración completa del audio (ortográfica, básica. Realizada con Whisper [https://openai.com/blog/ whisper/] y revisada posteriormente por pares) 8. Carpeta de origen (para preservar el anonimato, los nombres de las carpetas se presentan aquí solo con la inicial del nombre asignado) 1. 2. 3. 4. 5. 6. 7. K MC CH ME CA PyP Grupo de Whatsapp 9. Tipo de intercambio I 1. Privado 2. Grupo de WhatsApp preexistente 3. Grupo de WhatsApp nuevo (ad hoc) 10. Tipo de intercambio II 1. El emisor es consciente de estar siendo grabado 2. El emisor NO es consciente de estar siendo grabado 11. Tipo de intercambio III 1. Forma parte de una estructura discursiva formal (conversación) 2. NO forma parte de una estructura discursiva formal (mensajes aislados) INFORMACIÓN SOBRE EL DESTINATARIO DEL MENSAJE 12. Género 1. Hombre 2. Mujer 3. Diferente a 1 y 2 162 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. 13. Edad 1. Generación 1 (20-34) 2. Generación 2 (35-54) 3. Generación (> 55) 14. Nivel de estudios 1. Nivel bajo 2. Nivel medio 3. Nivel alto RELACIÓN INFORMANTE (EMISOR)-DESTINATARIO 15. Grado de proximidad 1. Insider (amigo, pariente, compañero, vecino de la red personal de contactos) 2. Outsider (conocido o lazo débil de la red personal de contactos) 3. Otros 16. Relación 1. 2. 3. 4. 5. 6. 7. Familiar Amigo Compañero de trabajo Vecino Otros Casero Jefe o un superior 17. Formalidad (tenor y estatus) 1. 2. 3. 4. Solidaridad (relaciones de igualdad) Jerarquía I<R Jerarquía I>R Otros 18. Formalidad (tenor y edad) 1. Solidaridad (relaciones de igualdad) 2. Jerarquía I<R ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... 163 3. Jerarquía I>R 4. Otros FACTORES ENUNCIATIVOS-SITUACIONALES 19. Temática 1. Tema cotidiano: diario y común en la relación socializadora de la gente 2. Tema especializado (técnico): ámbito profesional o académico 3. Formulas rituales de saludo o despedida 4. Tema no cotidiano, ni especializado, ni ritualizado 20. Tema de conversación 1. 2. 3. 4. 5. 6. Familiar Personal Profesional Estudios Hobbies … 21. Registro 1. Informal 2. Formal 3. Neutro (medio) 22. Fuerza ilocutiva del acto de habla 1. Directivos (tratamos de conseguir que hagan cosas) en beneficio del hablante (órdenes, mandatos, preguntas, prohibiciones, solicitudes, súplicas, etc.) 2. Directivos en beneficio del interlocutor (consejos, sugerencias, advertencias en beneficio del oyente, propuestas, etc.) 3. Asertivos de opinión (decimos cómo son las cosas) (se incluyen rechazos, disensiones, protestas, etc.) 4. Asertivos de información (descripciones del estado actual factual de la realidad) 5. Compromisos (nos comprometemos a hacer cosas) (promesas, contratos, ofrecimientos) 164 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. 6. Expresivos (expresamos nuestros sentimientos y actitudes) de insultos, recriminaciones, quejas, lamentos, 7. Expresión de agradecimientos, halagos, cumplidos, etc. 8. Otros PLANTILLA PARA LA RECEPCIÓN DEL MATERIAL Nombre del archivo: _____________ 1. Emisor del mensaje Identidad de género: 1. Hombre 2. Mujer 3. Otro Edad: 1. Grupo 1 (18-34 años) 2. Grupo 2 (35-55 años) 3. Grupo 3 (Más de 55) Nivel de estudios: 1. Nivel bajo 2. Nivel medio 3. Nivel alto 2. Receptor del mensaje Género: 1. Hombre 2. Mujer 3. Otro Edad: 1. Grupo 1 (18-34 años) 2. Grupo 2 (35-55 años) 3. Grupo 3 (Más de 55) ORALIA, vol. 27/2, 2024, págs. 135-166. Propuesta de construcción de nuevos corpus... Nivel de estudios: 1. Nivel bajo 2. Nivel medio 3. Nivel alto Relación entre participantes 1. 2. 3. 4. 5. 6. 7. Familiar Amigo Compañero de trabajo/clase Vecino Casero Jefe Otro (especificar): _____________ Contexto del audio 1. Conversación individual 2. Conversación grupal Si es un grupo, describe brevemente los participantes: 1. 2. 3. 4. Grupo familiar Grupo de amigos Grupo de trabajo Otro (especificar): _______________ Edad de los participantes: 1. Edades similares 2. Edades diferentes Si las edades son similares, marca el grupo de edad: 1. 2. 3. 4. Grupo 1 (18-34 años) Grupo 2 (35-55 años) Grupo 3 (Más de 55) Se desconoce 165 166 Álvaro Molina y Antonio M. Ávila ORALIA, vol. 27/2, 2024, págs. 135-166. Género de los participantes: 1. Mismo género 2. Diferente género Si el género de los participantes es similar, marca el género: 1. 2. 3. 4. Hombre Mujer Otro Se desconoce Nivel de estudios: 1. Mismo nivel de estudios 2. Diferentes niveles de estudio Si el nivel de estudios de los participantes es similar, marca el nivel de estudios: 1. 2. 3. 4. Nivel bajo Nivel medio Nivel alto Se desconoce A pesar de que la lingüística de corpus se ha nutrido en los últimos años de datos recogidos en los nuevos canales de comunicación electrónica, las bases procedentes de fuentes orales de origen telemático son aún escasas. No obstante, al igual que en otras muchas áreas de investigación, la crisis sanitaria provocada por la covid-19 ha generado la necesidad de acelerar la incorporación de este tipo de material en la investigación sociolingüística. En consecuencia, dentro del marco del Proyecto PRESEEA-Málaga, consideramos que la recogida de mensajes de voz enviados a través de la aplicación WhatsApp puede ser una forma rápida, eficaz y de bajo coste para la construcción de corpus lingüísticos orales de nueva planta. En el presente trabajo, se expone una discusión teórica sobre las ventajas e inconvenientes de este tipo de corpus. Además, se detalla la metodología empleada para la recogida, almacenamiento y organización de los materiales que hemos empleado hasta ahora en la Universidad de Málaga, con especial atención a los planes de codificación creados y a las estrategias de clasificación usadas. Finalmente, se muestran ejemplos de los materiales almacenados en un intento de presentar la potencialidad de análisis que ofrece este nuevo tipo de corpus.