Oralia
A n á l i s i s
d e l
D i s c u r s o
O r a l
27/2
Diciembre, 2024
PROPUESTA DE CONSTRUCCIÓN DE NUEVOS
CORPUS: LOS MENSAJES DE VOZ DE WHATSAPP
COMO FUENTE DE DATOS LINGÜÍSTICOS
Álvaro Molina García
Antonio Manuel Ávila Muñoz
S
ta
a
r
epa
PROPUESTA DE CONSTRUCCIÓN DE NUEVOS
CORPUS: LOS MENSAJES DE VOZ DE WHATSAPP
COMO FUENTE DE DATOS LINGÜÍSTICOS1
Álvaro Molina García2
Universidad Complutense de Madrid (España)
Antonio Manuel Ávila Muñoz3
Universidad de Málaga (España)
Resumen
A pesar de que la lingüística de corpus se ha nutrido en los últimos años de
datos recogidos en los nuevos canales de comunicación electrónica, las bases procedentes de fuentes orales de origen telemático son aún escasas. No obstante, al
igual que en otras muchas áreas de investigación, la crisis sanitaria provocada por
la covid-19 ha generado la necesidad de acelerar la incorporación de este tipo de
material en la investigación sociolingüística. En consecuencia, dentro del marco
del Proyecto PRESEEA-Málaga, consideramos que la recogida de mensajes de
voz enviados a través de la aplicación WhatsApp puede ser una forma rápida,
eficaz y de bajo coste para la construcción de corpus lingüísticos orales de nueva
planta. En el presente trabajo, se expone una discusión teórica sobre las ventajas
e inconvenientes de este tipo de corpus. Además, se detalla la metodología empleada para la recogida, almacenamiento y organización de los materiales que
hemos empleado hasta ahora en la Universidad de Málaga, con especial atención
a los planes de codificación creados y a las estrategias de clasificación usadas.
Finalmente, se muestran ejemplos de los materiales almacenados en un intento
de presentar la potencialidad de análisis que ofrece este nuevo tipo de corpus.
Palabras clave: corpus telemático; mensajes de voz de WhatsApp; Lingüística de
Corpus; PRESEEA.
Abstract
Despite the fact that corpus linguistics has been nourished in recent years
by data collected in the new electronic communication channels, the bases
1
El presente trabajo se ha realizado en el marco del Proyecto de Investigación Agenda 2050.
El español de Málaga: Procesos de variación y cambio espaciales y sociales (PID2019- 104982GB- C52),
financiado por el Ministerio de Economía y Competitividad y fondos FEDER, en la Universidad de Málaga.
2
N.º ORCID: 0000-0001-5900-9921. Dirección de correo:
[email protected].
3
N.º ORCID: 0000-0002-5239-2670. Dirección de correo:
[email protected].
ORALIA, vol. 27/2, 2024, págs. 135-166.
136
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
from oral sources of telematic origin are still scarce. However, as in many other
research areas, the health crisis caused by COVID-19 has generated the need
to accelerate the incorporation of this type of material in sociolinguistic research. Consequently, within the framework of the PRESEEA-Málaga Project,
we consider that the collection of voice messages sent through the WhatsApp
application can be a fast, efficient and low-cost way to build new oral linguistic
corpora. This paper presents a theoretical discussion on the advantages and
disadvantages of this type of corpus. In addition, the methodology used for
the collection, storage and organization of the materials that we have used up
to now at the University of Malaga is detailed, with special attention to the
coding plans created and the classification strategies used. Finally, examples of
the stored materials are shown in an attempt to present the analysis potential
offered by this new type of corpus.
Keywords: telematic corpus; WhatsApp voice messages; Corpus linguistics; PRESEEA.
Fecha de recepción: 05/10/2023
Fecha de aceptación: 14/12/2023
Fecha de la versión definitiva: 21/12/2023
0. Introducción
La crisis sanitaria provocada por la covid-19 agudizó la enorme dificultad que suponen los desplazamientos para realizar entrevistas presenciales
con el fin de obtener materiales lingüísticos orales para la construcción de
corpus. Pero también nos proporcionó el acceso a procedimientos diferentes de recogida de información lingüística adaptados a la era digital. En la
actualidad, parece que la consolidación de nuevas opciones de comunicación oral, como el envío de audios a través de la aplicación de mensajería
instantánea WhatsApp, ofrece una serie de innumerables ventajas de las
que todavía no se han aprovechado ramas como la dialectología, la sociolingüística o la propia lingüística de corpus. En el presente trabajo pretendemos exponer, de manera general, una de las propuestas más relevantes
del proyecto Agenda 2050. El español de Málaga: Procesos de variación y cambio
espaciales y sociales referida a la construcción de corpus telemáticos de nueva planta que permitan continuar con el análisis del habla de la ciudad de
Málaga iniciado hace más de 30 años. En concreto, se trata de crear una
base de datos lingüística recogida de manera telemática y constituida por
materiales orales enviados mediante el formato de audios de WhatsApp
(*.opus, fácilmente convertibles a mp3).
En primer lugar, se exponen los antecedentes previos sobre la investigación basada en corpus lingüísticos en la ciudad de Málaga y se reflexiona
sobre las ventajas que pueden ofrecer en la actualidad los corpus creados
a partir de datos de inmediatez oral como los que nos ofrece WhatsApp. A
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
137
continuación, se presenta el procedimiento que se está siguiendo actualmente para recoger el material, con especial énfasis en las nuevas posibilidades que ofrece esta propuesta metodológica. Por último, antes de presentar las conclusiones, se analizan las impresiones obtenidas en la primera
fase del proyecto, se exponen algunos ejemplos reales y se muestran las
ventajas y dificultades que han surgido en esta etapa inicial.
1. Antecedentes
1.1 La comunidad de habla. Málaga y el proyecto PRESEEA
La propuesta de construcción de un corpus telemático puede entenderse como un complemento metodológico en el contexto del Proyecto
para el Estudio Sociolingüístico del Español de España y de América (PRESEEA).
El proyecto PRESEEA se organiza en torno a la constitución de un macrocorpus sociolingüístico y sincrónico del español creado con datos procedentes de diferentes áreas dialectales de la lengua española, con una
metodología común que permita una comparación fiable. El proyecto se
construye sobre una serie de fundamentos epistemológicos (Moreno Fernández, 1996) que, aunque pueden ser consultados in extenso en la propia
página web de PRESEEA (https://preseea.linguas.net/ [última consulta,
8 de febrero de 2023]), se resumen en los siguientes puntos (Vida 2007:
24-25):
1. Los datos se recogen, principalmente, en núcleos urbanos hispanohablantes. PRESEEA se nutre del trabajo de más de 40 equipos de investigación sociolingüística presentes en las principales
ciudades de habla hispana de todo el mundo: Madrid, Bogotá,
México DF, Santiago de Chile, Nueva York, Lima, Montevideo,
Bogotá, Asunción, etc.
2. Los materiales que faciliten los análisis lingüísticos deben proceder
de la grabación de entrevistas semidirigidas. En ellas, el entrevistador trata de estimular la participación de los informantes mediante
módulos temáticos previamente diseñados con el objetivo de garantizar la aparición de situaciones de habla espontáneas.
3. Las distintas muestras obtenidas deben ser representativas del universo que se pretende estudiar y comparables entre sí (1/25 000
informantes para ciudades de unos dos millones de habitantes). Se
diseñan sobre la base de un esquema de cuotas de afijación uniforme a partir de tres parámetros de preestratificación: sexo, edad y
nivel educacional.
138
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
Dentro de los equipos de PRESEEA, se encuentra el que estudia los
usos lingüísticos de la ciudad de Málaga. La Tabla I representa la muestra
con la que se trabaja en esta ciudad de casi un millón de habitantes, compuesta por 54 hablantes, clasificados en tres grupos generacionales (primera generación: 18-34 años; segunda generación: 35-54 años; tercera generación: >55 años), identidad de género (hombres, mujeres) y niveles de
instrucción (básicos: sin estudios o con educación obligatoria; intermedios:
bachillerato, formación profesional; superiores: estudios universitarios),
con un total de tres informantes por casilla.
Hasta la fecha, se han recogido 2 corpus PRESEEA-Málaga. En primer
lugar ‒publicado en tres volúmenes‒ el corpus PRESEEA-Málaga I (Vida
2007; Ávila et al. 2008; Lasarte et al. 2009), asumió la preestratificación arriba expuesta y fue recogido en la década de los 90. A través de la realización de entrevistas semidirigidas, los datos obtenidos permitieron realizar
investigaciones sobre el vernacular urbano de Málaga con resultados que
afectan a todos los niveles de análisis lingüístico (Vida 2003; Villena 1994,
2001, 2005; Hernández y Villena 2009).
Tabla I. Muestra-tipo por cuotas del proyecto PRESEEA-Málaga
Generación 1
(20-34 años)
Generación 2
(35-54 años)
Generación 3
(más de 55 años)
H
M
H
M
H
M
Nivel de estudios 1
3
3
3
3
3
3
18
Nivel de estudios 2
3
3
3
3
3
3
18
Nivel de estudios 3
3
3
3
3
3
3
18
Total
9
9
9
9
9
9
54
Total
No obstante, el análisis exhaustivo de los datos reveló que era necesario incorporar variables mesosociales y de pequeña escala que explicasen aquellos casos particulares que no se ajustaban a las predicciones de
los modelos obtenidos, ya fuese porque se trataba de hablantes jóvenes de
nivel socioeconómico alto que ofrecían un porcentaje elevado de rasgos
vernaculares, o porque eran hablantes de edad avanzada de nivel socioeconómico bajo que presentaban realizaciones más cercanas a patrones de
actuación lingüística propios del español estándar peninsular.
Con el fin de mejorar el modelo de explicación de la comunidad de
habla de Málaga sobre la base de estas variables, entre 2013 y 2015 se recogieron las grabaciones del corpus PRESEEA-Málaga II (Vida, en prensa).
Su explotación facilitó, igualmente, el desarrollo de nuevos trabajos que
permitieron avanzar en el establecimiento de patrones sociolingüísticos
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
139
propios de la comunidad estudiada (Vida 2016; Villena y Vida 2017; Ávila
2017; Molina 2019, 2020, 2021). En esta ocasión, además, tras la escucha
atenta de todas las entrevistas y el análisis de los cuestionarios sociobiográficos obtenidos para cada informante, se construyeron perfiles de la biografía lingüística de todos los participantes con el fin de extraer variables
postestratificacionales que pudiesen mejorar el modelo inicial. Esta tarea
de reinterpretación de los datos probó que los intereses culturales de los
hablantes –al margen de la educación reglada– y, en definitiva, la construcción de variables que reflejan lo que Bourdieu denomina capital cultural
incorporado (Bourdieu 1977, 1984) mejoraban la explicación de la variación
en comparación con las variables estratificacionales y de estatus como el
nivel de instrucción formal (Villena 2018; Molina 2021).
Los resultados de los diversos estudios sociolingüísticos en los planos
fonético-fonológico, morfosintáctico, léxico y pragmático realizados a partir de la explotación de los corpus PRESEEA-Málaga I y PRESEEA-Málaga II
ponen de manifiesto que la comunidad de habla de esta ciudad está muy
polarizada desde el punto de vista social. Por un lado, el grupo de hablantes principalmente jóvenes, de origen urbano, de estrato socioeconómico alto y con amplio capital cultural incorporado fomenta la aparición de
una nueva variedad coinética cercana al español estándar, propia de los
conocidos procesos de nivelación dialectal que están surgiendo de manera frecuente en diversos países europeos (Hinskens 1998; Kerswill 2003;
Britain 2009; Røyneland 2010; Cerruti 2019). Los jóvenes malagueños con
aspiraciones y posibilidades de apertura al exterior se identifican lingüísticamente mediante la convergencia fonológica con la variedad estándar del
español peninsular en lo que se refiere, en esencia, al ataque silábico (Villena y Ávila 2014; Molina 2021) y propician la aparición de una variedad
lingüística intermedia.
Por otro lado, el grupo de hablantes compuesto por personas de edad
más avanzada, de origen rural, de estrato socioeconómico medio-bajo, que
no presenta un interés real en alejarse de las costumbres y creencias locales,
mantiene firmemente los rasgos dialectales tradicionales del español meridional, tales como la indistinción de las coronales fricativas, la aspiración
de la fricativa velar, la fricatización de la africada sorda, etc. Este grupo, en
concreto, fomenta la divergencia dialectal que se presenta como el contrapunto a la corriente observada con anterioridad (Villena y Vida 2017).
De esta forma, en la Málaga actual encontramos dos extremos socio-demográficos considerados en algunos estudios como pijos o limonetis (estratos sociales altos) y merdellones o malaguitas (estratos sociales bajos) (Ávila
2017). Sin embargo, a pesar de los buenos indicios que sugieren estos resultados basados en los corpus PRESEEA-Málaga I y II, creemos que no manifiestan una representatividad suficiente como para mostrar el panorama
lingüístico de todo el espectro social.
140
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
Es cierto que, como se ha indicado, la inclusión de variables de hablante de pequeña escala basadas en la biografía lingüística y los intereses y costumbres personales funciona para explicar aquellos casos que el modelo
inicial no predecía correctamente. Sin embargo, como refleja el Gráfico
1, la intuición sociolingüística del equipo de investigación de la ciudad de
Málaga indica que la polarización es aún mayor que la que muestran los
resultados obtenidos hasta ahora. Se percibe a diario un número de rasgos muy próximos tanto a los modelos vernaculares como a los modelos
estándar producidos por un porcentaje elevado de hablantes cuyas características sociales dificultan el acceso del investigador a través del trabajo
de campo habitual. Por consiguiente, se antoja necesaria la creación de un
tercer corpus en el seno de PRESEEA–Málaga que consiga recoger los datos lingüísticos producidos por estos hablantes de ambos polos del espectro
sociolingüísticos. El objetivo de este nuevo corpus es abarcar por completo
el continuo social de la ciudad de Málaga y obtener datos de calidad que
consigan reflejar, en toda su extensión, la realidad lingüística que la comunidad de habla articula y percibe.
Gráfico 1. Diferentes variedades lingüísticas y corpus de Málaga
En definitiva, la suma de la necesidad de constituir un corpus que recoja esta realidad sociolingüística, junto a las dificultades metodológicas que
ha supuesto la insólita situación de crisis sanitaria, están en el origen de la
propuesta de recogida telemática de datos orales para construir un nuevo
corpus; el PRESEEA-Málaga III, formado por audios procedentes de la aplicación de mensajería instantánea WhatsApp.
1.2 La incorporación del corpus telemático a la metodología de estudio dialectal
En los últimos años, la investigación sociolingüística ha puesto el foco
en los nuevos canales de comunicación y las tipologías textuales asociadas a ellos: correo electrónico, chat, Twitter, etc. (Crystal 2006, Sánchez
Upegui 2008, Zappavigna 2011, Gutiérrez-Sanz 2016; etc.). Sin embargo, la
mayoría de los trabajos se han centrado en analizar el código escrito presente en esos canales. Recientemente, el proyecto What’s up, Switzerland?
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
141
(Ueberwasser y Stark 2017), por ejemplo, ha recogido el primer corpus
multilingüe a gran escala de mensajes escritos de WhatsApp (617 chats,
763 650 mensajes).
La irrupción y expansión de los audios de WhatsApp ha introducido
por primera vez un verdadero modelo híbrido entre, por un lado, la escritura (los textos se pueden borrar o reescribir, la información del contenido
se acumula en cada mensaje, se espera una respuesta a solo alguno de los
elementos, se requiere un tipo especial de interacción con los mensajes
escritos, etc.) y, por otro lado, la oralidad (mensajes orales, con presencia
de elementos fonéticos segmentales y suprasegmentales, etc.).
Asimismo, en nuestra opinión, la recogida de un corpus telemático
puede ayudar a paliar el escollo metodológico que supone el acceso a hablantes situados en ambos extremos del continuo sociolingüístico en el que
se distribuye la comunidad de habla, como hemos mostrado en el apartado
anterior. Frente a la recopilación tradicional de corpus basados en entrevistas presenciales o en el ‘nuevo’ código escrito presente en las nuevas redes
sociales, el corpus oral telemático que proponemos ofrece las siguientes
ventajas:
•
•
Accesibilidad. Una de las principales ventajas que se obtienen
con la recogida de material oral a partir de aplicaciones que permiten el envío de mensajes de voz, como WhatsApp, es que se consigue una accesibilidad considerablemente mayor en comparación
con procedimientos previos. Como se detallará más adelante, en
el apartado de descripción metodológica, la posibilidad de que el
efecto bola de nieve funcione con este tipo de soportes, mediante el establecimiento de grupos de informantes, por ejemplo, permite evitar en cierta medida el problema de la representatividad. El hecho
de que los colaboradores puedan conseguir material de diferentes
fuentes con muy poco esfuerzo favorece que el investigador acceda sin demasiados problemas a los estratos socioeconómicos más
polarizados. Como es lógico, algunos colaboradores/informantes
se convierten así tanto en sujetos de estudio como en actores esenciales en el proceso de recogida de materiales lingüísticos, pues actúan como recopiladores de la información buscada al actuar como
colaboradores en el proceso de recogida de materiales.
Espontaneidad. Posiblemente, una de las principales causas por
las que los anteriores proyectos basados en corpus orales no conseguían reflejar de manera fiel la polarización social completa se
deba a que no se haya evitado con éxito la paradoja del observador
(Labov 1972). Es evidente que cuando los usuarios de la variedad
vernacular son conscientes durante la entrevista de que están siendo grabados, fuerzan artificialmente su actuación lingüística hacia
142
Álvaro Molina y Antonio M. Ávila
•
•
•
•
ORALIA, vol. 27/2, 2024, págs. 135-166.
un registro más formal y estándar. Sin embargo, la grabación de
audios de WhatsApp tiende a realizarse de manera natural y fluida.
Solo en contadas ocasiones se fuerza la pronunciación de manera
no natural. Podría decirse que el envío habitual de mensajes mediante este medio naturaliza el proceso hasta el punto de que consigue neutralizarse, en buena medida, los efectos indeseados de la
paradoja del observador (nunca se debe olvidar que la paradoja del
observador siempre va a existir, incluso cuando el hablante no es
sujeto de una investigación y tan solo se supone juzgado por aquel
hablante con el que interactúa).
Adaptación. La tarea de entrevistar a un gran número de hablantes
eleva la carga de trabajo de manera considerable. La crisis sanitaria
provocada por el coronavirus, además, ha implicado el desarrollo
social de la labor investigadora mediante vías no presenciales. Los
investigadores en el ámbito de las humanidades necesitan incorporar los medios más actuales para adaptarse a esta situación. En este
sentido, parece innegable que la recogida de material de manera
telemática se encuentra acorde con estas necesidades académicas
y sociales.
Actualización e Inmediatez. Hoy en día, la recodificación de las
variables durante el análisis y la interpretación continua de los datos supone una constante asumida, aunque no siempre resuelta.
El método científico exige por definición que los resultados obtenidos conlleven una reformulación de las hipótesis originales e
incluso de la metodología. La inmediatez y facilidad que aporta
la recogida virtual de datos orales permite que se incorporen modificaciones de manera constante. Como es lógico, una recogida
de datos tradicional basada en la actuación presencial cara a cara
retrasaría esta actualización en directo o incluso la imposibilitaría.
La actualización inmediata y continua de los datos permite que la
investigación alcance una mayor riqueza y profundidad.
Cuantificación. A pesar de que los corpus de PRESEEA siguen
el criterio de representatividad poblacional del 0,025 % (Labov,
1972), las bases de datos incorporan tan solo 54 hablantes para
ciudades como Málaga. De nuevo, la inmediatez característica de
esta recogida metodológica permite aumentar considerablemente
el número de hablantes que conformen el corpus. Así, se podrá
probar qué influencia estadística supone este aumento de informantes sobre los resultados obtenidos.
Variables fonético-fonológicas. A diferencia de los corpus
construidos a partir de los textos escritos que proporcionan las nuevas redes sociales telemáticas, la recogida de audios de WhatsApp
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
143
añade la ventaja de poder realizar, además de los análisis que permiten las citadas redes, otros de tipo fonético–fonológico. Esta ampliación analítica supone incluir uno de los niveles de estudio que
parecen ofrecer mayor significado social y geográfico a los estudios
de corte sociolingüístico y dialectal y, en consecuencia, resulta fundamental para el desarrollo de las investigaciones en curso sobre
dialectología social y sociolingüística variacionista.
No obstante, si bien es cierto que son numerosas las ventajas que ofrece
esta nueva técnica de recogida de datos, no está exenta de ciertos inconvenientes. Por un lado, la posible superposición de voces y la mala calidad de
algunas grabaciones en origen pueden dificultar la labor de etiquetación
impresionista de ciertas variantes lingüísticas. Asimismo, estas circunstancias pueden influir negativamente en el correcto análisis acústico de los
datos, ya que el control del experimento (micrófono de grabación, ruido
de fondo, distancia de los informantes respecto al micrófono, reposo o
movimiento del informante, control de los solapamientos de turno, etc.)
se pierde en gran medida. Si la bajada notable de calidad del audio se ve
compensada por la naturalidad y espontaneidad del discurso recogido habrá de ser valorada a medida que se implemente este tipo de corpus. Lo
que es innegable es que las circunstancias señaladas hasta aquí suponen
dedicar tiempo a cribar una parte del material que, por diversos motivos,
no será aprovechable para determinados análisis; aunque esta circunstancia es habitual, en mayor o en menos medida, en cualquier modalidad de
corpus lingüístico.
Por otro lado, la incorporación masiva de voces procedentes de grupos de WhatsApp puede hacer perder el control del investigador sobre los
informantes en su origen y, con ello, comprometer su correcta identificación social. A ello hay que añadir que, en ocasiones, el acceso directo a los
intervinientes en los grupos muy amplios puede ser difícil, con lo que la
obtención de los permisos individuales para el uso de los materiales podría
comprometer su explotación por cuestiones de protección de datos y preservación de la intimidad. Precisamente para paliar estos inconvenientes,
hemos diseñado unas fichas específicas de identificación tanto del origen
de los audios como de los informantes que intervienen en ellos que presentamos en el correspondiente apartado metodológico.
No obstante lo anterior, consideramos que las ventajas de construir corpus telemáticos orales como el que aquí presentamos superan las limitaciones señaladas. A los beneficios expuestos hasta ahora (accesibilidad, espontaneidad, adaptación, actualización e inmediatez, cuantificación, análisis
fonético-fonológico) hay que añadir sus diversas aplicaciones potenciales:
en primer lugar, como se ha señalado, supondrá una metodología dialectal
y sociolingüística innovadora fácilmente extensible a otros ámbitos de estudio. Los resultados del proyecto no solo arrojarán datos concretos sobre la
144
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
ciudad de Málaga, sino que permitirán determinar si esta nueva metodología telemática basada en registros orales procedentes de las redes sociales
que ofrecen las nuevas tecnologías es una técnica de recogida de datos
válida y extrapolable a diferentes investigaciones. En este sentido, consideramos que el contexto general del proyecto PRESEEA es idóneo para demostrar la validez del método. En segundo lugar, permitirá realizar nuevas
investigaciones en el seno del análisis del discurso y la estructura conversacional ampliadas a grupos sociales considerados, hasta ahora, de difícil
acceso. En tercer lugar, el corpus permitirá, al igual que PRESEEA-Málaga I
(1995) y PRESEEA-Málaga II (2015), análisis de variacionismo sociolingüístico y de corte dialectal y geográfico, con variables de los diferentes niveles
de análisis, incluido el fonético (tanto impresionista como acústico). Pero
ahora, con una renovación y actualización constante de los materiales, sin
necesidad de esperar 20 años para la construcción de nuevos corpus.
2. Metodología
2.1 Recogida de audios en WhatsApp. Técnicas y organización del material
lingüístico
Como se refleja en el Gráfico 2, la recogida de materiales puede realizarse mediante dos procedimientos distintos, aunque complementarios:
el almacenamiento de audios procedentes de conversaciones privadas (audios individuales), o aquellos cuyo origen sean los grupos de WhatsApp.
Estos podrán ser creados ad expreso o podrían existir previamente.
Audios individuales. En primer lugar, la manera más intuitiva y directa de obtener datos orales telemáticos consiste en solicitar a los contactos
cercanos de los investigadores que reenvíen audios recibidos en las últimas
semanas y meses. De esta manera, no se obtienen solo materiales orales,
sino que se consigue de antemano minimizar los efectos de la paradoja
del observador. Una diferencia fundamental con la entrevista tradicional
es que en estas los informantes son conscientes de que están siendo observados antes de comenzar a hablar, mientras que con este método los informantes serán conscientes de que van a ser observados después de hablar. Es
posible también optar por la técnica de recogida en bola de nieve. Así, con
un esfuerzo mínimo, el investigador consigue acceder a informantes de
todo el espectro social.
Como hemos sostenido hasta ahora, con el fin de poder investigar sobre la importancia de este modelo híbrido oralidad – escritura sobre el
análisis de discurso y la estructura de la conversación, puede pedirse a los
informantes que reenvíen conversaciones completas que se hayan producido mediante audios. En la actualidad, este tipo de conversaciones parece
haberse normalizado y no resulta extraño encontrar intercambios relacio-
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
145
nados de más de un minuto de duración que se estructuran como conversaciones organizadas. No obstante, a pesar de que en apariencia se trata de
un medio oral, no puede obviarse que en él quedan rastros de la escritura,
como la no superposición de contenido, la posibilidad de eliminar el mensaje antes (incluso después) de enviarlo, etc., lo que afecta innegablemente
a la alternancia de turnos y a la disposición de contenidos. Sin embargo, el
envío de este tipo de conversaciones completas permite analizar la influencia de factores como las marcas que dejan los audios escuchados por la otra
parte (doble tic azul), reproducir al doble de velocidad los audios, etc.
Gráfico 2. Esquema de los diferentes tipos de intercambio propuestos
para la recogida telemática de materiales orales
Grupos de WhatsApp. Otra posibilidad consiste en recoger materiales
orales enviados a grupos de WhatsApp. Esto supone también un avance en
la metodología dialectal tradicional, que recomendaba recoger los materiales individualmente para evitar los solapamientos de las intervenciones
que, a menudo, dificultaba los análisis. Los grupos de WhatsApp permiten,
además, un estudio más real del papel que juegan las nuevas redes sociales
(variables mesosociales) y la influencia que existe entre los hablantes en la
actuación lingüística (estatus, jerarquía, tenor). No solo se establece una
comparación entre el comportamiento lingüístico de hablantes que ocupan un determinado puesto en una red social, sino que se puede analizar
de inmediato cómo los hablantes modifican sus actuaciones lingüísticas en
función de los factores señalados.
Los grupos de WhatsApp también ofrecen nuevas posibilidades de obtener discursos lo más espontáneos posible a través de estrategias programadas. Se pueden enviar juegos o adivinanzas que los miembros del grupo
deben resolver mediante sus intervenciones. También pueden enviarse diferentes noticias de actualidad, vídeos presentes en la red sobre temas que
146
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
generen polémica y, en definitiva, utilizar todos los recursos que las nuevas
tecnologías digitales ofrecen para conseguir que los miembros del grupo
interactúen oralmente de manera fluida, dinámica y natural.
Tipo de Intercambio. Como hemos comentado, la posibilidad de reducir
en gran medida los efectos de la paradoja del observador es una de las
grandes ventajas que supone la constitución de un corpus como el aquí
propuesto. En consecuencia, se ha considerado como variable de estudio el
tipo de intercambio comunicativo que da origen al mensaje de voz: por un
lado, se recogen audios tanto de grupos de WhatsApp como privados que
existían con anterioridad a la recogida del material que, en consecuencia,
han sido grabados sin que el hablante fuese consciente de que iba a ser
objeto de investigación lingüística; por otro lado, se propone la creación de
grupos de WhatsApp ex profeso con informantes seleccionados previamente.
Para tal fin, se crean grupos con diversos hablantes y se les pide que, en
la medida de lo posible, se comuniquen solo mediante audios. Se espera
que los participantes, conscientes de que ese contenido va a ser analizado,
opten por variantes más formales y menos vernaculares. De esta manera, se
consigue la incorporación de una nueva variable que pueda medir indirectamente el grado de formalidad o espontaneidad del discurso.
De manera general, se deberían establecer grupos de hablantes entre
los que ya exista una relación previa. Sin embargo, es posible crear grupos
de voluntarios que no se conozcan y cuya interacción se limite tan solo a
conversar sobre ciertos temas en el grupo. Esta sería otra manera de conseguir marcar diferencias de formalidad y de enriquecer la variedad del
material recogido.
Presencia del Investigador. La presencia o ausencia del investigador en el
grupo de WhatsApp es otra manera de medir la formalidad e informalidad
de los audios. Si se consigue registrar un mayor número de rasgos dialectales
en aquellos grupos en los que el investigador no está presente, estaremos en
disposición de afirmar que se trata de variantes vernaculares que los hablantes tratan de frenar en contextos de una mayor formalidad. En caso de que
los hablantes no alteren en exceso su comportamiento lingüístico, podría
añadirse la ventaja de que el investigador actúe, además, como participante,
lo que puede ayudar a dinamizar el grupo mediante determinadas preguntas, propuesta de temas de debate o reflexión, etc., sin depender de forma
directa de una tercera persona ajena al grupo que actúe como pseudomoderador. Por ello, hemos considerado la presencia/ausencia del investigador
en los grupos de WhatsApp analizados como variable de estudio.
2.2 Muestra de hablantes y cuestionarios
En cuanto a las variables de hablante que estratifican el nuevo corpus,
se ha expuesto la necesidad de superar las barreras macrosociales que hasta
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
147
ahora se venían aplicando (edad, sexo, nivel educacional). La idea básica
es reorganizar el método de investigación tradicional y no aplicar la interpretación solo a los resultados y al análisis, sino también a la metodología y
a la recogida de datos. En nuestro caso, la única condición exigible de manera previa al envío de audios (y que más adelante se comprueba) es que
los hablantes hayan nacido en la ciudad de Málaga o residan en ella desde
un periodo de tiempo superior a 15 años.
También es necesario plantearse cómo adaptar las técnicas de muestreo y métodos de campo. Uno de los primeros pasos consiste en realizar
un trabajo etnográfico previo que incluya la identificación interpretativa de registros y grupos perceptivos. Para ello, hemos realizado una
revisión de investigaciones en Málaga sobre percepción comunitaria
(Molina 2019, 2021) que analiza en profundidad la indexicalidad de las
variantes lingüísticas en los tres niveles sociales: macroestratificacional,
mesosocial y de pequeña escala/biográfico (Villena y Vida 2017). Los
resultados muestran una tendencia hacia la pérdida progresiva de los rasgos lingüísticos marcados regionalmente por parte de las mujeres urbanas jóvenes educadas pertenecientes a la clase social media-alta: ingresos
económicos altos, residencia en las zonas más prestigiosas de la ciudad;
con redes sociales laxas y con un buen acopio tanto de capital objetivado
(instrucción posobligatoria de los padres y de la pareja), como de capital
incorporado (interés por adquirir conocimientos fuera de la educación
reglada).
En la metodología tradicional, primero se configuran las variables
sociales, se buscan informantes que cumplan el perfil requerido y, a veces, se les pide que rellenen un cuestionario sociológico durante o tras
la entrevista. Sin embargo, el proceso ahora es diferente: primero se recoge el material lingüístico que resulta interesante y que tiene calidad
suficiente para conformar el corpus y, después, se localiza al informante.
Si el emisor de los audios los envía al investigador directamente, tan solo
deben rellenar un formulario de concesión para uso académico e investigador. Si el emisor de los audios es una tercera persona, el remitente
de los audios debe primero informar al emisor original de que los audios
se van a enviar a un investigador para que realice análisis lingüísticos y
estadísticos, y se le pide que rellene el formulario de protección de datos.
Esto aplica de igual forma al envío de audios que han sido grabados con
anterioridad. En aquellos grupos que vayan a generar nuevo contenido,
deben ser conscientes de que su material va a ser empleando para la
investigación y deben rellenar el correspondiente formulario de cesión
de derechos.
Una vez recogido el material lingüístico, el investigador trata de obtener información sociológica sobre los hablantes y sobre las circunstancias
de la interacción comunicativa a través de cuestionarios específicos estructurados en bloques (Anexo I):
148
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
A. Información sobre los hablantes. Se recoge por medio de una ficha
de datos sociológicos elemental. En ella se señala la identidad de
género, edad y nivel de instrucción formal tanto del emisor como
del destinatario del mensaje de voz.
B. Información sobre las circunstancias de la interacción. Este apartado del cuestionario recoge datos que sirven para reconstruir la relación que existe entre el emisor y el destinatario del mensaje: grado
de proximidad, tipo de relación, formalidad y determinados factores enunciativo-situacionales que pudiesen ser de interés interpretativo y analítico: temática, tipo de registro, fuerza ilocutiva del
acto de habla, principalmente. El poder de condicionamiento de
los actos de habla generados en el producto final es innegable. La
actuación lingüística del informante variará, y alcanzará un registro
más espontáneo y próximo a lo considerado ‘vernacular’, cuando
existan relaciones de solidaridad y cercanía entre los hablantes.
De igual modo, todos los audios se identifican mediante una matrícula
que se complementa con información adicional:
Información sobre el archivo de audio
Matrícula
Ejemplo: MA_HE3_001_01
Se sigue la identificación propuesta en el entorno de PRESEEA, donde
MA responde a los caracteres identificativos de la comunidad estudiada, en
este caso MA por la ciudad de Málaga, seguido del código de identificación
sociolingüística del informante (Género: H(ombre) o M(ujer); Variedad
que refleja el audio: V(ernáculo) o E(stándar); Grupo de edad: 1,2,3) y de
un número de tres cifras desde el 001 hasta el número máximo de informantes. Finalmente, aparece una numeración de dos cifras desde el 01 que
indica el número de audio asociado al informante.
Duración del audio
(tiempo expresado en segundos)
Transliteración completa del audio
Carpeta de origen (para preservar el anonimato, los nombres de las carpetas se presentan aquí solo con la inicial del nombre asignado)
1. K
2. MC
ORALIA, vol. 27/2, 2024, págs. 135-166.
3.
4.
5.
6.
7.
Propuesta de construcción de nuevos corpus...
149
Ch
ME
CA
PyP
Grupo de WhatsApp
La clasificación en distintas carpetas obedece solo a criterios de recogida de datos. Los audios que conforman una carpeta suelen caracterizarse
por haber sido recopilados por un mismo entrevistador, por haber sido recogidos de una zona geográfica específica, o por tener alguna peculiaridad
diferente (Grupo de WhatsApp). En cualquier caso, si se diesen futuras
reorganizaciones del material sonoro, estaría prevista su modificación en
la base de datos.
Los datos anteriores se almacenan en una base de datos general que
contiene la información necesaria para organizar a los hablantes según las
variables sociales que proporcionen mejores resultados. De nuevo, la facilidad e inmediatez de actualización de datos que el corpus telemático ofrece
permite obtener información sociológica del informante con un bajo coste
temporal.
Componentes situacionales
Hemos considerado relevante la inclusión de variables situacionales,
derivadas de los estudios de Fishman (1972), Hymes (1974) y Halliday
(1978), donde se advierte de que estos componentes situacionales van a
marcar las distinciones entre los distintos tipos discursivos, lo que afecta
a las interacciones comunicativas. Estos componentes son necesarios para
entender cómo se articulan los factores situacionales y cuáles predominan
o determinan a los otros, ya que los componentes son interdependientes
en todos los casos. En general, los componentes más importantes son el
‘campo’ (‘field’) definido como el tipo de acción social, el papel de las relaciones o ‘tenor’ (‘tenor’) y el ‘modo’ (‘mode’), la organización simbólica.
Mostramos a continuación un ejemplo de la estructura de la base de
datos codificada donde quedan almacenados todos los datos:
150
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
Matrícula
G
V
E
A/A
D/A
Transliteración
K
GD
ED
ID
P
R
FI
FII
T
TC
R
FI
MA_HV2_001
1
1
2
MA_HV2_001_03
0:03
El Olea dice que te da recuerdos
1
1
2
1
1
4
0
0
1
2
0
7
MA_HV2_001
1
1
2
MA_HV2_001_04
0:03
¿Y por qué no mides eso Carlos, los
que hay?
1
1
2
1
1
4
0
0
2
3
0
2
1
1
2
1
1
4
0
0
2
3
0
4
MA_HV2_001
1
1
2
MA_HV2_001_05
0:16
El del lavabo normalmente va a un cero
cinco a un metro cero cinco centímetros
para normalmente, hay muchas veces
que lo ponen más alto para que se quede
entre el espejo y el lavabo, el lavabo
normalmente tiene uno veinte
MA_HV2_002
1
1
2
MA_HV2_002_02
0:05
Carlos entonces que, ¿Cuánto has sacado
menos? ¿Pero mucho menos o qué?
1
1
2
1
1
4
0
0
2
3
0
8
MA_HV2_002_03
Espérate que yo no lo tengo guardado,
ahora lo buscare y te lo mandare, porque
como me llama por la mañana pues ahora
0:10
lo mirare y te lo mandará porque es que
no lo tengo ni guardado no le he puesto
ni el nombre
1
1
2
1
1
4
0
0
2
3
0
5
MA_HV2_002
1
1
2
Matrícula: Identificación general de la procedencia de la grabación
G: Género del emisor (1. Hombre, 2. Mujer, 3. Diferente a 1 y 2)
V: Variedad empleada en el audio (1. Vernáculo, 2. Estándar)
E: Edad del emisor (1. 20-34 años, 2. 35-54 años, 3. 55 en adelante)
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
151
A/A: Identificación específica del archivo de audio
D/A: Duración del audio expresada en segundos
Transliteración: transliteración ortográfica y normativa completa del audio
K: Carpeta de origen
GD: Género del destinatario (1. Hombre, 2. Mujer, 3. Diferente a 1 y 2)
ED: Edad del destinatario (1. 20-34 años, 2. 35-54 años, 3. 55 en adelante)
ID: Nivel de instrucción del destinatario (1. Estudios básicos o primarios, 2.
Estudios medios acabados, 3. Estudios superiores acabados)
P: Grado de proximidad emisor/destinatario (0. Valor perdido (falta de
información), 1. Insider (amigo, pariente, compañero, vecino de la red
personal de contactos), 2. Outsider (conocido o lazo débil de la red personal de contactos), 3. Otros)
R: Relación emisor/destinatario (0. Valor perdido (falta de información),
(1. Familiar, 2. Amigo, 3. Compañero de trabajo, 4. Vecino, 5. Casero, 6.
Jefe o jerarquía superior, 7. Jerarquía subordinada, 8. Otros)
FI: Formalidad (tenor-estatus): (0. Valor perdido (falta de información),
(1. Solidaridad (relaciones de igualdad), 2. Jerarquía I<R, 3. Jerarquía I>R,
4. Otros)
FII: Formalidad (tenor-edad): (0. Valor perdido (falta de información), (1.
Solidaridad (relaciones de igualdad), 2. Jerarquía I<R, 3. Jerarquía I>R, 4.
Otros)
T: Temática (0. Valor perdido (falta de información), (1. Tema cotidiano:
diario y común en la relación socializadora de la gente, 2. Tema especializado (técnico): ámbito profesional o académico, 3. Formulas rituales de
saludo o despedida, 4. Tema no cotidiano, ni especializado, ni ritualizado)
TC: Tema de conversación (0. Valor perdido (falta de información), (1.
Familiar, 2. Personal, 3. Profesional, 4. Estudios, 5. Hobbies, …)
R: Registro (1. Informal, 2. Formal, 3. Neutro)
FI: Fuerza ilocutiva del acto de habla (0. Valor perdido (falta de información), (1. Directivos (tratamos de conseguir que hagan cosas) en beneficio del hablante (órdenes, mandatos, preguntas, prohibiciones, solicitudes, súplicas, etc.), 2. Directivos en beneficio del interlocutor (consejos,
sugerencias, advertencias en beneficio del oyente, propuestas, etc.), 3.
Asertivos de opinión (decimos cómo son las cosas) (se incluyen rechazos,
disensiones, protestas, etc.), 4. Asertivos de información (descripciones
del estado actual factual de la realidad), 5. Compromisos (nos comprometemos a hacer cosas) (promesas, contratos, ofrecimientos), 6. Expresivos (expresamos nuestros sentimientos y actitudes) de insultos, recriminaciones, quejas, lamentos, 7. Expresión de agradecimientos, halagos,
cumplidos, etc., 8.
152
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
2.3 Contenido lingüístico de los audios
No se establece un filtro previo referido a la calidad, duración o contenido de los materiales sonoros. A diferencia de los corpus tradicionales,
un elevado número de material de corta duración puede ofrecer un contenido lingüístico muy útil para la investigación, con lo que el número total
de minutos almacenados no tiene que ser muy extenso de forma necesaria. Indudablemente, la duración total de los audios es recogida como una
variable independiente más en la base de datos (D/A), pues la actuación
lingüística puede estar condicionada, precisamente, por la duración de los
mensajes orales. El límite de la calidad de sonido para los análisis fonéticos
impresionistas y otros niveles de análisis lo determina la propia inteligibilidad de los materiales. Por ejemplo, el límite de la calidad de sonido para
los análisis acústicos lo establece la posibilidad de realizar estudios fiables,
que no estén alterados en exceso por el ruido de fondo (audios que se graban andando en la calle, en el metro, con música, etc.).
3. Resultados preliminares. Dificultades y ejemplos
Conviene recordar que este trabajo supone la exposición y caracterización de una propuesta metodológica que se encuentra en la fase inicial
de su desarrollo. Por tanto, el número de datos recopilados hasta la fecha
y las impresiones obtenidas son una primera aproximación al potencial
de esta técnica de recogida. No obstante, las ventajas de inmediatez y de
recogida pasiva de material oral han permitido almacenar suficientes datos
para exponer sucintamente unas primeras impresiones positivas y reflejar
cuáles son las dificultades reales que han aparecido en los primeros pasos
del proyecto.
Hasta el momento, en esta primera fase de recogida de materiales, se
han almacenado casi 500 audios, con una duración total de contenido de
20 minutos y 32 segundos. El audio más largo tiene una duración de 3 minutos y 14 segundos y el más breve tan solo de 2 segundos. El número total
de palabras contenidas en esos audios es de casi 30 000.
Los audios proceden de un total de 76 informantes (H=38, M=38). Por
un lado, se trata en su mayoría de hablantes que cumplen el papel prototípico de malaguita; es decir, hablantes de estrato socioeconómico bajo que
residen en barrios populares y, en ocasiones, conflictivos desde el punto
de vista social. Estos desempeñan profesiones diversas: vendedores ambulantes, camareros, reponedores, boxeadores o desempleados; algunos
son aficionados ultras de un equipo de fútbol. Por otro lado, se ha obtenido material de informantes considerados limonetis que residen en barrios
acomodados de la ciudad con un estatus social alto que desempeñan, en
general, profesiones liberales (abogados, médicos), son altos funcionarios
o, incluso, herederos de algún título nobiliario. Como se ha probado con
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
153
anterioridad, el crisol de variedades lingüísticas que define a Málaga es fácilmente identificable, lo que nos ha permitido representar anteriormente
el mapa sociolingüístico de la ciudad lingüística de Málaga (Villena 1994;
Molina 2021).
De manera previa al análisis específico que los audios nos ofrecen, el
equipo de trabajo valora muy positivamente los materiales orales recogidos
hasta ahora, ya que parecen reflejar de una manera más fiel la imagen sociolingüística que se busca: poseemos ya realizaciones de hablantes con un
elevadísimo porcentaje de aparición de variantes fonológicas consideradas
vernaculares que representan sin filtros los usos lingüísticos reales de los
hablantes.
A pesar de que todavía no se ha llevado a cabo un análisis acústico de
los documentos, a priori puede decirse que el resultado obtenido es incluso mejor de lo esperado. Si bien es cierto que algunos informantes (muy
pocos) envían las notas de voz con algún ruido de fondo, la mayoría de
los audios ofrece una calidad suficiente. En este sentido, el porcentaje de
archivos de voz desechado hasta el momento es insignificante.
La mayor parte de los audios que poseemos proceden de reenvíos de
colaboradores que nos han hecho llegar sus intercambios individuales y
de varios grupos de WhatsApp en los que participan. Estos últimos parecen presentar un gran potencial, según lo previsto en la descripción metodológica. No solo permiten analizar las interacciones, las alternancias de
turnos, los procesos de atenuación y otros parámetros relacionados con el
discurso, sino que han resultado ser casos en los que la paradoja del observador se ha conseguido superar con mayor eficacia. Por ejemplo, en uno
de los grupos, se genera un enfrentamiento entre dos miembros que parecen haber tenido un problema por la mañana en el trabajo. Comienzan
recriminándose mutuamente la actitud en un tono de evidente enfado (las
situaciones pasionales acercan la espontaneidad y los usos vernaculares),
para, al final, acercar las posturas y destensar la situación mediante diversos
mecanismos discursivos.
Matrícula: MA_HV2_020_01
A. Mira, Wilson, a mí me gusta el cachondeo más que a ti, pero hay
que saber cuándo parar el cachondeo y cuándo seguir. Y hoy creo
que te has equivocado porque yo creo que tú, si eres amigo mío, tenías que haber parado nada más que por respeto a mí y a mi mujer.
Que no pasa nada, ¿me entiendes?, que no hay problema. Pero hoy
te has equivocado, tío.
B. Yo preocupado no estoy, ¿me entiendes? Yo sé de que <sic> yo he
estado allí, ¿me entiendes?, y mientras hemos estado con la guasa,
hemos estado con la guasa, pero todo tiene un principio y un fin,
154
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
Antonio. Si no te fueras equivocado <sic>, pues fuéramos seguido
<sic> de guasa igual, ¿me entiendes?, de guay. Pero, como se ha
equivocado, ¿me entiendes?, él tiene que saber cuándo parar, ¿me
entiendes? Y que no, tío, si yo no salto, es que no soy un hombre,
soy un mierda, ¿me entiendes?, había que saltar y punto. Pero, vamos, que sin problemas, que conmigo el Wilson es canela, siempre
ha sido canela, pero bueno, le ha dado hoy por ahí al nota, ¿me
entiendes?, y yo he tenido que ponerme en mi sitio, yo tampoco me
voy a quedar callado. Yo soy latino, primo. Tengo sangre caliente.
Estos hablantes, muy próximos al polo vernacular de la ciudad de Málaga presentan, además, prácticamente un 100 % de realizaciones fonológicas prototípicas:
•
fricativas [∫] en lugar de africadas: cachondeo [ka∫on’ðeo]
•
neutralización de las fricativas coronales: se habrá dado cuenta de que
se ha equivocado [θa’bra ‘ðao ‘kuenta ke θakiβo’kao]
•
elisión de de -s en posición implosiva: si eres amigo mío [θi ‘ereØ
a’miɣo ‘mio]
•
elisión de fricativas velares intervocálicas: por respeto a tu mujer [por
re’pheto a tu mu’he]
•
neutralización de las líquidas: si yo no salto [θi jo no ‘θaɺto]
elisión de sílabas: Antonio, pero vamos [tonio | pero ‘amo]
También aparecen estructuras gramaticales locales: uso de imperfecto
de subjuntivo por pluscuamperfecto de subjuntivo (si no te fueras equivocado,
fuéramos seguido igual), coloquialismos (hemos estado con la guasa; el Wilson es
canela; le ha dado por ahí al nota, etc.) y vulgarismos como el dequeísmo (yo
sé de que yo he estado allí).
Uno de los principales escollos que hemos encontrado hasta ahora ha
sido la dificultad para localizar a hablantes de entre 40 y 55 años que enviasen audios con WhatsApp de manera frecuente. Es probable que los jóvenes y nativos digitales estén más acostumbrados al envío de mensajes de
voz en sus intercambios comunicativos. Las personas mayores de 55 años
quizás utilicen más los mensajes de voz porque les resulta más cómodo
que escribir en una pantalla pequeña como la de los teléfonos móviles.
Sin embargo, es posible que las generaciones intermedias, tras un esfuerzo
por adaptarse al canal de inmediatez escrita, necesiten más tiempo para
readaptarse al canal oral. No obstante, como hemos explicado, estamos
en una etapa inicial de recogida de los materiales y quizá sea una primera
impresión errónea que, en cualquier caso, hay que corroborar.
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
155
Otro asunto que está resultando algo problemático es el de la existencia de un grupo de personas que, incluso ajenas al proceso de nuestra observación lingüística, no parece adoptar un habla natural cuando graban
sus mensajes de voz, sino que los construyen de forma llamativamente lenta, trabada, quizá por interferencia con la escritura. Este proceso puede
también verse intensificado por la posibilidad que ofrecen los teléfonos
móviles de dictar texto para que aparezca como mensaje escrito.
Sin embargo, a pesar de las dificultades señaladas y de la disminución
de calidad acústica de algunos audios, en el momento actual de construcción del nuevo corpus, es evidente que las ventajas superan con creces a
las desventajas. Será necesario seguir cubriendo etapas y recopilando más
cantidad de materiales para calibrar el potencial real de esta metodología.
4. Conclusiones
La catástrofe sociosanitaria provocada por la pandemia de la covid-19
dificultó enormemente las labores de desplazamiento y, con ello, la posibilidad de realizar entrevistas presenciales que sirvieran para acumular datos
lingüísticos dispuestos para su análisis. Sin embargo, la situación anómala
prolongada en el tiempo obligó a aprovechar la consolidación de las tecnologías de comunicación de inmediatez oral como un nuevo método de
obtención de materiales válidos para el desarrollo de las investigaciones
propias de la dialectología y la sociolingüística. La situación particular de
la ciudad de Málaga, formada por una comunidad de habla sociolingüísticamente muy polarizada cuyo acceso a los miembros de los extremos del
continuo social ha ofrecido bastante resistencia hasta el momento, refuerza aún más la necesidad de incorporación de esta nueva metodología de
forma sistemática. Lo que empezó siendo algo transitorio e impuesto, se
ha manifestado como algo definitivo y ventajoso respecto a etapas metodológicas previas.
El corpus PRESEEA–Málaga III, gestado en el seno del proyecto Agenda
2050. El español de Málaga: Procesos de variación y cambio espaciales y sociales,
pretende la recolección de material oral procedente de audios de WhatsApp, ya sea a través de mensajes individuales o de grupos de hablantes previamente existentes o creados ex profeso para la investigación. De esta manera, pueden obtenerse materiales lingüísticos orales con gran rapidez y con
un elevado grado de espontaneidad, lo que permite reducir al mínimo los
efectos de la paradoja del observador. La propia naturaleza de este canal
de comunicación favorece que los mensajes se graben sin que los hablantes
sean conscientes de que van a participar en una investigación lingüística.
Las primeras semanas de recogida de datos han permitido vislumbrar
un elevado potencial a esta propuesta metodológica. El desarrollo de las
siguientes fases será clave, no solo por los resultados que puedan obtener-
156
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
se sobre las características dialectales del español peninsular meridional,
sino también porque la propuesta podría servir como modelo para futuras
investigaciones de corte dialectal y sociolingüístico en diferentes comunidades de habla. Nuestra intención es verificar su adecuación mediante el
establecimiento de múltiples bases de datos en diferentes sintopías para
acumular experiencias y comprobar su bondad. Consideramos que las características propias del macroproyecto PRESEEA se ajustan muy adecuadamente a este propósito.
En nuestro caso, al menos hasta el momento, en apenas unas semanas
de trabajo se ha recogido gran cantidad de datos lingüísticos procedente
de una serie de hablantes a los que en más de tres décadas de investigación
no habíamos sido capaces de acceder.
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
157
BIBLIOGRAFÍA
Ávila Muñoz, Antonio M. (2017): «Entre limonetis y malaguitas: Estudio del
léxico divergente de proximidad. Nuevos datos del Proyecto CONVERLEX-Málaga malaguitas y limonetis», Hispania 100/4, 538-553.
Ávila Muñoz, Antonio M., María de la Cruz Lasarte Cervantes y Juan A.
Villena Ponsoda (2008): El español hablado en Málaga II. Corpus oral para su
estudio sociolingüístico. Nivel de estudios medio, Málaga: Sarriá.
Bourdieu, Pierre (1977): «L’Économie des échanges linguistiques», Langue
Française 34, 17-34.
Bourdieu, Pierre (1982): «Capital et marché linguistiques», Linguistische Berichte 90, 3-24.
Britain, David (2009): «One foot on the grave? Dialect death, dialect contact,
and dialect birth in England», International Journal of the Sociology of Language 196/197, 121-155.
Cerruti, Massimo (2019): «La formazione di varietà intermedie tra dialetti di
base e standard in situazioni europee», Rivista Italiana di Dialettologia 42,
79-99.
Crystal, David (2006): Language and the Internet, Cambridge: Cambridge University Press.
Fishman, Joshua (1972): Sociología del Lenguaje, Madrid: Cátedra.
Gutiérrez Sanz, Víctor (2016): «Retórica de los discursos digitales. Una propuesta metodológica para el análisis de los discursos en Twitter», Aposta,
Revista de Ciencias Sociales 69, 67-103.
Halliday, Michael A. K. (1978): Language as a Social Semiotic. The Social Interpretation of Language and Meaning, London: Edward Arnold.
Hernández Campoy, Juan M. y Juan A. Villena Ponsoda (2009): «Standardness and nonstandardness in Spain: Dialect attrition and revitalization of
regional dialects of Spanish», International Journal of the Sociology of Language
196-197, 181-214.
Hinskens, Frans (1998): «Dialect Levelling: A two-dimensional process», Folia
Lingüística 32, 35-51.
Hymes, Dell (1974): Foundations in sociolinguistics: An ethnographic approach, University of Pennsylvania Press.
Labov, William (1972): Sociolinguistic Patterns, Filadelfia: University of Pennsylvania Press.
Lasarte Cervantes, María de la Cruz, José M. Sánchez Sáez, Antonio M. Ávila
Muñoz y Juan A. Villena Ponsoda (2008): El español hablado en Málaga III.
Corpus oral para su estudio sociolingüístico. Nivel de estudios alto, Málaga, Sarriá.
158
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
Molina García, Álvaro (2019): «Percepción y distancia acústica: la variación
paramétrica individual en la escisión fonemática de /θ/ en el español andaluz. Datos de la ciudad de Málaga», ELUA 33, 111-140.
Molina García, Álvaro (2020): «Percepción comunitaria de la distinción fonemática de la /s/ y la /θ/ en hablantes andaluces: Estudio en la ciudad de
Málaga», Spanish in Context 17/3, 415-437.
Molina García, Álvaro (2021): Fundamentos acústico-perceptivos de la escisión prestigiosa de /θ/. Estudio sociofonético en Málaga, Berna: Peter Lang.
Moreno Fernández, Francisco (1996): «Metodología del ‘Proyecto para el
Estudio Sociolingüístico del Español de España y América’ (PRESEEA).
Presentación», Lingüística 5, 268-271.
Røyneland, Unn (2010): «Vertical convergence of linguistic varieties in a language space». En Peter Auer y J. E. Schmidt (eds.), Language and Space. An
International Handbook of Linguistic Variation. Theories and Methods, I, Berlín/
Nueva York: Mouton de Gruyter, 259-274.
Sánchez Upegui, Alexánder A. (2008): «Aproximación sociolingüístico al uso
educomunicativo del chat, el foro y el correo electrónico», Revista Virtual
Universidad Católica del Norte 25. <https://revistavirtual.ucn.edu.co/index.
php/RevistaUCN/article/view/120/234>.
Ueberwasser, Simone y Elisabeth Stark (2017): «What’s up, Switzerland? A
corpus-based research project in a multilingual country», Linguistik Online
84/5, 105-126.
Vida Castro, Matilde (2003): Restricciones universales sobre la variación de -s- en la
distensión silábica: investigación sobre el español hablado en la ciudad de Málaga.
Tesis doctoral de la Universidad de Málaga.
Vida Castro, Matilde (2007): El español hablado en Málaga I. Corpus oral para su
estudio sociolingüístico. Nivel de estudios bajo, Málaga: Sarriá.
Vida Castro, Matilde (2016): «Correlatos acústicos y factores sociales en la
aspiración de /-s/ preoclusiva en la variedad de Málaga (España). Análisis
de un cambio fonético en curso», Lingua Americana 38, 15-36.
Vida Castro, Matilde (en prensa): Corpus oral complementario del español hablado
en Málaga, Málaga: Universidad de Málaga, Publicación del Grupo Vernacular Urbano Malagueño.
Villena Ponsoda, Juan A. (1994): La ciudad lingüística: fundamentos críticos de la
sociolingüística urbana, Granada: Universidad de Granada.
Villena Ponsoda, Juan A. (2001): La continuidad del cambio lingüístico. Tendencias innovadoras y conservadoras de la fonología del español a la luz de la investigación sociolingüística urbana, Granada: Universidad de Granada.
Villena Ponsoda, Juan A. (2005): «How similar are people who speak alike? An interpretative way of using social networks in social dialectology
research». En Peter Auer, Frans Hinskens y Paul Kerswill (eds.), Dialect
change: Convergence and divergence in European languages, Cambridge/Nueva
York: Cambridge University Press, 303-334.
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
159
Villena Ponsoda, Juan A. (2018): «The dilemma of the reliability of geolinguistic and dialectological data for sociolinguistic Research. The case of
the Andalusian demerger of /θ/», Acta Lingüística Lithuanica 79, 9-37.
Villena Ponsoda, Juan A. y Antonio M. Ávila Muñoz (2014): «Dialect stability and divergence in southern Spain. Social and personal motivations».
En Kurt Barunmüller, Steffen Höder y Karoline Kühl (eds.), Stability and
divergence in language in contact. Factors and mechanisms, Ámsterdam: John
Benjamins, 207-238.
Villena Ponsoda, Juan A. y Matilde Vida Castro (2017): «Variación, identidad y coherencia en el español meridional. Sobre la indexicalidad de
las variables convergentes del español de Málaga». Lingüística en la Red.
<https://ebuah.uah.es/dspace/bitstream/handle/10017/34167/variacion_villena_LIN_2017_15.pdf?sequence=1&isAllowed=y>.
Zappavigna, Michele (2011): Ambient affiliation: A linguistic perspective on
Twitter, New Media & Society 13/5, 788-806.
160
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
Anexo 1. Ficha para la recogida de datos PRESEEA-Málaga III
INFORMACIÓN SOBRE EL INFORMANTE (EMISOR)
1. Informante
Ejemplo: MA_HE3_001
Se va a seguir la nomenclatura típica de PRESEEA, donde MA responde a los caracteres identificativos de la comunidad estudiada, en este caso
MA por la ciudad de Málaga, seguido del código sociolingüístico del informante (Sexo: H(ombre) o M(ujer); Variedad: V(ernáculo) o E(stándar);
Grupo de edad: 1,2,3) y de un número de tres cifras desde el 001 hasta el
número máximo de informantes.
2. Variedad empleada en el audio
1. Vernáculo
2. Estándar
3. Identidad de género
1. Hombre
2. Mujer
3. Diferente a 1 y 2
4. Edad
1. Generación 1 (20-34)
2. Generación 2 (35-54)
3. Generación (> 55)
INFORMACIÓN SOBRE EL ARCHIVO DE AUDIO
5. Archivo de audio
Ejemplo:MA_HE3_001_01
Al nombre del archivo de audio explicado arriba se le añade de una
numeración de dos cifras desde el 01 que indica el número de audio asociado al informante, pues hay algunos que aportan más de un mensaje de
voz al corpus.
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
161
6. Duración del audio
(tiempo expresado en segundos)
7. Transliteración completa del audio
(ortográfica, básica. Realizada con Whisper [https://openai.com/blog/
whisper/] y revisada posteriormente por pares)
8. Carpeta de origen (para preservar el anonimato, los nombres de las
carpetas se presentan aquí solo con la inicial del nombre asignado)
1.
2.
3.
4.
5.
6.
7.
K
MC
CH
ME
CA
PyP
Grupo de Whatsapp
9. Tipo de intercambio I
1. Privado
2. Grupo de WhatsApp preexistente
3. Grupo de WhatsApp nuevo (ad hoc)
10. Tipo de intercambio II
1. El emisor es consciente de estar siendo grabado
2. El emisor NO es consciente de estar siendo grabado
11. Tipo de intercambio III
1. Forma parte de una estructura discursiva formal (conversación)
2. NO forma parte de una estructura discursiva formal (mensajes aislados)
INFORMACIÓN SOBRE EL DESTINATARIO DEL MENSAJE
12. Género
1. Hombre
2. Mujer
3. Diferente a 1 y 2
162
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
13. Edad
1. Generación 1 (20-34)
2. Generación 2 (35-54)
3. Generación (> 55)
14. Nivel de estudios
1. Nivel bajo
2. Nivel medio
3. Nivel alto
RELACIÓN INFORMANTE (EMISOR)-DESTINATARIO
15. Grado de proximidad
1. Insider (amigo, pariente, compañero, vecino de la red personal de
contactos)
2. Outsider (conocido o lazo débil de la red personal de contactos)
3. Otros
16. Relación
1.
2.
3.
4.
5.
6.
7.
Familiar
Amigo
Compañero de trabajo
Vecino
Otros
Casero
Jefe o un superior
17. Formalidad (tenor y estatus)
1.
2.
3.
4.
Solidaridad (relaciones de igualdad)
Jerarquía I<R
Jerarquía I>R
Otros
18. Formalidad (tenor y edad)
1. Solidaridad (relaciones de igualdad)
2. Jerarquía I<R
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
163
3. Jerarquía I>R
4. Otros
FACTORES ENUNCIATIVOS-SITUACIONALES
19. Temática
1. Tema cotidiano: diario y común en la relación socializadora de la
gente
2. Tema especializado (técnico): ámbito profesional o académico
3. Formulas rituales de saludo o despedida
4. Tema no cotidiano, ni especializado, ni ritualizado
20. Tema de conversación
1.
2.
3.
4.
5.
6.
Familiar
Personal
Profesional
Estudios
Hobbies
…
21. Registro
1. Informal
2. Formal
3. Neutro (medio)
22. Fuerza ilocutiva del acto de habla
1. Directivos (tratamos de conseguir que hagan cosas) en beneficio
del hablante (órdenes, mandatos, preguntas, prohibiciones, solicitudes, súplicas, etc.)
2. Directivos en beneficio del interlocutor (consejos, sugerencias, advertencias en beneficio del oyente, propuestas, etc.)
3. Asertivos de opinión (decimos cómo son las cosas) (se incluyen
rechazos, disensiones, protestas, etc.)
4. Asertivos de información (descripciones del estado actual factual
de la realidad)
5. Compromisos (nos comprometemos a hacer cosas) (promesas,
contratos, ofrecimientos)
164
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
6. Expresivos (expresamos nuestros sentimientos y actitudes) de insultos, recriminaciones, quejas, lamentos,
7. Expresión de agradecimientos, halagos, cumplidos, etc.
8. Otros
PLANTILLA PARA LA RECEPCIÓN DEL MATERIAL
Nombre del archivo: _____________
1. Emisor del mensaje
Identidad de género:
1. Hombre
2. Mujer
3. Otro
Edad:
1. Grupo 1 (18-34 años)
2. Grupo 2 (35-55 años)
3. Grupo 3 (Más de 55)
Nivel de estudios:
1. Nivel bajo
2. Nivel medio
3. Nivel alto
2. Receptor del mensaje
Género:
1. Hombre
2. Mujer
3. Otro
Edad:
1. Grupo 1 (18-34 años)
2. Grupo 2 (35-55 años)
3. Grupo 3 (Más de 55)
ORALIA, vol. 27/2, 2024, págs. 135-166.
Propuesta de construcción de nuevos corpus...
Nivel de estudios:
1. Nivel bajo
2. Nivel medio
3. Nivel alto
Relación entre participantes
1.
2.
3.
4.
5.
6.
7.
Familiar
Amigo
Compañero de trabajo/clase
Vecino
Casero
Jefe
Otro (especificar): _____________
Contexto del audio
1. Conversación individual
2. Conversación grupal
Si es un grupo, describe brevemente los participantes:
1.
2.
3.
4.
Grupo familiar
Grupo de amigos
Grupo de trabajo
Otro (especificar): _______________
Edad de los participantes:
1. Edades similares
2. Edades diferentes
Si las edades son similares, marca el grupo de edad:
1.
2.
3.
4.
Grupo 1 (18-34 años)
Grupo 2 (35-55 años)
Grupo 3 (Más de 55)
Se desconoce
165
166
Álvaro Molina y Antonio M. Ávila
ORALIA, vol. 27/2, 2024, págs. 135-166.
Género de los participantes:
1. Mismo género
2. Diferente género
Si el género de los participantes es similar, marca el género:
1.
2.
3.
4.
Hombre
Mujer
Otro
Se desconoce
Nivel de estudios:
1. Mismo nivel de estudios
2. Diferentes niveles de estudio
Si el nivel de estudios de los participantes es similar, marca el nivel de
estudios:
1.
2.
3.
4.
Nivel bajo
Nivel medio
Nivel alto
Se desconoce
A pesar de que la lingüística de corpus se ha nutrido en
los últimos años de datos recogidos en los nuevos canales de
comunicación electrónica, las bases procedentes de fuentes orales
de origen telemático son aún escasas. No obstante, al igual que en
otras muchas áreas de investigación, la crisis sanitaria provocada por
la covid-19 ha generado la necesidad de acelerar la incorporación
de este tipo de material en la investigación sociolingüística. En
consecuencia, dentro del marco del Proyecto PRESEEA-Málaga,
consideramos que la recogida de mensajes de voz enviados a través
de la aplicación WhatsApp puede ser una forma rápida, eficaz y de
bajo coste para la construcción de corpus lingüísticos orales de nueva
planta. En el presente trabajo, se expone una discusión teórica sobre
las ventajas e inconvenientes de este tipo de corpus. Además, se
detalla la metodología empleada para la recogida, almacenamiento
y organización de los materiales que hemos empleado hasta ahora
en la Universidad de Málaga, con especial atención a los planes
de codificación creados y a las estrategias de clasificación usadas.
Finalmente, se muestran ejemplos de los materiales almacenados
en un intento de presentar la potencialidad de análisis que ofrece
este nuevo tipo de corpus.