TFG Kevin Alberto Lopez Porcheron
TFG Kevin Alberto Lopez Porcheron
TFG Kevin Alberto Lopez Porcheron
de Madrid
Ingenieros Informáticos
i
Abstract
Constructed languages, also known as Conlangs, are languages carefully
designed by people for a variety of purposes, like Esperanto. They have
particularly impacted literatura and art, where authors like J. R. R. Tolkien have
used them to bring life to their fantasy works with carefully devised languages
such as Quenya which, alongside television sagas like Star Trek, have created
an enormous fanbase around elvish and Klingon. This popularity has paved the
way for directors like James Cameron and companies such as HBO to invest in
the creation of new conlangs to make their productions more interesting. This
success has also extended to other áreas, such as videogames and tabletop
games. Furthermore, state agencies such as the French Language Enrichment
Commission are specifically tasked with the duty to create new words to prevent
excessive external linguistic influence. In response to this popularity increase
in conlanging, this Project proposes a computational approach to automatize
and speed up the process of realistic language creation. To do so, it emulates
the evolutionary process of a natural language, allowing the creation of new
realistic conlangs according to a series of parameters. Lastly, the method
exposed allows investigating the potential evolution of a language, with an
emphasis on phonology and phonetics.
ii
Tabla de contenidos
1 Introducción ......................................................................................1
2 Investigación Previa ..........................................................................3
2.1 Estado del Arte ................................................................................... 3
2.1.1 GPTn............................................................................................ 3
2.1.2 This Word Does Not Exist............................................................. 3
2.1.3 Onset! .......................................................................................... 5
2.1.4 Language Evolution Simulation de whzup .................................... 5
2.1.5 Librería Fasttext de Meta y ketchum de mewo2............................ 6
2.2 Trasfondo Lingüístico Necesario ......................................................... 7
2.2.1 Relatividad Lingüística o Hipótesis Sapir-Whorf ........................... 7
2.2.2 Origen y Evolución del Lenguaje .................................................. 8
2.2.2.1 Estructuralismo ........................................................................ 8
2.2.2.2 Lingüística Evolutiva o Darwinista ............................................ 8
2.2.2.3 Lingüística Cognitiva y las Teorías de Chomsky. Programa
Minimalista ........................................................................................... 9
2.2.2.4 Lengua Proto-Humana ............................................................ 11
2.2.2.5 Modelos de Diversificación del Lenguaje. Árboles Filogenéticos.
13
2.2.2.6 Modelo o Teoría de Ondas o Wellentheorie y Difusión Lingüística.
Sprachbund ........................................................................................ 15
2.2.2.7 Tendencias en la Evolución del Lenguaje ................................ 16
2.2.3 Fonética y Fonología .................................................................. 16
2.2.3.1 Alfabeto Fonético Internacional ............................................... 17
2.2.3.2 Index Diachronica ................................................................... 21
2.2.3.3 Index Phonemica .................................................................... 21
3 Diseño .............................................................................................23
3.1 Requisitos ........................................................................................ 23
3.2 Limitaciones ..................................................................................... 23
3.3 Decisiones Tecnológicas ................................................................... 23
4 Desarrollo ........................................................................................25
4.1 Dificultades Encontradas ................................................................. 25
4.2 Implementación ................................................................................ 26
4.2.1 Fichero de Entrada de Palabras: Formato CSV ........................... 26
4.2.2 Formato JSON ........................................................................... 26
4.2.3 Algoritmo Evolutivo .................................................................... 29
5 Resultados y Conclusiones ...............................................................31
5.1 Líneas Futuras de Desarrollo ........................................................... 31
5.2 Conclusión ....................................................................................... 31
iii
6 Análisis de Impacto .........................................................................33
7 Bibliografía ......................................................................................34
8 Anexo ..............................................................................................40
8.1 Entrada y Salida de Onset! ............................................................... 40
8.2 Fichero de Entrada de Inglés (ingles.csv) .......................................... 45
8.3 Fichero de Entrada de Configuración (setup.json) ............................ 48
8.4 Resultados (tras una inyección de 5 palabras en español después de 50
épocas) ...................................................................................................... 55
iv
1 Introducción
El lenguaje es una de las principales herramientas a disposición del ser
humano para sobrevivir. A pesar de no ser una herramienta física o un arma
para cazar o defenderse, le permite coordinarse con los demás miembros de la
especie de una forma consistente para lograr unos objetivos concretos. Como es
de esperar, de la misma forma que las herramientas y armas han sido
mejoradas y optimizadas según avanzaban los siglos, el lenguaje, que la Real
Academia Española establece como “facultad del ser humano de expresarse y
comunicarse con los demás a través del sonido articulado o de otros sistemas
de signos”, también ha evolucionado. Más allá de los idiomas hablados existen
lenguajes de signos, sistemas logográficos, e ideogramas que se han adaptado
a los tiempos como los emoticonos.
1
Para realizar con éxito este proyecto, es crucial saber qué herramientas se
han desarrollado y cómo se han implementado; pero también es necesario
profundizar en el ámbito teórico y académico de la lingüística, y en particular
de la evolución del lenguaje. Por ello, se separará esta sección de “Estado del
Arte” en dos partes: la primera tratará las tecnologías computacionales
desarrolladas y su implementación técnica, mientras que la segunda se centrará
en el estado actual de la investigación de la evolución del lenguaje natural en el
ámbito académico. Posteriormente, se establecerá una serie de definiciones,
conceptos básicos y explicaciones para los mismos que serán fundamentales
para el adecuado seguimiento del texto, y se expondrán una serie de ejemplos
del funcionamiento esperado del sistema a diseñar.
2
2 Investigación Previa
Antes de comenzar a desarrollar y determinar el proyecto, se deben explorar
tanto el apartado académico de la lingüística y de la evolución del lenguaje como
el estado del arte tecnológico para determinar las necesidades del sector y como
mejor satisfacerlas.
3
Imagotipo de thisworddoesnotexist.com
4
2.1.3 Onset!
5
A pesar de estar constantemente en evolución, el proyecto carece de
realismo: se basa en la combinación de monosílabos para formar palabras,
pero estas no tienen un significado asociado. Cada punto es un agente distinto
que evoluciona de forma separada teniendo en cuenta las formas de la “isla” a
la que pertenece, que estaría representada por los distintos colores del mapa.
Cada punto interactúa entre si basado en proximidad.
6
Uso de Ketchum según su propio creador en su página de Github [5]
Con relación a este proyecto, ambas pueden ser utilizadas para dotar de
significado a las palabras, o al menos agruparlas en cuanto a similitud, ya que
esto podría tener bastante impacto en la evolución del lenguaje.
7
En el trascurso del proyecto se tomará como referencia la idea de la relatividad
o hipótesis débil, debido a varios factores:
x La relatividad fuerte ya no tiene mucho apoyo en la comunidad
académica y se cree que es mayormente falsa. [7]
x Se han obtenido algunas pruebas empíricas acerca de una posible
relación entre el lenguaje y el pensamiento, las decisiones y la
perspectiva de un ser humano.[8]
2.2.2.1 Estructuralismo
8
evolutivo el origen y la evolución del lenguaje. [13][14][15] No existen muchas
pruebas empíricas acerca del origen del lenguaje y eso causa ciertos bloqueos y
falta de consenso en el desarrollo científico del campo, dando lugar a muchas
teorías, como la teoría del instinto del lenguaje de Stephen Pinker[16], pero lo
que sí que está claro es que el lenguaje va evolucionando y cambiando con el
paso del tiempo[17]. Históricamente, se ha separado en tres etapas: la etapa de
Darwinismo social, que comenzó como intento de aplicar la teoría de Darwin a
la lingüística [18][19], la etapa del determinismo genético y la etapa del Neo-
Darwinismo. [20]
9
4) El lenguaje genera un conjunto infinito de expresiones dado una dupla ሺߨǡ ߣሻ
de sonido y significado, donde:
a) ߨ representa la forma fonética del lenguaje.
b) ߣ representa la forma lógica, es decir, semántica, del lenguaje.
5) La sintaxis del lenguaje se interpreta completamente en las interfaces
correspondientes computacionalmente, ya sea fonética o semántica, y envía
las instrucciones a los sistemas correspondientes.
6) Algunas características del lenguaje, como los principios y parámetros, así
como la semántica y su correspondiente forma lógica, son invariables.
7) Algunas características del lenguaje son variables, introduciendo cierta
arbitrariedad y aleatoriedad.
11
aja ‘mother, older female relative’
bu(n)ka ‘knee, to bend’
bur ‘ashes, dust’
čun(g)a ‘nose; to smell’
kama ‘hold (in the hand)’
kano ‘arm’
kati ‘bone’
k’olo ‘hole’
kuan ‘dog’
ku(n) ‘who?’
kuna ‘woman’
mako ‘child’
maliq’a ‘to suck(le), nurse; breast’
mana ‘to stay (in a place)’
mano ‘man’
mena ‘to think (about)’
mi(n) ‘what?’
pal ‘two’
par ‘to fly’
poko ‘arm’
puti ‘vulva’
teku ‘leg, foot’
tik ‘finger; one’
tika ‘earth’
tsaku ‘leg, foot’
tsuma ‘hair’
ʔaq’wa ‘water’
12
2.2.2.5 Modelos de Diversificación del Lenguaje. Árboles Filogenéticos.
13
Otro dato importante al tener en cuenta en la evolución del lenguaje
natural es que es un proceso que lleva tiempo, aunque parece que la mejoría de
medios de transporte, así como la globalización, aceleran considerablemente
este proceso y la mayoría de los hablantes mundiales se concentran en unos
pocos idiomas [54]. Se puede tomar por ejemplo el siguiente gráfico que denota
la evolución de ochenta y siete lenguas indoeuropeas a lo largo de los últimos
milenios y en el que se puede ver las épocas estimadas en las que se han ido
separando los distintos idiomas [55].
14
2.2.2.6 Modelo o Teoría de Ondas o Wellentheorie y Difusión Lingüística.
Sprachbund
16
Adicionalmente, la fonética está muy relacionada con la rama de la fonología,
que estudia la distribución y estado de los sonidos en el lenguaje. Entre otras
cosas, esta última está más relacionada con el análisis lingüístico, ya que
también estudia las diferencias fonéticas entre distintos dialectos o la evolución
de los propios idiomas [66]. Dentro de la fonética y la fonología, se establecen
ciertos conceptos de gran importancia:
x Fono: segmento de características acústicas particulares y de duración
típica. [67]
x Fonema: La unidad más básica de la fonología y que representa un
sonido particular que habilita la diferenciación entre palabras.
x Alófonos: Conjunto de fonos que se pueden usar para pronunciar un
mismo fonema.
Dada las diferencias que existen entre el significado de las distintas letras,
y la falta de sonidos comunes en distintos idiomas, resultaba necesaria la
creación de un alfabeto común para que cualquier persona pueda especificar a
qué sonido se refiere, y de esta forma surge el Alfabeto Fonético Internacional,
que fue creado por la International Phonetics Association en el Siglo XIX y
continúa administrándolo y actualizándolo en la actualidad. [70]
17
Alfabeto Fonético Internacional de la International Phonetic Association [70]
Esta herramienta es única y extremadamente popular entre una variedad
de personas, incluidos estudiantes y profesores de lenguas, lingüistas, doctores
que busquen identificar problemáticas en la voz y el habla, cantantes que
procuren acentuar o adaptar su canto a las necesidades melódicas e incluso
actores que busquen adaptar sus acentos [71] [72].
18
Además, si bien la herramienta contiene todo lo necesario para el habla
común en cualquier idioma, también contiene una extensión para lo que la
Asociación Internacional de Fonética denomina “Habla Desordenada”, que
incluye otros sonidos como expresiones del habla no relacionadas con el
lenguaje común [71].
19
Extensión al Alfabeto Fonético Internacional por la International Phonetic
Association [70]
Sin embargo, esta última sección no será utilizada en el proyecto, ya que
se centra exclusivamente en el uso y evolución de lenguaje natural predefinido.
20
2.2.3.2 Index Diachronica
21
Estructura Fonológica y Alfabeto Fonético de Abkhaz. Ej. De uso del Index
Fonémica. [74]
22
3 Diseño
3.1 Requisitos
3.2 Limitaciones
24
4 Desarrollo
4.1 Dificultades Encontradas
25
4.2 Implementación
4.2.1 Fichero de Entrada de Palabras: Formato CSV
"data": [
26
{
},
"epoch": 15,
"file": "language_datasets/icelandic.csv",
"limit": 10
],
"name": "sample1",
"probability": 0.1,
"conditions": [
"types": [
},
"types": [
27
},
"types": [
],
"data_type": [
],
"ch"
},
"probability": 0.1,
"conditions": [
"types": [
28
"long" // is a long sound
],
"data_type": [
],
"transform_op": "shorten"
29
30
5 Resultados y Conclusiones
5.1 Líneas Futuras de Desarrollo
5.2 Conclusión
31
Además de estos problemas, también existe una cuestión de inmensa
importancia en el contexto del desarrollo de la aplicación y de su utilidad: la
subjetividad de la calidad de los datos. Resulta muy complicado analizar estos
datos o incluso filtrarlos, ya que no hay una forma viable de determinar
computacionalmente si el lenguaje generado cumple las expectativas del
usuario o si es realista o no. Sin embargo, esto se ve mitigado por el hecho de
que el usuario puede ver el proceso evolutivo del lenguaje y retomarlo a
cualquier punto de su historia.
Para finalizar, la herramienta en cuestión proporciona valor a la
interlingüística de una forma que ninguna otra ha sido capaz de suplir; y abre
un sinfín de posibilidades en el área de la creación de lenguas. Sin embargo,
este nuevo universo de posibilidades también abre las puertas a una inmensa
cantidad de mejoras que solo crecerá con el paso del tiempo y las nuevas
tecnologías computacionales que puedan ir surgiendo.
32
6 Análisis de Impacto
Tras estudiar las necesidades de los creadores de lenguas artificiales, así
como las de las agencias estatales de creación de palabras, se llega a la
conclusión de que el software desarrollado, único en su metodología para
generar lenguaje natural realista y nuevas palabras, será de inmensa utilidad
en el campo.
Por un lado, permitirá la automatización de uno de los procesos más
costosos en tiempo de los creadores de lenguas que basen su proceso de diseño
en la creación de una protolengua inicial: la evolución fonética. De esta forma,
solo tendrán que incorporar sus palabras de la protolengua que deseen y
configurarlo adecuadamente a sus necesidades, garantizando el realismo del
proceso y facilitando el desarrollo, haciendo más viable esta profesión en auge.
Por otro lado, los creadores de palabras pertenecientes a organizaciones o
agencias estatales como la Comisión para el Enriquecimiento de la Lengua
Francesa dispondrán de una forma de crear nuevas palabras basadas en las
actuales, sino que además podrán configurar el sistema para evitar mutaciones
no deseadas. Además, podrán prever hasta cierto punto el efecto de las lenguas
invasoras en la fonética de los lenguajes que desean proteger.
En resumen, esta herramienta, con adecuada publicitación y manteniendo
un desarrollo activo, incluyendo features como las mencionadas en el apartado
de líneas futuras de desarrollo, podría llegar a ser una herramienta preciada
para el sector de la creación de lenguas artificiales.
33
7 Bibliografía
[1] "GPT-3." , github.com/openai/gpt-3 .
[2] "ThisWordDoesNotExist." , github.com/turtlesoupy/this-word-does-not-
exist .
[3] "Language Simulation.", github.com/whzup/language-simulation
[4] P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, Enriching Word Vectors
with Subword Information
[5] "Ketchum." , github.com/mewo2/ketchum.
[6] Hickmann, Maya (2000). "Linguistic relativity and linguistic determinism:
some new directions". Linguistics. 38 (2): 410. doi:10.1515/ling.38.2.409.
S2CID 144852868.
[7] Boroditsky, Lera; Liberman, Mark (13–23 December 2010). "For and Against
Linguistic Relativity". The Economist. The Economist Newspaper Limited.
Archived from the original on 15 February 2012.
[8] Ahearn, Laura M. (2012). Living language : an introduction to linguistic
anthropology. Chichester, West Sussex, U.K. p. 69. ISBN 978-1-4443-4056-3.
OCLC 729731177.
[9] Christiansen MH, Kirby S. Language evolution: consensus and controversies.
Trends Cogn Sci. 2003 Jul;7(7):300-307. doi: 10.1016/s1364-6613(03)00136-
0. PMID: 12860188.
[10] Lieberman, Philip. "The Evolution of Human Speech. Its Anatomical and
Neural Bases." Current Anthropology Volume 48, Number 1, Feb. 2007,
www.journals.uchicago.edu/doi/10.1086/509092.
[11] Hauser, M. D.; Yang, C.; Berwick, R. C.; Tattersall, I.; Ryan, M. J.; Watumull,
J.; Chomsky, N.; Lewontin, R. C. (2014). "The mystery of language evolution".
Frontiers in Psychology. 5: 401. doi:10.3389/fpsyg.2014.00401. PMC 4019876.
PMID 24847300.
[12] Calhoun, Craig, ed. 2002. "Structuralism." In Dictionary of the Social
Sciences. Oxford: Oxford University Press. ISBN 9780195123715.
[13] Gontier, Nathalie (2012). "Selectionist approaches in evolutionary
linguistics: an epistemological analysis". International Studies in the Philosophy
of Science. 26 (1): 67–95. doi:10.1080/02698595.2012.653114.
hdl:10451/45246. S2CID 121742473.
[14] McMahon, April; McMahon, Robert (2012). Evolutionary Linguistics.
Cambridge University Press. ISBN 978-0521891394.
[15] Croft, William (October 2008). "Evolutionary Linguistics". Annual Review of
Anthropology. 37: 219–234. doi:10.1146/annurev.anthro.37.081407.085156.
[16] Pinker, Steven (1994). The Language Instinct: How the Mind Creates
Language (PDF). Penguin Books. ISBN 9780140175295. Retrieved 2022-03-03.
34
[17] Bybee, Joan L.; Beckner, Clay (2015). "Usage-Based theory". In Heine,
Bernd; Narrog, Heiko (eds.). The Oxford Handbook of Linguistic Analysis. Oxford
University Press. pp. 953–980.
doi:10.1093/oxfordhb/9780199544004.013.0032.
[18] Aronoff, Mark (2017). "20 Darwinism tested by the science of language". In
Bowern; Horn; Zanuttini (eds.). On Looking into Words (and Beyond): Structures,
Relations, Analyses. SUNY Press. pp. 443–456. ISBN 978-3-946234-92-0.
Retrieved 2022-03-03.
[19] Müller, Max (1870). "Darwinism tested by the science of language (review)".
Nature. 1: 256–259. doi:10.1038/001256a0. S2CID 176892155.
[20] de Bot, Kees (2015). A History of Applied Linguistics: From 1980 to the
Present. Routledge. ISBN 9781138820654.
[21] Wu, JIe Qiong (15 January 2014). An Overview of Researches on
Biolinguistics. Canadian Social Science. pp. 171–176. CiteSeerX
10.1.1.820.7700.
[22] Freidin, Robert (5 March 2012). Generative Grammar: Theory and its
History (1st ed.). Routledge Leading Linguists. ISBN 9780415541336.
[23] Crain, Stephen; Koring, Loes; Thornton, Rosalind (2017-10-01). "Language
acquisition from a biolinguistic perspective". Neuroscience & Biobehavioral
Reviews. The Biology of Language. 81 (Pt B): 120–149.
doi:10.1016/j.neubiorev.2016.09.004. ISSN 0149-7634. PMID 27633153.
S2CID 505901.
[24] Logan, Robert K (2007). The extended mind : the emergence of language,
the human mind, and culture. Toronto : University of Toronto Press. ISBN
9780802093035.
[25] Chomsky, N. (2004). Language and Mind: Current thoughts on ancient
problems. Part I & Part II. In Lyle Jenkins (ed.), Variation and Universals in
Biolinguistics. Amsterdam: Elsevier, pp. 379–405.
[26] Chomsky, Noam. 1993. A minimalist program for linguistic theory. MIT
occasional papers in linguistics no. 1. Cambridge, Massachusetts: Distributed
by MIT Working Papers in Linguistics.
[27] Boeckx, Cedric Linguistic Minimalism. Origins, Concepts, Methods and
Aims, pp. 84 and 115.
[28] Freidin, Robert; Lasnik, Howard (March 3, 2011). Some Roots of
Minimalism in Generative Grammar. Oxford University Press.
doi:10.1093/oxfordhb/9780199549368.013.0001.
[29] "The 'Innateness Hypothesis' and Explanatory Models in Linguistics" (PDF).
Archived from the original (PDF) on 2016-01-02. Retrieved 2021-10-21.
[30] Schwarz-Friesel, Monika (2008). Einführung in die Kognitive Linguistik.
Dritte, aktualisierte und erweiterte Auflage. Francke. ISBN 3825216365.
35
[31] Goel, Vinod (2007). "Anatomy of deductive reasoning". Trends in Cognitive
Sciences. 11 (10): 435–441. doi:10.1016/j.tics.2007.09.003. Retrieved 2021-10-
06.
[32] Newmeyer, F.J. (2004). Against a parameter-setting approach to language
variation. Linguistic Variation Yearbook 4:181-234.
[33] Chomsky, Noam (2001). "Beyond explanatory adequacy". MIT Working
Papers in Linguistics. 20: 1–22.
[34] Adger, David. 2003. Core Syntax. A Minimalist Approach. Oxford: Oxford
University Press; and also Carnie, Andrew. 2006. Syntax: A Generative
Introduction, 2nd Edition. Blackwell Publishers
[35] Fukui, Naoki (2001). "Phrase Structure". The Handbook of Contemporary
Syntactic Theory. Oxford, UK: Blackwell Publishers. pp. 374–408.
doi:10.1002/9780470756416.ch12. ISBN 978-0-470-75641-6.
[36] Sportiche, Dominique; Koopman, Hilda Judith; Stabler, Edward P.
(September 23, 2013). An introduction to syntactic analysis and theory.
Hoboken. ISBN 978-1-118-47048-0. OCLC 861536792.
[37] Chomsky, Noam (1982). Some concepts and consequences of the theory of
government and binding. MIT Press. p. 10.
[38] "EPP Feature in BPS." Minimalist Program, Wikimedia,
commons.wikimedia.org/wiki/File:EPP_Feature.png . Accessed 30 June 2022.
[39] Epstein, Samuel David; Seely, T. Daniel, eds. (2002). Derivation and
Explanation in the Minimalist Program (1 ed.). John Wiley & Sons, Ltd.
doi:10.1002/9780470755662. ISBN 9780470755662.
[40] Smith, Peter W.; Mursell, Johannes; Hartmann, Katharina (2020). Smith,
Peter W.; Mursell, Johannes; Hartmann, Katharina (eds.). Agree to Agree:
Agreement in the Minimalist Programme. Some remarks on agreement within
the Minimalist Programme. Berlin: Language Science Press. pp. 1–29.
doi:10.5281/zenodo.3541743.
[41] Ruhlen, Meritt (1994). The Origin of Language: Tracing the Evolution of the
Mother Tongue. Stanford: Stanford University Press.
[42] Trombetti, Alfredo (1905). L'unità d'origine del linguaggio (in Italian).
Bologna: Luigi Beltrami.
[43] de Saussure, Ferdinand (1986) [1916]. Cours de linguistique générale
[Course in General Linguistics] (in French). Translated by Harris, Roy. Chicago:
Open Court.
[44] Bynon, Theodora (1977). Historical Linguistics. Cambridge: Cambridge
University Press. p. 1. ISBN 9780521215824. Historical linguistics.
[45] Greenberg, Joseph H. (1987). Language in the Americas. Stanford: Stanford
University Press.
[46] CARTA: The Origin of Us -- Christopher Ehret: Relationships of Ancient
African Languages. August 1, 2013. Archived from the original on 2021-12-11.
36
[47] Gell-Mann, Murray; Ruhlen, Merritt (August 26, 2011). "The Origin and
Evolution of Word Order" (PDF). Proceedings of the National Academy of
Sciences of the United States of America. 108 (42): 17290–5.
Bibcode:2011PNAS..10817290G. doi:10.1073/pnas.1113716108. PMC
3198322. PMID 21987807. Archived from the original (PDF) on March 27, 2016.
Retrieved June 26, 2022.
[48] Campbell, Lyle, and William J. Poser. 2008. Language Classification:
History and Method. Cambridge: Cambridge University Press.
[49] Meritt Ruhlen; John Bengtson (1994). "Global etymologies". On the Origin
of Languages: Studies in Linguistic Taxonomy (PDF). pp. 277–336. Retrieved 27
June 2022.
[50] Ruhlen, Meritt (1994). The Origin of Language: Tracing the Evolution of the
Mother Tongue. New York: John Wiley and Sons. ISBN 9780471159636.
Retrieved 27 June 2022.
[51] François, Alexandre (2014), "Trees, Waves and Linkages: Models of
Language Diversification" (PDF), in Bowern, Claire; Evans, Bethwyn (eds.), The
Routledge Handbook of Historical Linguistics, London: Routledge, pp. 161–189,
ISBN 978-0-41552-789-7.
[52] Ehret, Christopher. “Reconstructing Proto-Afroasiatic (Proto-Afrasian):
Vowels, Tone, Consonants, and Vocabulary.” (1995).
[53] Eberhard, David M., Gary F. Simons, and Charles D. Fennig (eds.). 2022.
Ethnologue: Languages of the World. Twenty-fifth edition. Dallas, Texas: SIL
International. Online version: http://www.ethnologue.com. Accessed on
05/22/2022
[54] Watson, Abigail, "Lingua Franca: An Analysis of Globalization and
Language Evolution" (2016). Honors Projects. 275.
https://scholarworks.bgsu.edu/honorsprojects/275
[55] Gray, Russell & Atkinson, Quentin & Greenhill, Simon. (2011). Language
Evolution and Human History.
10.1093/acprof:osobl/9780199608966.003.0016.
[56] Wolfram, Walt; Schilling-Estes, Natalie (2003), "Dialectology and Linguistic
Diffusion" (PDF), in Joseph, Brian D.; Janda, Richard D. (eds.), The Handbook
of Historical Linguistics, Oxford: Blackwell, pp. 713–735.
[57] Heggarty, Paul; Maguire, Warren; McMahon, April (2010). "Splits or waves?
Trees or webs? How divergence measures and network analysis can unravel
language histories". Philosophical Transactions of the Royal Society B. 365
(1559): 3829–3843. doi:10.1098/rstb.2010.0099. PMC 2981917. PMID
21041208.
[58] Kalyan, Siva, and Alexandre François. "When the waves meet the trees: A
response to Jacques and List." Journal of Historical Linguistics 9.1 (2019): 168-
177.
37
[59] Mallinson, Graham; Blake, Barry J. (1981). Language Typology - Cross-
linguistic Studies in Syntax. North-Holland. pp. 17–18. ISBN 0-444-863117.
[60] Trubetzkoy, Nikolai S. (1930), "Proposition 16. Über den Sprachbund",
Actes du premier congrès international des linguistes à la Haye, du 10-15 avril
1928, Leiden: A. W. Sijthoff, pp. 17–18.
[61] Thomason, Sarah (2000), "Linguistic areas and language history" (PDF), in
Gilbers, Dicky; Nerbonne, John; Schaeken, Jos (eds.), Languages in Contact,
Amsterdam: Rodopi, pp. 311–327, ISBN 978-90-420-1322-3.
[62] Perc, Matjaž. "Evolution of the most common English words and phrases
over the centuries." Journal of The Royal Society Interface 9.77 (2012): 3323-
3328.
[63] Otheguy, Ricardo, and Naomi Lapidus. "Matización de la teoría de la
simplificación en las lenguas en contacto: El concepto de la adaptación en el
español de Nueva York." Matización de la teoría de la simplificación en las
lenguas en contacto: El concepto de la adaptación en el español de Nueva York
(2005): 143-160.
[64] Pagel, M., Atkinson, Q. & Meade, A. Frequency of word-use predicts rates
of lexical evolution throughout Indo-European history. Nature 449, 717–720
(2007). https://doi.org/10.1038/nature06176
[65] O'Grady, William (2005). Contemporary Linguistics: An Introduction (5th
ed.). Bedford/St. Martin's. ISBN 978-0-312-41936-3.
[66] Lass, Roger (1998). Phonology: An Introduction to Basic Concepts.
Cambridge, UK; New York; Melbourne, Australia: Cambridge University Press.
p. 1. ISBN 978-0-521-23728-4. Retrieved 8 January 2022 Paperback ISBN 0-
521-28183-0
[67] Dürr, Michael; Schlobinski, Peter (2006). Deskriptive Linguistik:
Grundlagen und Methoden (en alemán). Vandenhoeck & Ruprecht. p. 301
[68] B.D. Sharma (January 2005), Linguistics and Phonetics, Anmol
Publications Pvt. Ltd., 2005, ISBN 978-81-261-2120-5
[69] Y. Tobin (1997), Phonology as human behavior: theoretical implications and
clinical applications, Duke University Press, 1997, ISBN 978-0-8223-1822-4
[70] International Phonetic Association. (1999). Handbook of the International
Phonetic Association: A guide to the use of the International Phonetic Alphabet.
Cambridge, U.K: Cambridge University Press.
[71] MacMahon, Michael K. C. (1996). "Phonetic Notation". In P. T. Daniels; W.
Bright (eds.). The World's Writing Systems. New York: Oxford University Press.
pp. 821–846. ISBN 0-19-507993-0.
[72] Wall, Joan (1989). International Phonetic Alphabet for Singers: A Manual
for English and Foreign Language Diction. Pst. ISBN 1-877761-50-8.
[73] Index Diachronica, 10.2th ed., chridd.nfshost.com/diachronica/. Accessed
30 June 2022.
38
[74] Index Phonemica, www.indexphonemica.net/. Accessed 30 June 2022.
[75] Kapur, Rhea, and Phillip Rogers. "Modeling language evolution and feature
dynamics in a realistic geographic environment." Proceedings of the 28th
International Conference on Computational Linguistics. 2020.
[76] Federico Gobbo, Interlinguistics and Esperanto Studies in the new
millennium, University of Amsterdam, Amsterdam Center for Language and
Communication, 27 March 2015.
39
8 Anexo
8.1 Entrada y Salida de Onset!
Para comprobar el funcionamiento de la plataforma Onset! Se han llevado a
cabo pruebas con un pequeño conjunto de palabras en alemán y una traducción
al inglés.
Conjunto de Entrada Conjunto de Salida
ich iɟh
i i
sie sie
she she
das daːz
the the
ist iztʼ
is iz
du dɯː
you yuu
nicht diːɟhtʼ
not doːtʷ
die diːe
the the
und udtʼ
and adtʼ
es ez
it itʲ
der deːl
the the
was wɒz
What wɦatʼ
wir wyl
weather wɶadhel
er el
he he
zu zɯː
40
to tɤ
ein iid
a a
in id
in id
mit biːtʲ
with wyɟʷh
mir biːl
me beː
den deːd
the the
wie wye
how huw
ja ja
Yes yøz
auf ɑuv
on od
mich biːɟh
me beː
so sɤ
so sɤ
such suɟʷh
that thatʼ
eine iid̪͡ð̺eː
one od̪͡ð̺eː
aber amẽːl
but buːtʷ
hier hiel
here heɭe
sind sidtʼ
are aɭe
for foɫˠ
41
von voːd
from froːb
haben hamẽːd
have haʋe
hat hatʼ
Has haz
dich diːɟh
you yuu
war wɒl
was wɒz
dass daːzs
that thatʼ
wenn wødd
if iv
an ad
at atʼ
da daː
there theɭe
nein diːid
no dɤː
bin biːd
am ab
noch duːɟʷh
still still
dir diːl
you yuu
nur duːɫˠ
only odliː
habe hamẽː
have haʋe
ihr iɦr
your yuuɫˠ
42
sich siɟh
themselves thebzelveːz
einen iid̪͡ð̺eːd
a a
uns udz
US uz
hast haztʼ
have haʋe
dem deːb
to the tɤ
ihn the
him iɦd
aus hib
the ɑuz
end the
kann edtʼ
can kadd
gut cad
Well guːtʷ
auch wøll
even ɑuɟʷh
schon eʋed
beautiful schod
jetzt bæːɑurʷiɱũɫˠ
now jedztʼ
im duːw
in ib
the id
sein the
be siid
mal beː
times baːl
43
dann tibeːz
then daːdd
meine thed
my biːid̪͡ð̺eː
als biː
as alz
um az
around ub
mein aɭuudtʼ
my biːid
doch biː
but duːɟʷh
bist buːtʷ
are you biːztʼ
wird aɭe
will yuu
keine wyltʼ
no wyll
nach kiid̪͡ð̺eː
after dɤː
alles dæːɟh
All avtel
man alleːz
One all
you baːd
they od̪͡ð̺eː
people yuu
Indefinite thii
person peobʷleː
lch iddeːɱĩd̪͡ð̺iːd̪͡ð̺e
l pelzod
oder lɟh
44
or l
nichts oreːl
nothing oɫˠ
wo diːɟhts
Where doːdʷhidʔʲ
werden wo
will wɦeɭe
weiss wøldeːd
White wyll
will wyizs
want wɦid̪͡ð̺e
geht wyll
goes wɒdtʼ
mehr geːɦtʼ
more goːøz
warum beːɦr
why boːɭe
hab wɒɭub
have wɦi
ihnen hapʼ
them haʋe
bitte iɦdeːd
ich theb
i biːdʲte
æt
ðɛr
sʌm
maɪ
ʌv
bi
45
juz
hɜr
ðæn
ænd
ðɪs
æn
wʊd
fɜrst
eɪ
hæv
iʧ
meɪk
ˈwɔtər
tu
frʌm
wɪʧ
laɪk
bɪn
ɪn
ɔr
ʃi
hɪm
kɔl
ɪz
wʌn
du
ˈɪntu
hu
ju
hæd
haʊ
taɪm
46
ɔɪl
ðæt
baɪ
ðɛr
hæz
ɪts
ɪt
wɜrd
ɪf
lʊk
naʊ
hi
bʌt
wɪl
tu
faɪnd
wʌz
nɑt
ʌp
mɔr
lɔŋ
fɔr
wʌt
ˈʌðər
raɪt
daʊn
ɑn
ɔl
əˈbaʊt
goʊ
deɪ
ɑr
47
wɜr
aʊt
si
dɪd
æz
wi
ˈmɛni
ˈnʌmbər
gɛt
wɪð
wɛn
ðɛn
noʊ
kʌm
hɪz
jʊər
ðɛm
weɪ
meɪd
ðeɪ
kæn
ðiz
kʊd
meɪ
aɪ
sɛd
soʊ
ˈpipəl
pɑrt
48
"data": [
"epoch": 0,
"introduction": 1,
"file": "language_datasets/english100_ipa.csv",
"limit": 50,
"consonant_matrix": {
"labial": {
"nasal": "m",
"fortis_plosive_affricate": "p",
"lenis_plosive_affricate": "b",
"fortis_fricative": "f",
"lenis_fricative": "v",
"approximant": ""
},
"dental": {
"nasal": "",
"fortis_plosive_affricate": "",
"lenis_plosive_affricate": "",
"fortis_fricative": "θ",
"lenis_fricative": "ð",
"approximant": ""
},
"alveolar": {
"nasal": "n",
"fortis_plosive_affricate": "t",
"lenis_plosive_affricate": "d",
"fortis_fricative": "s",
"lenis_fricative": "z",
"approximant": "l"
},
"post_alveolar": {
49
"nasal": "",
"fortis_plosive_affricate": "tʃ",
"lenis_plosive_affricate": "dʒ",
"fortis_fricative": "ʃ",
"lenis_fricative": "ʒ",
"approximant": "r"
},
"palatal": {
"nasal": "",
"fortis_plosive_affricate": "",
"lenis_plosive_affricate": "",
"fortis_fricative": "",
"lenis_fricative": "",
"approximant": "j"
},
"velar": {
"nasal": "ŋ",
"fortis_plosive_affricate": "k",
"lenis_plosive_affricate": "ɡ",
"fortis_fricative": "x",
"lenis_fricative": "",
"approximant": "w"
},
"glottal": {
"nasal": "",
"fortis_plosive_affricate": "",
"lenis_plosive_affricate": "",
"fortis_fricative": "h",
"lenis_fricative": "h",
"approximant": ""
},
50
"vowel_matrix": {
"front": {
"short_close": "ɪ",
"short_mid": "ɛ",
"short_open": "æ",
"long_close": "i",
"long_mid": "eɪ",
"long_open": ""
},
"central": {
"short_close": "",
"short_mid": "ə",
"short_open": "ʌ",
"long_close": "",
"long_mid": "ɜ",
"long_open": "ɑ"
},
"back": {
"short_close": "ʊ",
"short_mid": "",
"short_open": "",
"long_close": "u",
"long_mid": "oʊ",
"long_open": "ɔ"
},
"diphtongs": [
"aɪ",
"ɔɪ",
"aʊ"
],
"triphtongs": []
51
},
"epoch": 15,
"introduction": 10,
"file": "language_datasets/icelandic.csv",
"limit": 10
],
"epochs": 100,
"mutations": [
"name": "SHORTEN_WORD_FINAL_LONG_VOWEL",
"probability": 0.1,
"conditions": [
"initial": {
"operation": "and",
"data_type": [
"vowel",
"last_letter",
"long"
],
"effects": [
"operation": "phonetic_transform",
"data_type": [
],
"transform_op": "shorten"
52
}
},
"name": "REMOVE_WORD_FINAL_SHORT_VOWEL",
"probability": 0.1,
"conditions": [
"initial": {
"operation": "and",
"data_type": [
"vowel",
"last_letter",
"short"
],
"effects": [
"operation": "remove",
"data_type": [
},
"name": "PALATALIZATION_T_K_TS_TO_CH_IF_J_SOUND_NEXT",
"probability": 0.1,
"conditions": [
53
"initial": {
"operation": "or",
"data_type": [
"t",
"k",
"ts"
},
"then": [
"union": "or",
"types": [
"i"
],
"effects": [
"operation": "switch",
"data_type": [
"phoneme"
],
"switch_op": [
"chi"
54
8.4 Resultados (tras una inyección de 5 palabras en
español después de 50 épocas)
paɺːaɺːa
tobãːɺːe
hoɭa
bẽː
llaːbɤ
̃ː
juɒd
the
ad
̰
theɭe
sobβːẽː
bĩː
ov
beː
ue
hel
thad
̰
add
̰
thiz
ad
̰
wuuɫˠd
̰
filzd
̰
haʋe
ææɟɦ
bãːɡ͡ɣeː
wɒøl
tɤ
froːʔʷ
wɦiɟɦ
55
liːɡ͡ɣeː
beːed
̰
idʲ
uɫˠ
she
hig
̰
call
iz
õẽ
dɤː
idʲdɤː
wɦɤ
yuɯ
had
̰
huw
tibβːẽː
uyl
thad
̰
biː
thiil
haz
idʲz
idʲ
wuɫˠd
̰
iv
luːuɡʷ
dũːw
he
buːdʷ
wyll
tuɤ
fidʲd
̰
56
wɒz
dõːdʷ
uʔʷ
bõːɭe
loːdʷg
̰
fuɫˠ
wɦad
̰
odʷɦel
wriːe
duːwd
̰
odʷ
all
abβuːudʷ
gɤː
dæːi
aɭe
wøɭe
uudʷ
see
diːdʲ
az
we
̃ːĩ
bæ
dũːbʷbeːl
geːd
̰
wyɟʷɦ
wɦed
̰
thed
̰
dɤ
̃ː
cobβːẽː
hiz
yuuɫˠ
57
theb
̰
wɶi
̃ːẽ
bæ
thii
cad
̰
thee
cuuɫˠd
̰
̃ːĩ
bæ
sæidʲ
sɤ
peobʷleː
pald
̰
58
59
Este documento esta firmado por
Firmante CN=tfgm.fi.upm.es, OU=CCFI, O=ETS Ingenieros Informaticos -
UPM, C=ES
Fecha/Hora Fri Jul 01 01:13:30 CEST 2022
Emisor del [email protected], CN=CA ETS Ingenieros
Certificado Informaticos, O=ETS Ingenieros Informaticos - UPM, C=ES
Numero de Serie 561
Metodo urn:adobe.com:Adobe.PPKLite:adbe.pkcs7.sha1 (Adobe
Signature)