Papers by Simona Georgescu
Lucrarea de față reprezintă un studiu de lexicologie comparată având drept temă principalele denu... more Lucrarea de față reprezintă un studiu de lexicologie comparată având drept temă principalele denumiri non-relaționale ale 'copilului' 2 în latină și în două dintre principalele limbi romanice, spaniolă și română. Termenii selectați (cf. infra, cap. I 3) vor fi analizați atât din punct de vedere etimologic, cât și în perspectiva evoluției lor de la cele mai vechi atestări până în limba actuală. Studiul nostru își propune să urmărească modul în care s-a configurat câmpul lexical al 'copilului' în limbile latină, spaniolă și română. Limba latină nu este privită doar ca limbă de origine a celor două limbi romanice alese, ci, din mai multe puncte de vedere, ca un al treilea element al comparației. Așadar, abordarea nu ar fi una ce ține strict de viziunea tradițională în romanistică-lexicul latin și continuarea lui în limbile romanice-, ci propune de asemenea o viziune cognitivistă, urmărind mecanismele recurente pe de o parte în crearea denumirilor, pe de altă parte în evoluția lor semantică. Dintre limbile romanice, am ales spaniola și româna din mai multe considerente. În primul rând, din intenția de a avea câte un reprezentant pentru Romania Occidentală și pentru Romania Orientală. În plus, o privire comparativă asupra celor două limbi devine cu atât mai interesantă cu cât ele fac parte din ceea ce Bartoli numea "ariile laterale"; din punctul de vedere al lingvistului italian, lexicul s-a păstrat mai bine în aceste zone. Prin urmare, studiul celor două limbi se justifică în intenția de a analiza ponderea elementului latinesc moștenit în acest domniu lexical, în limbile care, cel puțin aparent, au cele mai mari șanse de a conserva lexicul latinesc. În același timp, fiind atât de îndepărtate spațial, orice contact între ele devine improbabil, prin urmare este exclusă interpretarea unui fenomen similar în ambele limbi drept influență a unei limbi asupra alteia. Pe de altă parte, istoria celor două teritorii, substratul diferit, procesul distinct de romanizare, influențele unor populații și limbi diferite (ca superstrat sau influențe ulterioare), în fine, dezvoltarea neunitară a celor două limbi, nu pot avea drept rezultat decât o configurație diferită a lexicului. Lexicul limbii române are, de altfel, multiple particularități în raport cu toate celelalte limbi romanice. Există, pe de o parte, un număr semnificativ de cuvinte moștenite în toate limbile romanice dar absente din limba română (de unde formularea frecventă "panroman sauf roumain", ce nu apare în cazul altor limbi). Pe de altă parte, româna se confruntă și cu situația opusă: un număr de cuvinte latinești moștenite exclusiv în limba română. Din punctul de vedere al atestării în scris a celor două limbi, ca și al creării limbilor literare, există un clivaj temporal semnificativ între ele (ca de altfel între română și oricare din 2 Excludem, în principiu, termeni relaționali precum lat. filius și continuatorii lui, sau lat. liberi etc. În primul capitol, dedicat descrierii metodelor și teoriilor folosite, vom formula întrebările la care încercăm, pe parcursul lucrării, să oferim un răspuns. Aceste întrebări justifică abordările metodologice pe care le-am adoptat. În capitolul final, prezentând concluziile, vom trece în revistă răspunsurile (ipotezele) la care am ajuns în urma cercetării. Fiecare dintre cele trei mari capitole dedicate limbilor latină, spaniolă și respectiv română respectă, în principiu, aceeași structură. În prima parte oferim o analiză etimologică a principalilor termeni desemnând 'copilul'; cum termenii a căror etimologie este încă necunoscută ocupă o pondere importantă, vom prezenta principalele propuneri, ca, pornind de la ele, să realizăm o cercetare proprie asupra originii. Astfel, vom încerca să oferim o nouă viziune asupra unor cuvinte cu etimologie obscură precum sp. mozo și muchacho, sau rom. copil și băiat. După descrierea etimologică analizăm, în diacronie, componența câmpului lexical, pornind de la principalele seme pe care le pot activa lexemele aparținând acestui câmp: /vârstă/, /filiație/, /sex/. Scopul acestui demers este acela de a observa în ce măsură actualizarea sau, dimpotrivă, neutralizarea acestor seme, precum și fluctuația lor de la un lexem la altul, afectează configurația câmpului, determinând dispariția sau nașterea prototipurilor lexicale. Capitolul al V-lea constă în comparația dintre cele trei limbi din mai multe puncte de vedere: pe de o parte, din punct de vedere etimologic, pe de altă parte din perspectiva modului în care se activează sau nu semele descrise în cadrul fiecărei limbi. Comparația ar putea scoate la iveală recurența unor factori ce determină, în două sau în toate cele trei limbi, schimbarea din cadrul acestui câmp lexical. Am putea, astfel, formula o ipoteză privind fenomenele aflate la baza acestei varietăți lexicale specifice domeniului analizat, varietate rar întâlnită în alte domenii lexicale referitoare la 'om'.
Revista de Filología Románica, 2018
Resumen. La similitud fonética y semántica entre un gran número de palabras de varios idiomas que... more Resumen. La similitud fonética y semántica entre un gran número de palabras de varios idiomas que sin embargo no se pueden reducir al mismo étimo le sugiere a Corominas (en el DCECH) un origen espontáneo en cada lengua, como resultado de la intención de reproducir por medios lingüísticos ciertas impresiones extra-lingüísticas. Tomando como punto de partida una selección de palabras categorizadas como 'voces de origen expresivo', analizamos la posibilidad y los límites de la creación léxica espontánea, en términos de fonosimbolismo y conceptos primarios expresados por onomatopeyas. Dado que el análisis comparativo de dichas palabras revela pautas semánticas y fonéticas recurrentes, no se puede rechazar por completo la idea de motivación lingüística (y en este sentido, intentamos rehabilitar la teoría de Hilmer, 1918), pero debemos situarla en el proto-románico, o, más probable, en el proto-indoeuropeo. Palabras clave: etimología; creación expresiva; fonosimbolismo; mocho; boto; buche; boque; coco.
Resumen: Nos proponemos resaltar los aportes que ofrece el asturiano al estudio de la etimología ... more Resumen: Nos proponemos resaltar los aportes que ofrece el asturiano al estudio de la etimología románica, tanto a la hora de solucionar aporías iberorrománicas, como en el intento de establecer relaciones genéticas entre voces románicas difícilmente vinculables desde el punto de vista semántico. No pocas veces el asturiano presenta justamente el eslabón que faltaba en la cadena de datos románicos, de modo que su evaluación permite vincular informaciones que parecían divergentes y, así, identificar la base común, protorrománica, de voces difundidas en varios romances. Al mismo tiempo, al analizar los cognados asturianos de lexemas románicos de etimología dudosa o desconocida podemos trazar, en ciertos casos, la trayectoria semántica de voces cuyo significado no se dejaba explicar fácilmente. Así, la polisemia del ast. tacu 'tacón', 'pedazo de madera', 'persona pequeña' pone de relieve el vínculo entre it. tacca 'incisión, huella', fr. tache 'mancha' y tache 'clavo', cast. taco 'pedazo de madera' y tacón 'pieza unida a la suela del calzado'. La voz asturiana tochu 'palo', 'grosero' nos ayuda a establecer, por un lado, la correspondencia entre los significados del cast. tocho, a saber, 'garrote' y 'tonto' y, por otro lado, la relación entre las voces iberorrománicas y el it. tòzzo 'trozo de pan' y 'grueso'. Se mostrará igualmente que la relación genética entre dichas voces implica también el parentesco con el ast. tucu, esp. tocón e it. tòcco.
REVUE DE LINGUISTIQUE ROMANE, 2020
Actas del XXVI Congreso Internacional de Lingüística y Filología Románica, 2013
Findings of the Association for Computational Linguistics: EMNLP 2021, 2021
In this paper, we address the problem of automatically discriminating between inherited and borro... more In this paper, we address the problem of automatically discriminating between inherited and borrowed Latin words. We introduce a new dataset and investigate the case of Romance languages (Romanian, Italian, French, Spanish, Portuguese and Catalan), where words directly inherited from Latin coexist with words borrowed from Latin, and explore whether automatic discrimination between them is possible. Having entered the language at a later stage, borrowed words are no longer subject to historical sound shift rules, hence they are presumably less eroded, which is why we expect them to have a different intrinsic structure distinguishable by computational means. We employ several machine learning models to automatically discriminate between inherited and borrowed words and compare their performance with various feature sets. We analyze the models' predictive power on two versions of the datasets, orthographic and phonetic. We also investigate whether prior knowledge of the etymon provides better results, employing n-gram character features extracted from the word-etymon pairs and from their alignment.
Proceedings of the Conference Recent Advances in Natural Language Processing - Deep Learning for Natural Language Processing Methods and Applications, 2021
In this paper we investigate the etymology of Romanian words. We start from the Romanian lexicon ... more In this paper we investigate the etymology of Romanian words. We start from the Romanian lexicon and automatically extract information from multiple etymological dictionaries. We evaluate the results and perform extensive quantitative and qualitative analyses with the goal of building an etymological map of the language.
Semantic divergence in related languages is a key concern of historical linguistics. We cross-lin... more Semantic divergence in related languages is a key concern of historical linguistics. We cross-linguistically investigate the semantic divergence of cognate pairs in English and Romance languages, by means of word embeddings. To this end, we introduce a new curated dataset of cognates in all pairs of those languages. We describe the types of errors that occurred during the automated cognate identification process and manually correct them. Additionally, we label the English cognates according to their etymology, separating them into two groups: old borrowings and recent borrowings. On this curated dataset, we analyse word properties such as frequency and polysemy, and the distribution of similarity scores between cognate sets in different languages. We automatically identify different clusters of English cognates, setting a new direction of research in cognates, borrowings and possibly false friends analysis in related languages.
Revista de Filología Románica
Resumen. La similitud fonética y semántica entre un gran número de palabras de varios idiomas que... more Resumen. La similitud fonética y semántica entre un gran número de palabras de varios idiomas que sin embargo no se pueden reducir al mismo étimo le sugiere a Corominas (en el DCECH) un origen espontáneo en cada lengua, como resultado de la intención de reproducir por medios lingüísticos ciertas impresiones extra-lingüísticas. Tomando como punto de partida una selección de palabras categorizadas como 'voces de origen expresivo', analizamos la posibilidad y los límites de la creación léxica espontánea, en términos de fonosimbolismo y conceptos primarios expresados por onomatopeyas. Dado que el análisis comparativo de dichas palabras revela pautas semánticas y fonéticas recurrentes, no se puede rechazar por completo la idea de motivación lingüística (y en este sentido, intentamos rehabilitar la teoría de Hilmer, 1918), pero debemos situarla en el proto-románico, o, más probable, en el proto-indoeuropeo. Palabras clave: etimología; creación expresiva; fonosimbolismo; mocho; boto; buche; boque; coco.
Lemmata Latina, 2020
It is traditionally supposed that Lat. mundus 'world' had the original meaning of 'ornament', and... more It is traditionally supposed that Lat. mundus 'world' had the original meaning of 'ornament', and gained the meaning of 'world' simply by calquing Gr. κόσμος, while mundus 'hole, gap' (considered to be of Etruscan origin) is just an homonym of mundus 'world' (cf. TLL). I shall argue that it is precisely the meaning 'hole, gap' that represents the key towards understanding the origin of mundus 'world'-the two meanings being strongly related to each other. By analysing the data provided by our Latin corpus, we find that the primordial meaning of mun-dus,-i must have been that of 'cavity', evolving towards the image of a yawning gap, just like Gr. χάος, afterwards designating 'a gap leading to the underworld', hence the 'underworld' itself; at the same time, still having as a starting point the shape of a cavity, yet turned upside down, it could evolve towards the meaning of 'vault' of the sky (as it appears in some of its most ancient occurrences), and then, by extension, it came to designate the whole universe.
Philologica Jassyensia", an XV, nr. 2
The Rom. talpă ‘sole’ is generally connected to the Hung. talp (cf. REW, DLR etc.).
However, the ... more The Rom. talpă ‘sole’ is generally connected to the Hung. talp (cf. REW, DLR etc.).
However, the existence of other Romance forms with the same meaning (Friul. talpe, Comel. talpa, etc.) calls into question the hypothesis of a Hungarian loanword.
In Latin, the word talpa is indeed attested, but only with the meaning of ‘mole’, which is inherited in most of the Romance languages. Although Tagliavini (1926) does not question the Hungarian origin of the Rom. talpă, he proposes for the Friul. talpe and the Comel. talpa
‘sole’ a common “prehistoric” origin with the Lat. talpa ‘mole’.
We aim to reanalyze the hypothesis of a Latin origin for the Romanian word. We consider that the Romance terms meaning ‘mole’ and those designating the ‘sole’ are derived from the same etymon: thus, although the second meaning is not attested in Latin, we will try to show that, from a cognitive point of view, the two meanings can be the result of parallel evolutions starting from the same semantic core. It seems that we are dealing with an etymon of Indo-European origin, related to the notion of ‘earth’, which, on the one hand, may evolve towards the meaning of ‘mole’, and on the other hand towards that of ‘basis’, ‘foundation’, ‘foot sole’.
Uploads
Papers by Simona Georgescu
However, the existence of other Romance forms with the same meaning (Friul. talpe, Comel. talpa, etc.) calls into question the hypothesis of a Hungarian loanword.
In Latin, the word talpa is indeed attested, but only with the meaning of ‘mole’, which is inherited in most of the Romance languages. Although Tagliavini (1926) does not question the Hungarian origin of the Rom. talpă, he proposes for the Friul. talpe and the Comel. talpa
‘sole’ a common “prehistoric” origin with the Lat. talpa ‘mole’.
We aim to reanalyze the hypothesis of a Latin origin for the Romanian word. We consider that the Romance terms meaning ‘mole’ and those designating the ‘sole’ are derived from the same etymon: thus, although the second meaning is not attested in Latin, we will try to show that, from a cognitive point of view, the two meanings can be the result of parallel evolutions starting from the same semantic core. It seems that we are dealing with an etymon of Indo-European origin, related to the notion of ‘earth’, which, on the one hand, may evolve towards the meaning of ‘mole’, and on the other hand towards that of ‘basis’, ‘foundation’, ‘foot sole’.
However, the existence of other Romance forms with the same meaning (Friul. talpe, Comel. talpa, etc.) calls into question the hypothesis of a Hungarian loanword.
In Latin, the word talpa is indeed attested, but only with the meaning of ‘mole’, which is inherited in most of the Romance languages. Although Tagliavini (1926) does not question the Hungarian origin of the Rom. talpă, he proposes for the Friul. talpe and the Comel. talpa
‘sole’ a common “prehistoric” origin with the Lat. talpa ‘mole’.
We aim to reanalyze the hypothesis of a Latin origin for the Romanian word. We consider that the Romance terms meaning ‘mole’ and those designating the ‘sole’ are derived from the same etymon: thus, although the second meaning is not attested in Latin, we will try to show that, from a cognitive point of view, the two meanings can be the result of parallel evolutions starting from the same semantic core. It seems that we are dealing with an etymon of Indo-European origin, related to the notion of ‘earth’, which, on the one hand, may evolve towards the meaning of ‘mole’, and on the other hand towards that of ‘basis’, ‘foundation’, ‘foot sole’.