The aim of this paper is to present the new CapekdraCor corpus and the draCor project with its re... more The aim of this paper is to present the new CapekdraCor corpus and the draCor project with its research-oriented concept of a programmable corpora focused on quantitative analyses within the framework of computational literary studies. This digital platform extends the possibilities of large-scale drama analysis with a focus on the dramatic character(s). The basic operationalisation is the interaction within a dramatic configuration, i.e., the scenic co-presence of two speakers, from which network data are automatically extracted, both global networks of interactions of dramas and data characterising individual actors, i.e., literary characters. The paper demonstrates the CapekdraCor corpus, a new contribution to the extensive draCor database, and presents the way the data are processed with respect to their specific multi-layered structure. The corpus contains all the plays written by Karel and Josef Čapek and the data are processed in a standardized format based on XML and general TEI guidelines for processing drama with a defined basic drama tagset. CapekdraCor also uses the newly created EZdrama format for data processing, which works as an intermediate step from .txt to .xml file as a lightweight YAML-like markup language. A file in this format can be automatically converted into a DraCor-ready XML file with a TEI header. The advantage of the programmable corpora concept is the possibility to use suitably structured data for drama research outside the draCor platform and with other methods or tools for textual analysis. Simultaneously, this approach moves the researcher from the technical requirements of the analysis to operationalised computational analysis based on research questions and pre-prepared and flexible tools. draCor is a unique open infrastructure (both in terms of data and tools) for the analysis of European drama, currently comprising 15 corpora in 10 different languages with a total of about 3,000 plays from a wide range of periods.
The goal of this text is the presentation of the ANOPHONE annotation system, which allows for the... more The goal of this text is the presentation of the ANOPHONE annotation system, which allows for the management and annotation of speech data to develop a tool for the automatic transcription of speech of non-native speakers of Czech. This system is currently designed for annotations on the segmental level of recordings of non-native speakers of Czech, with the aim to train automatic speech recognition (ASR) models used in this tool. After an introductory section that discusses the use of technology in pronunciation teaching and mentions some of the e-learning applications for teaching the pronunciation of second languages (L2), we address both general and more specific aspects of speech data annotation to train ASR models and mention attributive and synthetic segmental systems of speech data annotation for Czech as L2. We also briefly introduce the annotation system of non-native speakers of Czech called BV1, which is used for testing the ANOPHONE tool. The main part of this text focuses on presenting the annotation tool itself, while the conclusion describes the experience of testing the speech data annotation tool using BV1 annotation system for Czech as L2.
Proceedings of the 20th International Congress of Phonetic Sciences, Prague 2023, 2023
This paper introduces a research project that represents an innovative approach to e-learning app... more This paper introduces a research project that represents an innovative approach to e-learning applications targeting automatic feedback on the pronunciation of non-native speakers based on computer speech recognition (specifically for Czech). We have collected data from 187 speakers of different pronunciation levels from 36 languages, conducted a pilot project, and developed the first version of an attributive annotation system based on tagging isolated speech sounds. We briefly mention the results of this stage (especially the success rate of the trained model), which led us to change our strategy and move to the next phase of the development of the automatic speech recognition tool. In this article, we present the current and next project phases: the Anophone annotation tool, a new annotation system based on whole-word tagging (two-to four-syllable words). The result is a measurable improvement in both the model and the success rate of speech recognition.
A literary essay is an interesting unit for language analyses, as its stylistic means often excee... more A literary essay is an interesting unit for language analyses, as its stylistic means often exceed the boundaries of the genre of an artistic essay. The article presents a new corpus of Czech literary essays covering approximately fifty years from 1890 to 1940. Along with the characterisation of the corpus and its annotation, the paper focuses on the TxM corpus tool: In the second part of the study, we use selected texts to conduct an analysis of seven various authors through multidimensional cluster analysis, factorial correspondence analysis and a specificity score. The main parameter of the analyses was usage of parts of speech in texts by individual authors. At present, the Corpus of Czech Essays contains 40 essayist titles written by 15 authors covering various topics (music, visual arts, theatre, literature, etc.).
COLLOCATION GRAPHS AND NETWORKS USING #LANCSBOX: APPLICATIONS IN ENGLISH AND CZECH This article d... more COLLOCATION GRAPHS AND NETWORKS USING #LANCSBOX: APPLICATIONS IN ENGLISH AND CZECH This article deals with the notion of collocation graphs and lexical networks, which not only represent the visualization of the collocational relationship between linguistic units-these have been traditionally displayed in a tabular form with frequency distributions and association measure values-but also an important analytical method in its own right. We illustrate the use of collocation graphs and networks with two case studies as examples demonstrating the use of this technique in lexicography and discourse analysis. The examples are based on both English and Czech corpora, which we analysed using #LancsBox, a free tool which can build collocation graphs and networks on the fly.
In this paper, we would like to provide a brief overview of the current state of pronunciation te... more In this paper, we would like to provide a brief overview of the current state of pronunciation teaching in e-learning and demonstrate a new approach to building tools for automatic feedback concerning correct pronunciation based on the most frequent or typical errors in speech production made by non-native speakers. We will illustrate this in the process of designing annotation for a sound recognition tool to provide feedback on pronunciation. At the end of the paper, we will also present how we have tried to apply this annotation to the tool, what caveats we have found and what our plans are.
Journal of Linguistics / Jazykovedný časopis, 2021
A literary essay is an interesting unit for language analyses, as its stylistic means often excee... more A literary essay is an interesting unit for language analyses, as its stylistic means often exceed the boundaries of the genre of an artistic essay. The article presents a new corpus of Czech literary essays covering approximately fifty years from 1890 to 1940. Along with the characterisation of the corpus and its annotation, the paper focuses on the TXM corpus tool: In the second part of the study, we use selected texts to conduct an analysis of seven various authors through multidimensional cluster analysis, factorial correspondence analysis and a specificity score. The main parameter of the analyses was usage of parts of speech in texts by individual authors. At present, the Corpus of Czech Essays contains 40 essayist titles written by 15 authors covering various topics (music, visual arts, theatre, literature, etc.).
Journal of Linguistics / Jazykovedný časopis, 2021
In this paper, we would like to provide a brief overview of the current state of pronunciation te... more In this paper, we would like to provide a brief overview of the current state of pronunciation teaching in e-learning and demonstrate a new approach to building tools for automatic feedback concerning correct pronunciation based on the most frequent or typical errors in speech production made by non-native speakers. We will illustrate this in the process of designing annotation for a sound recognition tool to provide feedback on pronunciation. At the end of the paper, we will also present how we have tried to apply this annotation to the tool, what caveats we have found and what our plans are.
This article deals with the notion of collocation graphs and lexical networks, which not only rep... more This article deals with the notion of collocation graphs and lexical networks, which not only represent the visualization of the collocational relationship between linguistic units — these have been traditionally displayed in a tabular form with frequency distributions and association measure values — but also an important analytical method in its own right. We illustrate the use of collocation graphs and networks with two case studies as examples demonstrating the use of this technique in lexicography and discourse analysis. The examples are based on both English and Czech corpora, which we analysed using #LancsBox, a free tool which can build collocation graphs and networks on the fly.
Článek věnující se aktuálním otázkám a oblasti související s metodologickou platformou či trendem... more Článek věnující se aktuálním otázkám a oblasti související s metodologickou platformou či trendem tzv. digital humanities. Je součástí monotematického čísla časopisu Naše řeč (1/2021) a reaguje mimo jiné i na pilotní příspěvek Lingvistika jako otevřená a transparentní disciplína (Cvrček – Chromý, 2021). Diskutovány jsou otázky sdílení dat, metod i zdrojových kódů, otevřený přístup k výsledkům bádání (open access) a dostupnost softwarových nástrojů.
The treatise focuses on mutual comparison of three methods of detection of prominent text units (... more The treatise focuses on mutual comparison of three methods of detection of prominent text units (prominent in relation to the contents of the text). The methods are: 1) analysis of key words based on comparison of source and referential corpora, 2) thematic concentration and h-point, and 3) the TF*IDF method. We try to thematize their pros and cons and, using the results of the carried out analyses, propose the optimal method for the extraction of thematic words from the spoken texts the frequency structure of which differs distinctly from the frequency structure of written texts.
This study presents the results of the author's research project called Olomouc Corpus of Spoken ... more This study presents the results of the author's research project called Olomouc Corpus of Spoken Czech (OCSC). The paper is focused on the state and partial phases of constructing the corpora, its methodology and annotation. Within the OCSC we use so called dual system of transcription, which means (1) an orthographic one with the purpose of linguistic (morphological) analysis and tagging and (2) a phonetic version of transcript which consists of three layers of the text: first the real transcription and further various types of the metatexts as a second and third layer, including communication aspects of the texts. The criteria of selection of speakers are also listed here and the highly important statistical analysis of the sociolinguistic categories (gender, age, type of education, types of recordings) is presented as well. This analysis can serve as a base for a partial correction of possible non-balance among those sociolinguistic parameters. The annotation rules and principles are mentioned at the end of this study.
The Vowel Articulation by Radio and TV News presenters, 2018
EN
The paper focuses on analyzing the quality of Czech monophthongs. The data for the analysis is... more EN The paper focuses on analyzing the quality of Czech monophthongs. The data for the analysis is mostly taken from the database NAKI (audio recordings of Czechoslovak and later Czech radio news). The probe analyzes and compares two studies of audio recordings that captured the speech patterns of radio and TV news presenters in four decades: (1) Naki1: 1970–1989 a (2) Naki2: 1990–2010. The comparison of data from both studies (Naki1 vs. Naki2) showed that vowel articulation changed within 40 years: Vowels from Dataset Naki1 are characterized by more stable pronunciation, distinction between individual sounds, and the absence of tendencies for approximation in formant ranges. The formant values of this set also match the reference data (Palková, 2014). On the other hand, the vowels of Naki2 confirms the tendencies listed in other recently published papers: formant ranges of the individual sounds are extending and getting closer, or even overlapping. Simultaneously, the data showed a certain difference between short and long vowels. The vowels are classified both qualitatively and statistically, and the results are visualized as graphs (box plots and vowel charts displaying formant ranges as XY points).
CZE Tento příspěvek se zaměřuje na analýzu kvality českých vokálů (monoftongů). Data pocházejí z tzv. databáze NAKI (zvukový archiv Českého rozhlasu). Studie analyzuje a porovnává dvě sondy zahrnující nahrávky rozhlasových a televizních moderátorů (tzv. řečových vzorů) v období čtyř dekád: (1) Naki1: 1970–1989 a (2) Naki2: 1990–2010. Porovnáním naměřených výsledků z obou sond (Naki1 vs. Naki2) jsme zjistili poměrně zřetelné změny ve výslovnosti samohlásek zkoumaných moderátorů v průběhu sledovaných čtyř dekád. Dataset Naki1 se vyznačuje stabilnější výslovností jednotlivých vokálů, jež jsou zároveň mezi sebou poměrně zřetelně odlišeny a nevykazují tendence ke sbližování formantových polí. Hodnoty formantů korespondují s údaji referenčními (Palková, 2014). Sonda Naki2 naopak potvrzuje tendence evidované i v jiných odborných studiích z minulých let: formantová pole dílčích vokálů se nápadně rozšiřují a vzájemně sbližují, až prolínají. Zároveň data ukázala jistý rozdíl mezi krátkými vs. dlouhými vokály. Výsledky jsou prezentovány formou základních deskriptivněstatistických údajů pro všechny samohlásky, doplněné vizualizacemi a grafy (krabicové grafy, vokalické trojúhelníky – formantová pásma prostřednictvím bodových XY grafů).
Vowel Formants of Czechoslovak Radio Announcers from 1970 to 1989, 2018
EN
The paper focuses on the analysis of the vocal articulations of twenty announcers (10 women an... more EN The paper focuses on the analysis of the vocal articulations of twenty announcers (10 women and 10 men) from the Czech (Czechoslovak) Radio. We used for this purpose the material of so called NAKI sound database (data come from 1970 to 1989). We focused specifically on the quality of czech vowels: Both short and long monophtong vowels were analyzed and the first two formant frequencies (called F1 and F2) were measured. We compared those two formant frequencies with the reference values of the Czech vowels. The results of this analysis are interpreted and suplemented by the data tables and charts; quantitative data are given for all vowels (mean, standard deviation, quartiles + minimum and maximum values and coefficient of variation).
CZE Odborná studie věnující se analýze vokalických artikulací 20 moderátorů (10 žen a 10 mužů) Českého (resp. Československého) rozhlasu. Materiálově je analýza postavena na tzv. databázi NAKI, data pocházejí z let 1970 až 1989. Zaměřili jsme se na analýzu kvality českých krátkých i dlouhých vokálů (monoftongů), která se tradičně charakterizuje prostřednictvím hlavních rezonančních frekvencí – prvního a druhého formantu. Naměřené formantové hodnoty jsme následně porovnali s referenčními údaji (zejm. Palková, 1994). Výsledky studie jsou poté náležitě interpretovány. Naměřená data jsou prezentována v přehledových tabulkách a doplňujících grafech. Uvedeny jsou deskriptivněstatistické údaje pro všechny vokály bez rozdílu délky (průměr, směrodatná odchylka, kvartily + minimální a maximální hodnota a koeficient variace); pro vizualizace výsledků jsme využili krabicové a spojnicové grafy a tzv. bodové grafy XY prezentující vokalické trojúhelníky zkoumaných mluvčích. Studie ukázala korespondenci naměřených hodnot s údaji referenčními: formantová pole českých monoftongů (na materiálu zkoumaných mluvčích) byla poměrně dobře odlišena a nevykazovala výraznější tendence k zúžení či znatelnému prolínání (jež jsou charakteristických vývojovým znakem současné mluvní praxe).
Studie prezentuje výsledky práce na textovém korpusu Březinových esejů Hudba pramenů. Prezentuje ... more Studie prezentuje výsledky práce na textovém korpusu Březinových esejů Hudba pramenů. Prezentuje základní etapy tvorby korpusu – digitalizace, segmentace a tokenizace textu. Klíčovým bodem studie je především tzv. lingvistická anotace (lemmatizace a slovnědruhové značkování) a její technický formát. Druhá část textu se věnuje základním možnostem vyhledávání korpusových dat v korpusovém manažeru Manatee/Bonito a tvorbě frekvenčního slovníku autora.
Svět jako vědomí a nic by Ladislav Klíma in Olomouc corpus of Czech Belles-Lettres at the Turn of the 19th and 20th Centuries, 2010
EN
The presented paper is a methodological study focused on forming the possibilities of small au... more EN The presented paper is a methodological study focused on forming the possibilities of small authors’ corpora for linguistic and literary research purposes. Special attention is paid to the format and structural annotation of data. The basic principles of the XML mark-up language are presented, which allows the user to create tags as required. The defined set of tags in Klíma’s corpus reflects both the structure of the text and Klíma’s specific style of writing, in particular certain typographic and orthographic features. Some basic options of data retrieval by means of corpus manager Manatee/Bonito are demonstrated and the basics of the query language syntax are explained.
CZE Metodologická studie předkládající možnosti tvorby malých autorských korpusů pro lingvistické a literárněvědné účely. Pozornost je věnována zejména strukturální anotaci a formátu dat ve značkovacím jazyce XML, který umožňuje uživateli definovat vlastní sadu značek. Soubor značek v klímovském korpusu respektuje a reflektuje autorův specifický styl, zejm. typografické a ortografické jevy. Vysvětleny jsou rovněž některé základní možnosti práce s korpusem a vyhledávání dat v korpusovém manažeru Manatee/Bonito, včetně základů syntaxe vyhledávacího jazyka.
Towards the possibilities of the computer processing of a literary text, 2010
EN
The text shows an interdisciplinary approach to the text and deals with technical possibilitie... more EN The text shows an interdisciplinary approach to the text and deals with technical possibilities of text (computer) processing, which enables by means of software tools to provide so called data retrieval, to perform statistical analysis and other processes according to preselected criteria and the basis of an annotation text. The first part is devoted to the most important corpus projects that are focused on the literary texts: Czech Electronic Library, corpus Intercorp, lexicographical dictionaries of Karel Čapek and Bohumil Hrabal. The second part represents the basic possibilities of creation of a small corpora, demonstrated on corpora of Otokar Březina and Ladislav Klíma, but first of all the usage of a corpus concordancer called AntConc during an analysis of (literary) texts: data retrieval, creating of alphabetic, or frequency dictionaries, etc.
CZE Článek se zabývá interdisciplinárním přístupem k textu, zejména možnostmi jeho technického (počítačového) zpracování, jež umožňuje prostřednictvím softwarových nástrojů podle předem zvolených kritérií a na základě provedené anotace textu vyhledávat, provádět statistické analýzy ad. procesy. První část textu je věnována nejdůležitějším korpusovým projektům s literárněvědným zaměřením: Česká elektronická knihovna, korpus Intercorp, lexikografické slovníky Karla Čapka a Bohumila Hrabala. Příspěvek v druhé části představuje základní možnosti vytváření malých autorských korpusů – na příkladu korpusů Otokara Březiny či Ladislava Klímy, ale především praktické využití programu AntConc při analýze (literárních) textů: vyhledávání výrazů, generování abecedních či frekvenčních slovníků aj.
Sborník Asociace učitelů češtiny jako cizího jazyka (AUČCJ) 2007–2009, 2009
Článek představuje konsorcium ECL, jež nabízí mezinárodní certifikaci češtiny pro cizince, v rámc... more Článek představuje konsorcium ECL, jež nabízí mezinárodní certifikaci češtiny pro cizince, v rámci ČR pod patronací LŠSS FF UP. Text uvádí hlavní zásady a strukturu ECL testů, termíny konání, formát zkoušky, princip bodování, úryvky příkladů z jednotlivých jazykových úrovní a popis typů úloh.
Musical Notation Seen as an Identifier of Allovariant of Musical Units. Towards an Analogy between Music and Language II., 2009
EN
The study deals with musical notation and compares it with phonetic transcription of spoken la... more EN The study deals with musical notation and compares it with phonetic transcription of spoken language. The term of allovariant is borrowed from linguistics where it means the group of all variants belonging to one systemic unit. Some tones sound equally even though they have different names - we speak about enharmonic equivalents. In the system of musical notes we find interferences of three musical allovariants as each tone can be in tempered tuning named (and recorded) in three ways. This fact can be seen as phenomenon that linguistics calls homonymy or homophony - cases when words (language units) sound equally but are written differently: i.e. bít v. být in the Czech language, or C double sharp eguals D in music. Not only enharmonic equivalency but also the interference of allovariants can be seen as another case of analogy between music and natural language.
CZE Studie se zabývá analogiemi mezi hudbou a řečí, věnuje se zejména srovnání systému notového záznamu a fonetické transkripce mluvené řeči. Lingvistický termín alovarianta vyjadřuje skupinu všech variant, které patří k jedné systémové jednotce. Některé tóny zvukově splývají, přestože se jinak jmenují a zapisují - mluvíme o enharmonické záměně. V hudebním systému nacházíme křížení tří hudebních alovariant, protože každý tón lze v temperovaném ladění pojmenovat (a zapsat) třemi různými způsoby. Tento fakt lze považovat za fenomén, který lingvistika zná pod pojmy homonymie nebo homofonie - případy, kdy slova (jazykové jednotky) stejně znějí, ale jinak se píší, tj. bít v. být v jazyce (češtině), nebo Cisis v. D v hudbě. Nejen enharmonickou záměnu, ale i křížení alovariant lze chápat jako další příklad analogie mezi hudbou a řečí.
Olomoucký korpus mluvené češtiny: charakteristika a hlavní rysy projektu, 2009
EN
This study presents the results of the author’s research project called Olomouc Corpus of Spok... more EN This study presents the results of the author’s research project called Olomouc Corpus of Spoken Language (OCSL). The paper is focused on the state and partial phases of constructing the corpora, its methodology and annotation. Within the OCSL we use so called dual system of transcription, which means (1) an orthographic one with the purpose of linguistic (morphological) analysis and tagging and (2) a phonetic version of transcript which consists of three layers of the text: first the real transcription and further various types of the metatexts as a second and third layer, including communication aspects of the texts. The criteria of selection of speakers are also discussed there and the highly important statistical analysis of the sociolinguistic categories (gender, age, type of education, types of recordings) is presented as well. This analysis can serve as a base for a partial correction of possible non-balance among those sociolinguistic parameters. The annotation rules and principles are mentioned in the end of this study.
CZE Tato studie prezentuje výsledky autorova výzkumného projektu s názvem Olomoucký korpus mluvené češtiny (OKMČ). Příspěvek se věnuje hlavním tématům i fázím budování korpusu, metodologii a anotaci korpusových dat. V rámci OKMČ byl vytvořen tzv. duální systém transkripce, kdy existuje (1) ortografická verze přepisu určená především pro další lingvistické zpracování - poloautomatickou morfologickou analýzu a značkování a (2) fonetický přepis, který se skládá ze tří vrstev: první vrstva je samotný přepis a další dvě vrstvy obsahují různé typy metadat a komunikačních aspektů textu. Diskutována jsou rovněž kritéria výběru mluvčích, prezentována je statistická analýza sociolingvistických kategorií (pohlaví, věk, typ vzdělání, typ komunikátu). Tato analýza může sloužit jako základ pro částečnou korekci případné nevyváženosti sociolingvistických parametrů. Na konci studie jsou uvedena pravidla anotace OKMČ.
The aim of this paper is to present the new CapekdraCor corpus and the draCor project with its re... more The aim of this paper is to present the new CapekdraCor corpus and the draCor project with its research-oriented concept of a programmable corpora focused on quantitative analyses within the framework of computational literary studies. This digital platform extends the possibilities of large-scale drama analysis with a focus on the dramatic character(s). The basic operationalisation is the interaction within a dramatic configuration, i.e., the scenic co-presence of two speakers, from which network data are automatically extracted, both global networks of interactions of dramas and data characterising individual actors, i.e., literary characters. The paper demonstrates the CapekdraCor corpus, a new contribution to the extensive draCor database, and presents the way the data are processed with respect to their specific multi-layered structure. The corpus contains all the plays written by Karel and Josef Čapek and the data are processed in a standardized format based on XML and general TEI guidelines for processing drama with a defined basic drama tagset. CapekdraCor also uses the newly created EZdrama format for data processing, which works as an intermediate step from .txt to .xml file as a lightweight YAML-like markup language. A file in this format can be automatically converted into a DraCor-ready XML file with a TEI header. The advantage of the programmable corpora concept is the possibility to use suitably structured data for drama research outside the draCor platform and with other methods or tools for textual analysis. Simultaneously, this approach moves the researcher from the technical requirements of the analysis to operationalised computational analysis based on research questions and pre-prepared and flexible tools. draCor is a unique open infrastructure (both in terms of data and tools) for the analysis of European drama, currently comprising 15 corpora in 10 different languages with a total of about 3,000 plays from a wide range of periods.
The goal of this text is the presentation of the ANOPHONE annotation system, which allows for the... more The goal of this text is the presentation of the ANOPHONE annotation system, which allows for the management and annotation of speech data to develop a tool for the automatic transcription of speech of non-native speakers of Czech. This system is currently designed for annotations on the segmental level of recordings of non-native speakers of Czech, with the aim to train automatic speech recognition (ASR) models used in this tool. After an introductory section that discusses the use of technology in pronunciation teaching and mentions some of the e-learning applications for teaching the pronunciation of second languages (L2), we address both general and more specific aspects of speech data annotation to train ASR models and mention attributive and synthetic segmental systems of speech data annotation for Czech as L2. We also briefly introduce the annotation system of non-native speakers of Czech called BV1, which is used for testing the ANOPHONE tool. The main part of this text focuses on presenting the annotation tool itself, while the conclusion describes the experience of testing the speech data annotation tool using BV1 annotation system for Czech as L2.
Proceedings of the 20th International Congress of Phonetic Sciences, Prague 2023, 2023
This paper introduces a research project that represents an innovative approach to e-learning app... more This paper introduces a research project that represents an innovative approach to e-learning applications targeting automatic feedback on the pronunciation of non-native speakers based on computer speech recognition (specifically for Czech). We have collected data from 187 speakers of different pronunciation levels from 36 languages, conducted a pilot project, and developed the first version of an attributive annotation system based on tagging isolated speech sounds. We briefly mention the results of this stage (especially the success rate of the trained model), which led us to change our strategy and move to the next phase of the development of the automatic speech recognition tool. In this article, we present the current and next project phases: the Anophone annotation tool, a new annotation system based on whole-word tagging (two-to four-syllable words). The result is a measurable improvement in both the model and the success rate of speech recognition.
A literary essay is an interesting unit for language analyses, as its stylistic means often excee... more A literary essay is an interesting unit for language analyses, as its stylistic means often exceed the boundaries of the genre of an artistic essay. The article presents a new corpus of Czech literary essays covering approximately fifty years from 1890 to 1940. Along with the characterisation of the corpus and its annotation, the paper focuses on the TxM corpus tool: In the second part of the study, we use selected texts to conduct an analysis of seven various authors through multidimensional cluster analysis, factorial correspondence analysis and a specificity score. The main parameter of the analyses was usage of parts of speech in texts by individual authors. At present, the Corpus of Czech Essays contains 40 essayist titles written by 15 authors covering various topics (music, visual arts, theatre, literature, etc.).
COLLOCATION GRAPHS AND NETWORKS USING #LANCSBOX: APPLICATIONS IN ENGLISH AND CZECH This article d... more COLLOCATION GRAPHS AND NETWORKS USING #LANCSBOX: APPLICATIONS IN ENGLISH AND CZECH This article deals with the notion of collocation graphs and lexical networks, which not only represent the visualization of the collocational relationship between linguistic units-these have been traditionally displayed in a tabular form with frequency distributions and association measure values-but also an important analytical method in its own right. We illustrate the use of collocation graphs and networks with two case studies as examples demonstrating the use of this technique in lexicography and discourse analysis. The examples are based on both English and Czech corpora, which we analysed using #LancsBox, a free tool which can build collocation graphs and networks on the fly.
In this paper, we would like to provide a brief overview of the current state of pronunciation te... more In this paper, we would like to provide a brief overview of the current state of pronunciation teaching in e-learning and demonstrate a new approach to building tools for automatic feedback concerning correct pronunciation based on the most frequent or typical errors in speech production made by non-native speakers. We will illustrate this in the process of designing annotation for a sound recognition tool to provide feedback on pronunciation. At the end of the paper, we will also present how we have tried to apply this annotation to the tool, what caveats we have found and what our plans are.
Journal of Linguistics / Jazykovedný časopis, 2021
A literary essay is an interesting unit for language analyses, as its stylistic means often excee... more A literary essay is an interesting unit for language analyses, as its stylistic means often exceed the boundaries of the genre of an artistic essay. The article presents a new corpus of Czech literary essays covering approximately fifty years from 1890 to 1940. Along with the characterisation of the corpus and its annotation, the paper focuses on the TXM corpus tool: In the second part of the study, we use selected texts to conduct an analysis of seven various authors through multidimensional cluster analysis, factorial correspondence analysis and a specificity score. The main parameter of the analyses was usage of parts of speech in texts by individual authors. At present, the Corpus of Czech Essays contains 40 essayist titles written by 15 authors covering various topics (music, visual arts, theatre, literature, etc.).
Journal of Linguistics / Jazykovedný časopis, 2021
In this paper, we would like to provide a brief overview of the current state of pronunciation te... more In this paper, we would like to provide a brief overview of the current state of pronunciation teaching in e-learning and demonstrate a new approach to building tools for automatic feedback concerning correct pronunciation based on the most frequent or typical errors in speech production made by non-native speakers. We will illustrate this in the process of designing annotation for a sound recognition tool to provide feedback on pronunciation. At the end of the paper, we will also present how we have tried to apply this annotation to the tool, what caveats we have found and what our plans are.
This article deals with the notion of collocation graphs and lexical networks, which not only rep... more This article deals with the notion of collocation graphs and lexical networks, which not only represent the visualization of the collocational relationship between linguistic units — these have been traditionally displayed in a tabular form with frequency distributions and association measure values — but also an important analytical method in its own right. We illustrate the use of collocation graphs and networks with two case studies as examples demonstrating the use of this technique in lexicography and discourse analysis. The examples are based on both English and Czech corpora, which we analysed using #LancsBox, a free tool which can build collocation graphs and networks on the fly.
Článek věnující se aktuálním otázkám a oblasti související s metodologickou platformou či trendem... more Článek věnující se aktuálním otázkám a oblasti související s metodologickou platformou či trendem tzv. digital humanities. Je součástí monotematického čísla časopisu Naše řeč (1/2021) a reaguje mimo jiné i na pilotní příspěvek Lingvistika jako otevřená a transparentní disciplína (Cvrček – Chromý, 2021). Diskutovány jsou otázky sdílení dat, metod i zdrojových kódů, otevřený přístup k výsledkům bádání (open access) a dostupnost softwarových nástrojů.
The treatise focuses on mutual comparison of three methods of detection of prominent text units (... more The treatise focuses on mutual comparison of three methods of detection of prominent text units (prominent in relation to the contents of the text). The methods are: 1) analysis of key words based on comparison of source and referential corpora, 2) thematic concentration and h-point, and 3) the TF*IDF method. We try to thematize their pros and cons and, using the results of the carried out analyses, propose the optimal method for the extraction of thematic words from the spoken texts the frequency structure of which differs distinctly from the frequency structure of written texts.
This study presents the results of the author's research project called Olomouc Corpus of Spoken ... more This study presents the results of the author's research project called Olomouc Corpus of Spoken Czech (OCSC). The paper is focused on the state and partial phases of constructing the corpora, its methodology and annotation. Within the OCSC we use so called dual system of transcription, which means (1) an orthographic one with the purpose of linguistic (morphological) analysis and tagging and (2) a phonetic version of transcript which consists of three layers of the text: first the real transcription and further various types of the metatexts as a second and third layer, including communication aspects of the texts. The criteria of selection of speakers are also listed here and the highly important statistical analysis of the sociolinguistic categories (gender, age, type of education, types of recordings) is presented as well. This analysis can serve as a base for a partial correction of possible non-balance among those sociolinguistic parameters. The annotation rules and principles are mentioned at the end of this study.
The Vowel Articulation by Radio and TV News presenters, 2018
EN
The paper focuses on analyzing the quality of Czech monophthongs. The data for the analysis is... more EN The paper focuses on analyzing the quality of Czech monophthongs. The data for the analysis is mostly taken from the database NAKI (audio recordings of Czechoslovak and later Czech radio news). The probe analyzes and compares two studies of audio recordings that captured the speech patterns of radio and TV news presenters in four decades: (1) Naki1: 1970–1989 a (2) Naki2: 1990–2010. The comparison of data from both studies (Naki1 vs. Naki2) showed that vowel articulation changed within 40 years: Vowels from Dataset Naki1 are characterized by more stable pronunciation, distinction between individual sounds, and the absence of tendencies for approximation in formant ranges. The formant values of this set also match the reference data (Palková, 2014). On the other hand, the vowels of Naki2 confirms the tendencies listed in other recently published papers: formant ranges of the individual sounds are extending and getting closer, or even overlapping. Simultaneously, the data showed a certain difference between short and long vowels. The vowels are classified both qualitatively and statistically, and the results are visualized as graphs (box plots and vowel charts displaying formant ranges as XY points).
CZE Tento příspěvek se zaměřuje na analýzu kvality českých vokálů (monoftongů). Data pocházejí z tzv. databáze NAKI (zvukový archiv Českého rozhlasu). Studie analyzuje a porovnává dvě sondy zahrnující nahrávky rozhlasových a televizních moderátorů (tzv. řečových vzorů) v období čtyř dekád: (1) Naki1: 1970–1989 a (2) Naki2: 1990–2010. Porovnáním naměřených výsledků z obou sond (Naki1 vs. Naki2) jsme zjistili poměrně zřetelné změny ve výslovnosti samohlásek zkoumaných moderátorů v průběhu sledovaných čtyř dekád. Dataset Naki1 se vyznačuje stabilnější výslovností jednotlivých vokálů, jež jsou zároveň mezi sebou poměrně zřetelně odlišeny a nevykazují tendence ke sbližování formantových polí. Hodnoty formantů korespondují s údaji referenčními (Palková, 2014). Sonda Naki2 naopak potvrzuje tendence evidované i v jiných odborných studiích z minulých let: formantová pole dílčích vokálů se nápadně rozšiřují a vzájemně sbližují, až prolínají. Zároveň data ukázala jistý rozdíl mezi krátkými vs. dlouhými vokály. Výsledky jsou prezentovány formou základních deskriptivněstatistických údajů pro všechny samohlásky, doplněné vizualizacemi a grafy (krabicové grafy, vokalické trojúhelníky – formantová pásma prostřednictvím bodových XY grafů).
Vowel Formants of Czechoslovak Radio Announcers from 1970 to 1989, 2018
EN
The paper focuses on the analysis of the vocal articulations of twenty announcers (10 women an... more EN The paper focuses on the analysis of the vocal articulations of twenty announcers (10 women and 10 men) from the Czech (Czechoslovak) Radio. We used for this purpose the material of so called NAKI sound database (data come from 1970 to 1989). We focused specifically on the quality of czech vowels: Both short and long monophtong vowels were analyzed and the first two formant frequencies (called F1 and F2) were measured. We compared those two formant frequencies with the reference values of the Czech vowels. The results of this analysis are interpreted and suplemented by the data tables and charts; quantitative data are given for all vowels (mean, standard deviation, quartiles + minimum and maximum values and coefficient of variation).
CZE Odborná studie věnující se analýze vokalických artikulací 20 moderátorů (10 žen a 10 mužů) Českého (resp. Československého) rozhlasu. Materiálově je analýza postavena na tzv. databázi NAKI, data pocházejí z let 1970 až 1989. Zaměřili jsme se na analýzu kvality českých krátkých i dlouhých vokálů (monoftongů), která se tradičně charakterizuje prostřednictvím hlavních rezonančních frekvencí – prvního a druhého formantu. Naměřené formantové hodnoty jsme následně porovnali s referenčními údaji (zejm. Palková, 1994). Výsledky studie jsou poté náležitě interpretovány. Naměřená data jsou prezentována v přehledových tabulkách a doplňujících grafech. Uvedeny jsou deskriptivněstatistické údaje pro všechny vokály bez rozdílu délky (průměr, směrodatná odchylka, kvartily + minimální a maximální hodnota a koeficient variace); pro vizualizace výsledků jsme využili krabicové a spojnicové grafy a tzv. bodové grafy XY prezentující vokalické trojúhelníky zkoumaných mluvčích. Studie ukázala korespondenci naměřených hodnot s údaji referenčními: formantová pole českých monoftongů (na materiálu zkoumaných mluvčích) byla poměrně dobře odlišena a nevykazovala výraznější tendence k zúžení či znatelnému prolínání (jež jsou charakteristických vývojovým znakem současné mluvní praxe).
Studie prezentuje výsledky práce na textovém korpusu Březinových esejů Hudba pramenů. Prezentuje ... more Studie prezentuje výsledky práce na textovém korpusu Březinových esejů Hudba pramenů. Prezentuje základní etapy tvorby korpusu – digitalizace, segmentace a tokenizace textu. Klíčovým bodem studie je především tzv. lingvistická anotace (lemmatizace a slovnědruhové značkování) a její technický formát. Druhá část textu se věnuje základním možnostem vyhledávání korpusových dat v korpusovém manažeru Manatee/Bonito a tvorbě frekvenčního slovníku autora.
Svět jako vědomí a nic by Ladislav Klíma in Olomouc corpus of Czech Belles-Lettres at the Turn of the 19th and 20th Centuries, 2010
EN
The presented paper is a methodological study focused on forming the possibilities of small au... more EN The presented paper is a methodological study focused on forming the possibilities of small authors’ corpora for linguistic and literary research purposes. Special attention is paid to the format and structural annotation of data. The basic principles of the XML mark-up language are presented, which allows the user to create tags as required. The defined set of tags in Klíma’s corpus reflects both the structure of the text and Klíma’s specific style of writing, in particular certain typographic and orthographic features. Some basic options of data retrieval by means of corpus manager Manatee/Bonito are demonstrated and the basics of the query language syntax are explained.
CZE Metodologická studie předkládající možnosti tvorby malých autorských korpusů pro lingvistické a literárněvědné účely. Pozornost je věnována zejména strukturální anotaci a formátu dat ve značkovacím jazyce XML, který umožňuje uživateli definovat vlastní sadu značek. Soubor značek v klímovském korpusu respektuje a reflektuje autorův specifický styl, zejm. typografické a ortografické jevy. Vysvětleny jsou rovněž některé základní možnosti práce s korpusem a vyhledávání dat v korpusovém manažeru Manatee/Bonito, včetně základů syntaxe vyhledávacího jazyka.
Towards the possibilities of the computer processing of a literary text, 2010
EN
The text shows an interdisciplinary approach to the text and deals with technical possibilitie... more EN The text shows an interdisciplinary approach to the text and deals with technical possibilities of text (computer) processing, which enables by means of software tools to provide so called data retrieval, to perform statistical analysis and other processes according to preselected criteria and the basis of an annotation text. The first part is devoted to the most important corpus projects that are focused on the literary texts: Czech Electronic Library, corpus Intercorp, lexicographical dictionaries of Karel Čapek and Bohumil Hrabal. The second part represents the basic possibilities of creation of a small corpora, demonstrated on corpora of Otokar Březina and Ladislav Klíma, but first of all the usage of a corpus concordancer called AntConc during an analysis of (literary) texts: data retrieval, creating of alphabetic, or frequency dictionaries, etc.
CZE Článek se zabývá interdisciplinárním přístupem k textu, zejména možnostmi jeho technického (počítačového) zpracování, jež umožňuje prostřednictvím softwarových nástrojů podle předem zvolených kritérií a na základě provedené anotace textu vyhledávat, provádět statistické analýzy ad. procesy. První část textu je věnována nejdůležitějším korpusovým projektům s literárněvědným zaměřením: Česká elektronická knihovna, korpus Intercorp, lexikografické slovníky Karla Čapka a Bohumila Hrabala. Příspěvek v druhé části představuje základní možnosti vytváření malých autorských korpusů – na příkladu korpusů Otokara Březiny či Ladislava Klímy, ale především praktické využití programu AntConc při analýze (literárních) textů: vyhledávání výrazů, generování abecedních či frekvenčních slovníků aj.
Sborník Asociace učitelů češtiny jako cizího jazyka (AUČCJ) 2007–2009, 2009
Článek představuje konsorcium ECL, jež nabízí mezinárodní certifikaci češtiny pro cizince, v rámc... more Článek představuje konsorcium ECL, jež nabízí mezinárodní certifikaci češtiny pro cizince, v rámci ČR pod patronací LŠSS FF UP. Text uvádí hlavní zásady a strukturu ECL testů, termíny konání, formát zkoušky, princip bodování, úryvky příkladů z jednotlivých jazykových úrovní a popis typů úloh.
Musical Notation Seen as an Identifier of Allovariant of Musical Units. Towards an Analogy between Music and Language II., 2009
EN
The study deals with musical notation and compares it with phonetic transcription of spoken la... more EN The study deals with musical notation and compares it with phonetic transcription of spoken language. The term of allovariant is borrowed from linguistics where it means the group of all variants belonging to one systemic unit. Some tones sound equally even though they have different names - we speak about enharmonic equivalents. In the system of musical notes we find interferences of three musical allovariants as each tone can be in tempered tuning named (and recorded) in three ways. This fact can be seen as phenomenon that linguistics calls homonymy or homophony - cases when words (language units) sound equally but are written differently: i.e. bít v. být in the Czech language, or C double sharp eguals D in music. Not only enharmonic equivalency but also the interference of allovariants can be seen as another case of analogy between music and natural language.
CZE Studie se zabývá analogiemi mezi hudbou a řečí, věnuje se zejména srovnání systému notového záznamu a fonetické transkripce mluvené řeči. Lingvistický termín alovarianta vyjadřuje skupinu všech variant, které patří k jedné systémové jednotce. Některé tóny zvukově splývají, přestože se jinak jmenují a zapisují - mluvíme o enharmonické záměně. V hudebním systému nacházíme křížení tří hudebních alovariant, protože každý tón lze v temperovaném ladění pojmenovat (a zapsat) třemi různými způsoby. Tento fakt lze považovat za fenomén, který lingvistika zná pod pojmy homonymie nebo homofonie - případy, kdy slova (jazykové jednotky) stejně znějí, ale jinak se píší, tj. bít v. být v jazyce (češtině), nebo Cisis v. D v hudbě. Nejen enharmonickou záměnu, ale i křížení alovariant lze chápat jako další příklad analogie mezi hudbou a řečí.
Olomoucký korpus mluvené češtiny: charakteristika a hlavní rysy projektu, 2009
EN
This study presents the results of the author’s research project called Olomouc Corpus of Spok... more EN This study presents the results of the author’s research project called Olomouc Corpus of Spoken Language (OCSL). The paper is focused on the state and partial phases of constructing the corpora, its methodology and annotation. Within the OCSL we use so called dual system of transcription, which means (1) an orthographic one with the purpose of linguistic (morphological) analysis and tagging and (2) a phonetic version of transcript which consists of three layers of the text: first the real transcription and further various types of the metatexts as a second and third layer, including communication aspects of the texts. The criteria of selection of speakers are also discussed there and the highly important statistical analysis of the sociolinguistic categories (gender, age, type of education, types of recordings) is presented as well. This analysis can serve as a base for a partial correction of possible non-balance among those sociolinguistic parameters. The annotation rules and principles are mentioned in the end of this study.
CZE Tato studie prezentuje výsledky autorova výzkumného projektu s názvem Olomoucký korpus mluvené češtiny (OKMČ). Příspěvek se věnuje hlavním tématům i fázím budování korpusu, metodologii a anotaci korpusových dat. V rámci OKMČ byl vytvořen tzv. duální systém transkripce, kdy existuje (1) ortografická verze přepisu určená především pro další lingvistické zpracování - poloautomatickou morfologickou analýzu a značkování a (2) fonetický přepis, který se skládá ze tří vrstev: první vrstva je samotný přepis a další dvě vrstvy obsahují různé typy metadat a komunikačních aspektů textu. Diskutována jsou rovněž kritéria výběru mluvčích, prezentována je statistická analýza sociolingvistických kategorií (pohlaví, věk, typ vzdělání, typ komunikátu). Tato analýza může sloužit jako základ pro částečnou korekci případné nevyváženosti sociolingvistických parametrů. Na konci studie jsou uvedena pravidla anotace OKMČ.
Creating Corpora and Lingustics Data Mining. Methods, models, tools., 2014
EN
The book offers a systematic insight into the issue of language data processing and data minin... more EN The book offers a systematic insight into the issue of language data processing and data mining. The text is focused on the basics of technical data processing (esp. structural and linguistic annotation, XML markup language, the possibility of (semi) automatic segmentation and tagging of texts), and on this basis presents methods and possibilities of algorithmic search patterns using CQL (Corpus Query Language).
CZE Metodologický text sumarizující a promýšlející moderní vědecké nástroje, bez nichž se neobejde žádný současný lingvista. Monografie těží z autorova dlouhodobého angažmá v korpusové lingvistice, ale přesahuje ji směrem k počítačovému a technickému zpracování lingvistických dat obecně. Kniha nabízí systematický vhled do problematiky technického zpracování jazykových dat, efektivního vytěžování dat a prezentuje možnosti a prostředky, jak sestavit vlastní textovou databázi (jazykový korpus). Mezi nejdůležitější části textu patří pasáže zaměřené na anotaci a technické aspekty tvorby korpusů, zejm. na formát dat a kódování znaků, segmentaci textu či využití značkovacího jazyka XML, jenž v současnosti představuje nejrozšířenější mezinárodní standard pro anotaci korpusových databází. Prezentovány jsou rovněž vybrané softwarové nástroje pro vytěžování korpusových dat, od nejjednodušších aplikací určených pro dílčí či základní korpusové operace až po komplexní korpusové nástroje. Technicky nejnáročnějšími pasážemi monografie jsou pak kapitoly, jež se věnují možnostem automatického zpracování textu do strukturované databáze prostřednictvím softwarových nástrojů a počítačových skriptů. Postupně tak jsou v monografii představeny všechny fáze počítačového zpracování dat: nastavení či konverze kódování znaků, konců řádků i souborového formátu, segmentace či tokenizace textu, jeho zpracování do některého z korpusových formátů (např. do tzv. vertikály), proces anotace různého typu a rozsahu (zejm. lemmatizace a taggování) atd.
CZE
Tato kapitola prezentuje výsledky kvantitativní analýzy více než 500 textů Václava Havla rozč... more CZE Tato kapitola prezentuje výsledky kvantitativní analýzy více než 500 textů Václava Havla rozčleněných do 11 textových kategorií. Prostřednictvím několika vybraných metod jsme sledovali, jak se Havlovy texty promítají na pozadí funkčních stylů češtiny. Konkrétně jsme měřili vzdálenost sloves v syntaktických strukturách prostřednictvím indexu VD, dále tzv. aktivitu a deskriptivitu textu (Q/D index) vyjadřující poměr slovníku adjektiv (jako statických, deskriptivních jazykových příznaků) a slovníku sloves (jako jazykových příznaků dynamických). Naměřená data jsme porovnali s referenční databází funkčních stylů češtiny obsahující celkem 120 textů (každý styl byl zastoupen 20 texty). V druhé části jsme provedli stylometrickou analýzu textů dvěma metodami: hierarchickou analýzou klastrů a analýzou hlavních komponent. Tato prvotní kvantitativní analýza textů Václava Havla ukázala, že se v jeho textech promítají především styl umělecký (drama/poezie), a řečnický (eseje/projevy).
EN This chapter presents the results of a quantitative analysis of more than 500 texts written by Václav Havel, divided into a total of 11 textual categories. Using several methods, we compared these data with texts representing functional styles of the Czech language. Specifically, we measured the distance of verbs in syntactic structures (VD index), as well as the so-called activity and descriptiveness of the text (Q/D index), expressing the ratio of the adjective vocabulary (as static, descriptive linguistic features) and the verb vocabulary (as dynamic linguistic features). We compared the measured data with a reference database, the corpus of functional styles, which contains 120 texts, with 20 texts representing a single style. In the second part, we performed a stylometric analysis of the texts using two methods: hierarchical cluster analysis and principal component analysis. This initial quantitative analysis of Václav Havel's texts showed that his texts mainly reflect the poetic (drama/poetry) and rhetorical (essays/speeches) styles.
Corpus of Czech translations of the Bible in the late 18th and early 19th century, 2013
EN
This study presents a project of the Czech translations of the Bible from the period 1775-1875... more EN This study presents a project of the Czech translations of the Bible from the period 1775-1875. One of the aims of this corpus is to document the development of the Czech literary language in the period of the National Revival. The text presents and summarizes the results of the preparatory phase of the project, when it is necessary to solve a number of theoretical and practical problems.
GER Am Lehrstuhl für Bohemistik der Philosophischen Fakultät der Olmützer Palacký-Universität entsteht z. Z. eine Reihe von Korpora, die die Entwicklung der tschechischen Schriftsprache in der Zeit der tschechischen nationalen Wiedergeburt (etwa 1775–1875) dokumentieren sollen. Zu ihnen gehört auch ein Korpus der tschechischen Bibelübersetzungen dieser Epoche. Das Projekt befindet sich noch im Stadium der Vorbereitung, so dass keine fertigen Ergebnisse vorliegen. Noch vor dem Beginn der eigentlichen Arbeit am Korpus müssen die Bibeln dieser Zeit bibliographisch erfasst und zahlreiche theoretische und praktische Probleme aus den Bereichen der Korpuslinguistik und Korpusinformatik gelöst werden. Im Aufsatz werden die bisherigen Ergebnisse der Vorbereitungsphase zusammengefasst.
CZE Studie prezentuje projekt českých překladů Bible z období let 1775 až 1875. Jedním z cílů tohoto korpusového projektu je dokumentovat vývoj českého spisovného jazyka v období českého národního obrození. Text prezentuje a shrnuje výsledky přípravné fáze projektu, kdy je třeba vyřešit řadu teoretických i praktických problémů.
Text předkládá v základních bodech anotační koncepci Olomouckého mluveného korpusu (OMK) budované... more Text předkládá v základních bodech anotační koncepci Olomouckého mluveného korpusu (OMK) budovaného na Katedře bohemistiky FF UP. Tematizovány jsou zásady sběru a anotace mluvených korpusů Českého národního korpusu i OMK, pravidla přepisů, fáze budování OMK a v závěru je uveden přehled transkripčních symbolů a strukturální metaznaků transkriptů OMK.
Text je dalším příspěvkem ke kontinuálnímu výzkumnému projektu Olomouckého mluveného korpusu. Cha... more Text je dalším příspěvkem ke kontinuálnímu výzkumnému projektu Olomouckého mluveného korpusu. Charakterizován je stav projektu, v základních metodologických parametrech je korpus srovnáván s mluvenými korpusy Českého národního korpusu. Pozornost je věnována zejména sociolingvistickým údajům, jejich strukturaci, charakteru i vzájemné proporčnosti, jež je dokládána kvantitativními údaji.
Disertace se věnuje mluvenému jazyku, teoretickým a metodologickým otázkám budování korpusů mluve... more Disertace se věnuje mluvenému jazyku, teoretickým a metodologickým otázkám budování korpusů mluvené češtiny, způsobům grafického záznamu komunikátů a anotaci dat. V první části (A) charakterizujeme stávající korpusy mluvené češtiny, sledujeme základní metodologická kritéria sběru a podáváme analýzu tzv. kvaziortografického způsobu zápisu. Druhá část (B) se věnuje technickým aspektům sběru dat: komparaci analogového a digitálního záznamu, zvukovým formátům a parametrům nahrávání. To vše v souvislosti a frekvenčním a dynamickým rozsahem řeči. Třetí část (C) je založena na původním souboru dat – Korpusu olomoucké mluvené češtiny. Ten je základem metodologie, anotace dat a transkripce mluvených komunikátů, jež předkládáme jako hlavní výsledky práce. Nově navržená anotační koncepce je tvořena tzv. duálním typem transkripce (ortografický a fonetický přepis) a vícevrstevným a strukturovaným formátem – SVIFT (Structural and Vertical Interlinear Format of Transcription).
Rigorózní práce z oblasti hudební teorie a folkloristiky. První část práce přináší ucelený pohled... more Rigorózní práce z oblasti hudební teorie a folkloristiky. První část práce přináší ucelený pohled na jednotlivé tonální typy slovenských nápěvů. Vycházíme přitom z klasifikační koncepce a nomenklatury utvořené slovenským muzikologem Jozefem Kresánkem. Novum přináší zejména druhá, komparativně zaměřená část studie. Věnujeme se zde otázkám aplikace slovenských tonalit (včetně názvosloví) na moravský písňový folklor. Cílem je ukázat shody a rozdíly mezi nápěvy slovenskými a moravskými (teritoriálně a typologicky přináležejícím k východnímu písňovému typu). Součástí toho textu jsou důležité pasáže zabývající svébytností modality lidových písní, ultradiatonikou moravských nápěvů, možnostmi dvojí notace a interpretace jednoho nápěvu (autentická a plagální notace) apod. Přitom je neustále přihlíženo k terminologii a tonální klasifikaci, jejímž autorem je Jan Trojan. Třetí, závěrečná část, má obecně teoretický, shrnující a filozofující charakter. Přináší také obecné zhodnocení dosažených výsledků.
A report commemorating the past 30 years since the founding of the Summer School of Slavonic Stud... more A report commemorating the past 30 years since the founding of the Summer School of Slavonic Studies of the Faculty of Philosophy at the Palacky University in Olomouc and summarizing the most important activities related to the annual courses of Czech for foreigners.
This textbook builds on the 2015 tutorials (Flip your teaching!). Also in the second part the did... more This textbook builds on the 2015 tutorials (Flip your teaching!). Also in the second part the didactic method of flipped classroom is used, the teaching texts being divided into two modules. The first one is for active home preparation (Module Homework subtitled Mystery of Czech Morphology), the second module (Classroomwork) is used for classroom work. It consists of two parts: The Classroomwork 1 Chapter is intended for intermediate learners of all types of schools who have attained at least B2 levels under the CEFR. Teaching is based on working with authentic materials. Emphasis is placed on teamwork and panel discussions. Chapter Classroomwork 2 is focused on practicing correct pronunciation. Both chapters are complemented by worksheets and instructional instructions for teachers.
MorphCon is a software tool for the automatic conversion of Czech morphological tagsets. This sof... more MorphCon is a software tool for the automatic conversion of Czech morphological tagsets. This software enables converting of two basic tagsets of Czech: Prague positional system and Brno’s attributive system. There are three basic Input/Output (I/O) formats of data (SimpleTag-Conversion, KWIC/Tag-Format, WPL-Format). Tagsets are implemented into the MorphCon as "drivers" with "encode" and "decode" function as well as an "universal library" called DZ-Interset plays key role for the process of conversion as a transcoder. The MorphCon software is thus built as an universal converter: modularity, the Interset as a transcoder, possibility of adding of another tagsets (not only Czech ones) and I/O formats.
Lingvisticky anotovaný korpus esejů J. Durycha (vydaných knižně v r. 1931): byla provedena lemmat... more Lingvisticky anotovaný korpus esejů J. Durycha (vydaných knižně v r. 1931): byla provedena lemmatizace (základní lemma) a přiřazeny morfologické značky (15poziční tagset). Korpus byl zkompilován systémem Manatee pro korpusový manažer Bonito.
Lingvisticky anotovaný korpus (lemmatizace + morfologické značky) první knihy esejů Hudba pramenů... more Lingvisticky anotovaný korpus (lemmatizace + morfologické značky) první knihy esejů Hudba pramenů (celkem 11 textů). Anotace byla provedena ve třech variantách: (1) pos2only (základní lemma + první dvě slovnědruhové pozice pozičního morfologického tagsetu); (2) hp-rawlemmas (základní lemma + 15poziční morfologická značka) a (3) hp-annotfull (tzv. rozšířené lemma + 15poziční morfologická značka). Korpus byl zkompliován systémem Manatee pro korpusový manažer Bonito.
Digital Humanities 2023. Collaboration as Opportunity (DH2023), 2023
The multilingual DraCor platform (https://www.dracor.org) represents a valuable resource for lite... more The multilingual DraCor platform (https://www.dracor.org) represents a valuable resource for literature and theatre scholars, allowing them to host, access and analyse thousands of plays from Antiquity to the XX century. After briefly presenting the workflow for the ingestion of new plays into our ecosystem, we focus on the collaborative side of our endeavours, demonstrating how external scholars can benefit from a range of tools and guides to easily prepare and submit their own collections. As a showcase of the process, we present three corpora currently in production, focusing respectively on Ukrainian, Czech, and Early Modern English literature.
Uploads
Papers by Petr Pořízka
The paper focuses on analyzing the quality of Czech monophthongs. The data for the analysis is mostly taken from the database NAKI (audio recordings of Czechoslovak and later Czech radio news). The probe analyzes and compares two studies of audio recordings that captured the speech patterns of radio and TV news presenters in four decades: (1) Naki1: 1970–1989 a (2) Naki2: 1990–2010. The comparison of data from both studies (Naki1 vs. Naki2) showed that vowel articulation changed within 40 years: Vowels from Dataset Naki1 are characterized by more stable pronunciation, distinction between individual sounds, and the absence of tendencies for approximation in formant ranges. The formant values of this set also match the reference data (Palková, 2014). On the other hand, the vowels of Naki2 confirms the tendencies listed in other recently published papers: formant ranges of the individual sounds are extending and getting closer, or even overlapping. Simultaneously, the data showed a certain difference between short and long vowels. The vowels are classified both qualitatively and statistically, and the results are visualized as graphs (box plots and vowel charts displaying formant ranges as XY points).
CZE
Tento příspěvek se zaměřuje na analýzu kvality českých vokálů (monoftongů). Data pocházejí z tzv. databáze NAKI (zvukový archiv Českého rozhlasu). Studie analyzuje a porovnává dvě sondy zahrnující nahrávky rozhlasových a televizních moderátorů (tzv. řečových vzorů) v období čtyř dekád: (1) Naki1: 1970–1989 a (2) Naki2: 1990–2010. Porovnáním naměřených výsledků z obou sond (Naki1 vs. Naki2) jsme zjistili poměrně zřetelné změny ve výslovnosti samohlásek zkoumaných moderátorů v průběhu sledovaných čtyř dekád. Dataset Naki1 se vyznačuje stabilnější výslovností jednotlivých vokálů, jež jsou zároveň mezi sebou poměrně zřetelně odlišeny a nevykazují tendence ke sbližování formantových polí. Hodnoty formantů korespondují s údaji referenčními (Palková, 2014). Sonda Naki2 naopak potvrzuje tendence evidované i v jiných odborných studiích z minulých let: formantová pole dílčích vokálů se nápadně rozšiřují a vzájemně sbližují, až prolínají. Zároveň data ukázala jistý rozdíl mezi krátkými vs. dlouhými vokály. Výsledky jsou prezentovány formou základních deskriptivněstatistických údajů pro všechny samohlásky, doplněné vizualizacemi a grafy (krabicové grafy, vokalické trojúhelníky – formantová pásma prostřednictvím bodových XY grafů).
The paper focuses on the analysis of the vocal articulations of twenty announcers (10 women and 10 men) from the Czech (Czechoslovak) Radio. We used for this purpose the material of so called NAKI sound database (data come from 1970 to 1989). We focused specifically on the quality of czech vowels: Both short and long monophtong vowels were analyzed and the first two formant frequencies (called F1 and F2) were measured. We compared those two formant frequencies with the reference values of the Czech vowels. The results of this analysis are interpreted and suplemented by the data tables and charts; quantitative data are given for all vowels (mean, standard deviation, quartiles + minimum and maximum values and coefficient of variation).
CZE
Odborná studie věnující se analýze vokalických artikulací 20 moderátorů (10 žen a 10 mužů) Českého (resp. Československého) rozhlasu. Materiálově je analýza postavena na tzv. databázi NAKI, data pocházejí z let 1970 až 1989. Zaměřili jsme se na analýzu kvality českých krátkých i dlouhých vokálů (monoftongů), která se tradičně charakterizuje prostřednictvím hlavních rezonančních frekvencí – prvního a druhého formantu. Naměřené formantové hodnoty jsme následně porovnali s referenčními údaji (zejm. Palková, 1994). Výsledky studie jsou poté náležitě interpretovány. Naměřená data jsou prezentována v přehledových tabulkách a doplňujících grafech. Uvedeny jsou deskriptivněstatistické údaje pro všechny vokály bez rozdílu délky (průměr, směrodatná odchylka, kvartily + minimální a maximální hodnota a koeficient variace); pro vizualizace výsledků jsme využili krabicové a spojnicové grafy a tzv. bodové grafy XY prezentující vokalické trojúhelníky zkoumaných mluvčích. Studie ukázala korespondenci naměřených hodnot s údaji referenčními: formantová pole českých monoftongů (na materiálu zkoumaných mluvčích) byla poměrně dobře odlišena a nevykazovala výraznější tendence k zúžení či znatelnému prolínání (jež jsou charakteristických vývojovým znakem současné mluvní praxe).
The presented paper is a methodological study focused on forming the possibilities of small authors’ corpora for linguistic and literary research purposes. Special attention is paid to the format and structural annotation of data. The basic principles of the XML mark-up language are presented, which allows the user to create tags as required. The defined set of tags in Klíma’s corpus reflects both the structure of the text and Klíma’s specific style of writing, in particular certain typographic and orthographic features. Some basic options of data retrieval by means of corpus manager Manatee/Bonito are demonstrated and the basics of the query language syntax are explained.
CZE
Metodologická studie předkládající možnosti tvorby malých autorských korpusů pro lingvistické a literárněvědné účely. Pozornost je věnována zejména strukturální anotaci a formátu dat ve značkovacím jazyce XML, který umožňuje uživateli definovat vlastní sadu značek. Soubor značek v klímovském korpusu respektuje a reflektuje autorův specifický styl, zejm. typografické a ortografické jevy. Vysvětleny jsou rovněž některé základní možnosti práce s korpusem a vyhledávání dat v korpusovém manažeru Manatee/Bonito, včetně základů syntaxe vyhledávacího jazyka.
The text shows an interdisciplinary approach to the text and deals with technical possibilities of text (computer) processing, which enables by means of software tools to provide so called data retrieval, to perform statistical analysis and other processes according to preselected criteria and the basis of an annotation text. The first part is devoted to the most important corpus projects that are focused on the literary texts: Czech Electronic Library, corpus Intercorp, lexicographical dictionaries of Karel Čapek and Bohumil Hrabal. The second part represents the basic possibilities of creation of a small corpora, demonstrated on corpora of Otokar Březina and Ladislav Klíma, but first of all the usage of a corpus concordancer called AntConc during an analysis of (literary) texts: data retrieval, creating of alphabetic, or frequency dictionaries, etc.
CZE
Článek se zabývá interdisciplinárním přístupem k textu, zejména možnostmi jeho technického (počítačového) zpracování, jež umožňuje prostřednictvím softwarových nástrojů podle předem zvolených kritérií a na základě provedené anotace textu vyhledávat, provádět statistické analýzy ad. procesy. První část textu je věnována nejdůležitějším korpusovým projektům s literárněvědným zaměřením: Česká elektronická knihovna, korpus Intercorp, lexikografické slovníky Karla Čapka a Bohumila Hrabala. Příspěvek v druhé části představuje základní možnosti vytváření malých autorských korpusů – na příkladu korpusů Otokara Březiny či Ladislava Klímy, ale především praktické využití programu AntConc při analýze (literárních) textů: vyhledávání výrazů, generování abecedních či frekvenčních slovníků aj.
The study deals with musical notation and compares it with phonetic transcription of spoken language. The term of allovariant is borrowed from linguistics where it means the group of all variants belonging to one systemic unit. Some tones sound equally even though they have different names - we speak about enharmonic equivalents. In the system of musical notes we find interferences of three musical allovariants as each tone can be in tempered tuning named (and recorded) in three ways. This fact can be seen as phenomenon that linguistics calls homonymy or homophony - cases when words (language units) sound equally but are written differently: i.e. bít v. být in the Czech language, or C double sharp eguals D in music. Not only enharmonic equivalency but also the interference of allovariants can be seen as another case of analogy between music and natural language.
CZE
Studie se zabývá analogiemi mezi hudbou a řečí, věnuje se zejména srovnání systému notového záznamu a fonetické transkripce mluvené řeči. Lingvistický termín alovarianta vyjadřuje skupinu všech variant, které patří k jedné systémové jednotce. Některé tóny zvukově splývají, přestože se jinak jmenují a zapisují - mluvíme o enharmonické záměně. V hudebním systému nacházíme křížení tří hudebních alovariant, protože každý tón lze v temperovaném ladění pojmenovat (a zapsat) třemi různými způsoby. Tento fakt lze považovat za fenomén, který lingvistika zná pod pojmy homonymie nebo homofonie - případy, kdy slova (jazykové jednotky) stejně znějí, ale jinak se píší, tj. bít v. být v jazyce (češtině), nebo Cisis v. D v hudbě. Nejen enharmonickou záměnu, ale i křížení alovariant lze chápat jako další příklad analogie mezi hudbou a řečí.
This study presents the results of the author’s research project called Olomouc Corpus of Spoken Language (OCSL). The paper is focused on the state and partial phases of constructing the corpora, its methodology and annotation. Within the OCSL we use so called dual system of transcription, which means (1) an orthographic one with the purpose of linguistic (morphological) analysis and tagging and (2) a phonetic version of transcript which consists of three layers of the text: first the real transcription and further various types of the metatexts as a second and third layer, including communication aspects of the texts. The criteria of selection of speakers are also discussed there and the highly important statistical analysis of the sociolinguistic categories (gender, age, type of education, types of recordings) is presented as well. This analysis can serve as a base for a partial correction of possible non-balance among those sociolinguistic parameters. The annotation rules and principles are mentioned in the end of this study.
CZE
Tato studie prezentuje výsledky autorova výzkumného projektu s názvem Olomoucký korpus mluvené češtiny (OKMČ). Příspěvek se věnuje hlavním tématům i fázím budování korpusu, metodologii a anotaci korpusových dat. V rámci OKMČ byl vytvořen tzv. duální systém transkripce, kdy existuje (1) ortografická verze přepisu určená především pro další lingvistické zpracování - poloautomatickou morfologickou analýzu a značkování a (2) fonetický přepis, který se skládá ze tří vrstev: první vrstva je samotný přepis a další dvě vrstvy obsahují různé typy metadat a komunikačních aspektů textu. Diskutována jsou rovněž kritéria výběru mluvčích, prezentována je statistická analýza sociolingvistických kategorií (pohlaví, věk, typ vzdělání, typ komunikátu). Tato analýza může sloužit jako základ pro částečnou korekci případné nevyváženosti sociolingvistických parametrů. Na konci studie jsou uvedena pravidla anotace OKMČ.
The paper focuses on analyzing the quality of Czech monophthongs. The data for the analysis is mostly taken from the database NAKI (audio recordings of Czechoslovak and later Czech radio news). The probe analyzes and compares two studies of audio recordings that captured the speech patterns of radio and TV news presenters in four decades: (1) Naki1: 1970–1989 a (2) Naki2: 1990–2010. The comparison of data from both studies (Naki1 vs. Naki2) showed that vowel articulation changed within 40 years: Vowels from Dataset Naki1 are characterized by more stable pronunciation, distinction between individual sounds, and the absence of tendencies for approximation in formant ranges. The formant values of this set also match the reference data (Palková, 2014). On the other hand, the vowels of Naki2 confirms the tendencies listed in other recently published papers: formant ranges of the individual sounds are extending and getting closer, or even overlapping. Simultaneously, the data showed a certain difference between short and long vowels. The vowels are classified both qualitatively and statistically, and the results are visualized as graphs (box plots and vowel charts displaying formant ranges as XY points).
CZE
Tento příspěvek se zaměřuje na analýzu kvality českých vokálů (monoftongů). Data pocházejí z tzv. databáze NAKI (zvukový archiv Českého rozhlasu). Studie analyzuje a porovnává dvě sondy zahrnující nahrávky rozhlasových a televizních moderátorů (tzv. řečových vzorů) v období čtyř dekád: (1) Naki1: 1970–1989 a (2) Naki2: 1990–2010. Porovnáním naměřených výsledků z obou sond (Naki1 vs. Naki2) jsme zjistili poměrně zřetelné změny ve výslovnosti samohlásek zkoumaných moderátorů v průběhu sledovaných čtyř dekád. Dataset Naki1 se vyznačuje stabilnější výslovností jednotlivých vokálů, jež jsou zároveň mezi sebou poměrně zřetelně odlišeny a nevykazují tendence ke sbližování formantových polí. Hodnoty formantů korespondují s údaji referenčními (Palková, 2014). Sonda Naki2 naopak potvrzuje tendence evidované i v jiných odborných studiích z minulých let: formantová pole dílčích vokálů se nápadně rozšiřují a vzájemně sbližují, až prolínají. Zároveň data ukázala jistý rozdíl mezi krátkými vs. dlouhými vokály. Výsledky jsou prezentovány formou základních deskriptivněstatistických údajů pro všechny samohlásky, doplněné vizualizacemi a grafy (krabicové grafy, vokalické trojúhelníky – formantová pásma prostřednictvím bodových XY grafů).
The paper focuses on the analysis of the vocal articulations of twenty announcers (10 women and 10 men) from the Czech (Czechoslovak) Radio. We used for this purpose the material of so called NAKI sound database (data come from 1970 to 1989). We focused specifically on the quality of czech vowels: Both short and long monophtong vowels were analyzed and the first two formant frequencies (called F1 and F2) were measured. We compared those two formant frequencies with the reference values of the Czech vowels. The results of this analysis are interpreted and suplemented by the data tables and charts; quantitative data are given for all vowels (mean, standard deviation, quartiles + minimum and maximum values and coefficient of variation).
CZE
Odborná studie věnující se analýze vokalických artikulací 20 moderátorů (10 žen a 10 mužů) Českého (resp. Československého) rozhlasu. Materiálově je analýza postavena na tzv. databázi NAKI, data pocházejí z let 1970 až 1989. Zaměřili jsme se na analýzu kvality českých krátkých i dlouhých vokálů (monoftongů), která se tradičně charakterizuje prostřednictvím hlavních rezonančních frekvencí – prvního a druhého formantu. Naměřené formantové hodnoty jsme následně porovnali s referenčními údaji (zejm. Palková, 1994). Výsledky studie jsou poté náležitě interpretovány. Naměřená data jsou prezentována v přehledových tabulkách a doplňujících grafech. Uvedeny jsou deskriptivněstatistické údaje pro všechny vokály bez rozdílu délky (průměr, směrodatná odchylka, kvartily + minimální a maximální hodnota a koeficient variace); pro vizualizace výsledků jsme využili krabicové a spojnicové grafy a tzv. bodové grafy XY prezentující vokalické trojúhelníky zkoumaných mluvčích. Studie ukázala korespondenci naměřených hodnot s údaji referenčními: formantová pole českých monoftongů (na materiálu zkoumaných mluvčích) byla poměrně dobře odlišena a nevykazovala výraznější tendence k zúžení či znatelnému prolínání (jež jsou charakteristických vývojovým znakem současné mluvní praxe).
The presented paper is a methodological study focused on forming the possibilities of small authors’ corpora for linguistic and literary research purposes. Special attention is paid to the format and structural annotation of data. The basic principles of the XML mark-up language are presented, which allows the user to create tags as required. The defined set of tags in Klíma’s corpus reflects both the structure of the text and Klíma’s specific style of writing, in particular certain typographic and orthographic features. Some basic options of data retrieval by means of corpus manager Manatee/Bonito are demonstrated and the basics of the query language syntax are explained.
CZE
Metodologická studie předkládající možnosti tvorby malých autorských korpusů pro lingvistické a literárněvědné účely. Pozornost je věnována zejména strukturální anotaci a formátu dat ve značkovacím jazyce XML, který umožňuje uživateli definovat vlastní sadu značek. Soubor značek v klímovském korpusu respektuje a reflektuje autorův specifický styl, zejm. typografické a ortografické jevy. Vysvětleny jsou rovněž některé základní možnosti práce s korpusem a vyhledávání dat v korpusovém manažeru Manatee/Bonito, včetně základů syntaxe vyhledávacího jazyka.
The text shows an interdisciplinary approach to the text and deals with technical possibilities of text (computer) processing, which enables by means of software tools to provide so called data retrieval, to perform statistical analysis and other processes according to preselected criteria and the basis of an annotation text. The first part is devoted to the most important corpus projects that are focused on the literary texts: Czech Electronic Library, corpus Intercorp, lexicographical dictionaries of Karel Čapek and Bohumil Hrabal. The second part represents the basic possibilities of creation of a small corpora, demonstrated on corpora of Otokar Březina and Ladislav Klíma, but first of all the usage of a corpus concordancer called AntConc during an analysis of (literary) texts: data retrieval, creating of alphabetic, or frequency dictionaries, etc.
CZE
Článek se zabývá interdisciplinárním přístupem k textu, zejména možnostmi jeho technického (počítačového) zpracování, jež umožňuje prostřednictvím softwarových nástrojů podle předem zvolených kritérií a na základě provedené anotace textu vyhledávat, provádět statistické analýzy ad. procesy. První část textu je věnována nejdůležitějším korpusovým projektům s literárněvědným zaměřením: Česká elektronická knihovna, korpus Intercorp, lexikografické slovníky Karla Čapka a Bohumila Hrabala. Příspěvek v druhé části představuje základní možnosti vytváření malých autorských korpusů – na příkladu korpusů Otokara Březiny či Ladislava Klímy, ale především praktické využití programu AntConc při analýze (literárních) textů: vyhledávání výrazů, generování abecedních či frekvenčních slovníků aj.
The study deals with musical notation and compares it with phonetic transcription of spoken language. The term of allovariant is borrowed from linguistics where it means the group of all variants belonging to one systemic unit. Some tones sound equally even though they have different names - we speak about enharmonic equivalents. In the system of musical notes we find interferences of three musical allovariants as each tone can be in tempered tuning named (and recorded) in three ways. This fact can be seen as phenomenon that linguistics calls homonymy or homophony - cases when words (language units) sound equally but are written differently: i.e. bít v. být in the Czech language, or C double sharp eguals D in music. Not only enharmonic equivalency but also the interference of allovariants can be seen as another case of analogy between music and natural language.
CZE
Studie se zabývá analogiemi mezi hudbou a řečí, věnuje se zejména srovnání systému notového záznamu a fonetické transkripce mluvené řeči. Lingvistický termín alovarianta vyjadřuje skupinu všech variant, které patří k jedné systémové jednotce. Některé tóny zvukově splývají, přestože se jinak jmenují a zapisují - mluvíme o enharmonické záměně. V hudebním systému nacházíme křížení tří hudebních alovariant, protože každý tón lze v temperovaném ladění pojmenovat (a zapsat) třemi různými způsoby. Tento fakt lze považovat za fenomén, který lingvistika zná pod pojmy homonymie nebo homofonie - případy, kdy slova (jazykové jednotky) stejně znějí, ale jinak se píší, tj. bít v. být v jazyce (češtině), nebo Cisis v. D v hudbě. Nejen enharmonickou záměnu, ale i křížení alovariant lze chápat jako další příklad analogie mezi hudbou a řečí.
This study presents the results of the author’s research project called Olomouc Corpus of Spoken Language (OCSL). The paper is focused on the state and partial phases of constructing the corpora, its methodology and annotation. Within the OCSL we use so called dual system of transcription, which means (1) an orthographic one with the purpose of linguistic (morphological) analysis and tagging and (2) a phonetic version of transcript which consists of three layers of the text: first the real transcription and further various types of the metatexts as a second and third layer, including communication aspects of the texts. The criteria of selection of speakers are also discussed there and the highly important statistical analysis of the sociolinguistic categories (gender, age, type of education, types of recordings) is presented as well. This analysis can serve as a base for a partial correction of possible non-balance among those sociolinguistic parameters. The annotation rules and principles are mentioned in the end of this study.
CZE
Tato studie prezentuje výsledky autorova výzkumného projektu s názvem Olomoucký korpus mluvené češtiny (OKMČ). Příspěvek se věnuje hlavním tématům i fázím budování korpusu, metodologii a anotaci korpusových dat. V rámci OKMČ byl vytvořen tzv. duální systém transkripce, kdy existuje (1) ortografická verze přepisu určená především pro další lingvistické zpracování - poloautomatickou morfologickou analýzu a značkování a (2) fonetický přepis, který se skládá ze tří vrstev: první vrstva je samotný přepis a další dvě vrstvy obsahují různé typy metadat a komunikačních aspektů textu. Diskutována jsou rovněž kritéria výběru mluvčích, prezentována je statistická analýza sociolingvistických kategorií (pohlaví, věk, typ vzdělání, typ komunikátu). Tato analýza může sloužit jako základ pro částečnou korekci případné nevyváženosti sociolingvistických parametrů. Na konci studie jsou uvedena pravidla anotace OKMČ.
The book offers a systematic insight into the issue of language data processing and data mining. The text is focused on the basics of technical data processing (esp. structural and linguistic annotation, XML markup language, the possibility of (semi) automatic segmentation and tagging of texts), and on this basis presents methods and possibilities of algorithmic search patterns using CQL (Corpus Query Language).
CZE
Metodologický text sumarizující a promýšlející moderní vědecké nástroje, bez nichž se neobejde žádný současný lingvista. Monografie těží z autorova dlouhodobého angažmá v korpusové lingvistice, ale přesahuje ji směrem k počítačovému a technickému zpracování lingvistických dat obecně.
Kniha nabízí systematický vhled do problematiky technického zpracování jazykových dat, efektivního vytěžování dat a prezentuje možnosti a prostředky, jak sestavit vlastní textovou databázi (jazykový korpus).
Mezi nejdůležitější části textu patří pasáže zaměřené na anotaci a technické aspekty tvorby korpusů, zejm. na formát dat a kódování znaků, segmentaci textu či využití značkovacího jazyka XML, jenž v současnosti představuje nejrozšířenější mezinárodní standard pro anotaci korpusových databází. Prezentovány jsou rovněž vybrané softwarové nástroje pro vytěžování korpusových dat, od nejjednodušších aplikací určených pro dílčí či základní korpusové operace až po komplexní korpusové nástroje. Technicky nejnáročnějšími pasážemi monografie jsou pak kapitoly, jež se věnují možnostem automatického zpracování textu do strukturované databáze prostřednictvím softwarových nástrojů a počítačových skriptů. Postupně tak jsou v monografii představeny všechny fáze počítačového zpracování dat: nastavení či konverze kódování znaků, konců řádků i souborového formátu, segmentace či tokenizace textu, jeho zpracování do některého z korpusových formátů (např. do tzv. vertikály), proces anotace různého typu a rozsahu (zejm. lemmatizace a taggování) atd.
Tato kapitola prezentuje výsledky kvantitativní analýzy více než 500 textů Václava Havla rozčleněných do 11 textových kategorií. Prostřednictvím několika vybraných metod jsme sledovali, jak se Havlovy texty promítají na pozadí funkčních stylů češtiny. Konkrétně jsme měřili vzdálenost sloves v syntaktických strukturách prostřednictvím indexu VD, dále tzv. aktivitu a deskriptivitu textu (Q/D index) vyjadřující poměr slovníku adjektiv (jako statických, deskriptivních jazykových příznaků) a slovníku sloves (jako jazykových příznaků dynamických). Naměřená data jsme porovnali s referenční databází funkčních stylů češtiny obsahující celkem 120 textů (každý styl byl zastoupen 20 texty). V druhé části jsme provedli stylometrickou analýzu textů dvěma metodami: hierarchickou analýzou klastrů a analýzou hlavních komponent. Tato prvotní kvantitativní analýza textů Václava Havla ukázala, že se v jeho textech promítají především styl umělecký (drama/poezie), a řečnický (eseje/projevy).
EN
This chapter presents the results of a quantitative analysis of more than 500 texts written by Václav Havel, divided into a total of 11 textual categories. Using several methods, we compared these data with texts representing functional styles of the Czech language. Specifically, we measured the distance of verbs in syntactic structures (VD index), as well as the so-called activity and descriptiveness of the text (Q/D index), expressing the ratio of the adjective vocabulary (as static, descriptive linguistic features) and the verb vocabulary (as dynamic linguistic features). We compared the measured data with a reference database, the corpus of functional styles, which contains 120 texts, with 20 texts representing a single style. In the second part, we performed a stylometric analysis of the texts using two methods: hierarchical cluster analysis and principal component analysis. This initial quantitative analysis of Václav Havel's texts showed that his texts mainly reflect the poetic (drama/poetry) and rhetorical (essays/speeches) styles.
This study presents a project of the Czech translations of the Bible from the period 1775-1875. One of the aims of this corpus is to document the development of the Czech literary language in the period of the National Revival. The text presents and summarizes the results of the preparatory phase of the project, when it is necessary to solve a number of theoretical and practical problems.
GER
Am Lehrstuhl für Bohemistik der Philosophischen Fakultät der Olmützer Palacký-Universität entsteht z. Z. eine Reihe von Korpora, die die Entwicklung der tschechischen Schriftsprache in der Zeit der tschechischen nationalen Wiedergeburt (etwa 1775–1875) dokumentieren sollen. Zu ihnen gehört auch ein Korpus der tschechischen Bibelübersetzungen dieser Epoche. Das Projekt befindet sich noch im Stadium der Vorbereitung, so dass keine fertigen Ergebnisse vorliegen. Noch vor dem Beginn der eigentlichen Arbeit am Korpus müssen die Bibeln dieser Zeit bibliographisch erfasst und zahlreiche theoretische und praktische Probleme aus den Bereichen der Korpuslinguistik und Korpusinformatik gelöst werden. Im Aufsatz werden die bisherigen Ergebnisse der Vorbereitungsphase zusammengefasst.
CZE
Studie prezentuje projekt českých překladů Bible z období let 1775 až 1875. Jedním z cílů tohoto korpusového projektu je dokumentovat vývoj českého spisovného jazyka v období českého národního obrození. Text prezentuje a shrnuje výsledky přípravné fáze projektu, kdy je třeba vyřešit řadu teoretických i praktických problémů.