Université d'Avignon
Laboratoire Informatique d'Avignon
Nowadays automatic systems for detecting and measuring textual similarity are being developed, in order to apply them to different tasks in the field of Natural Language Processing (NLP). Currently, these systems use surface linguistic... more
Nowadays automatic systems for detecting and measuring textual similarity are being developed, in order to apply them to different tasks in the field of Natural Language Processing (NLP). Currently, these systems use surface linguistic features or statistical information. Nowadays, few researchers use deep linguistic information. In this work, we present an algorithm for detecting and measuring textual similarity that takes into account information offered by discourse relations of Rhetorical Structure Theory (RST), and lexical-semantic relations included in EuroWordNet. We apply the algorithm, called SIMTEX, to texts written in Spanish, but the methodology is potentially language-independent.
In this article we present the RST Spanish Treebank, the first corpus annotated with rhetorical relations for this language. We describe the characteristics of the corpus, the annotation criteria, the annotation procedure, the... more
In this article we present the RST Spanish Treebank, the first corpus annotated with rhetorical relations for this language. We describe the characteristics of the corpus, the annotation criteria, the annotation procedure, the inter-annotator agreement, and other related aspects. Moreover, we show the interface that we have developed to carry out searches over the corpus' annotated texts. 1
- by Juan-Manuel Torres-Moreno and +1
- •
Previous works demonstrated that Automatic Text Summarization (ATS) by sentences extraction may be improved using sentence compression. In this work we present a sentence compressions approach guided by level-sentence discourse... more
Previous works demonstrated that Automatic Text Summarization (ATS) by sentences extraction may be improved using sentence compression. In this work we present a sentence compressions approach guided by level-sentence discourse segmentation and probabilistic language models (LM). The results presented here show that the proposed solution is able to generate coherent summaries with grammatical compressed sentences. The approach is simple enough to be transposed into other languages.
- by Gerardo Sierra and +1
- •
@Book{wDE:2009, editor = {Gerardo Sierra and Mara Pozzi and Juan-Manuel Torres}, title = {Proceedings of the 1st Workshop on Definition Extraction}, month = {September}, year = {2009}, address = {Borovets, Bulgaria}, publisher =... more
@Book{wDE:2009, editor = {Gerardo Sierra and Mara Pozzi and Juan-Manuel Torres}, title = {Proceedings of the 1st Workshop on Definition Extraction}, month = {September}, year = {2009}, address = {Borovets, Bulgaria}, publisher = {Association for Computational Linguistics ...
- by Juan-Manuel Torres-Moreno and +2
- •
In this paper we revisit the Textual Energy model. We deal with the two major disadvantages of the Textual Energy: the asymmetry of the distribution and the unboundedness of the maximum value. Although this model has been successfully... more
In this paper we revisit the Textual Energy model. We deal with the two major disadvantages of the Textual Energy: the asymmetry of the distribution and the unboundedness of the maximum value. Although this model has been successfully used in several NLP tasks like summarization, clustering and sentence compression, no correction of these problems has been proposed until now. Concerning the maximum value, we analyze the computation of Textual Energy matrix and we conclude that energy values are dominated by the lexical richness in quadratic growth of the vocabulary size. Using the Box-Cox transformation, we show empirical evidence that a log transformation could correct both problems.
- by Gerardo Sierra and +1
- •
Earlier studies have raised the possibility of summarizing at the level of the sentence. This simplification should help in adapting textual content in a limited space. Therefore, sentence compression is an important resource for... more
Earlier studies have raised the possibility of summarizing at the level of the sentence. This simplification should help in adapting textual content in a limited space. Therefore, sentence compression is an important resource for automatic summarization systems. However, ...
- by Gerardo Sierra and +1
- •
- Artificial
This paper presents some experiments of evaluation of a statistical stemming algorithm based on morphological segmentation. The method estimates affixality of word fragments. It combines three indexes associated to possible cuts. This... more
This paper presents some experiments of evaluation of a statistical stemming algorithm based on morphological segmentation. The method estimates affixality of word fragments. It combines three indexes associated to possible cuts. This unsupervised and language-independent method has been easily adapted to generate an effective morphological stemmer. This stemmer has been coupled with Cortex, an automatic summarization system, in order to generate summaries in English, Spanish and French. Summaries have been evaluated using ROUGE. The results of this extrinsic evaluation show that our stemming algorithm outperforms several classical systems.
- by Juan-Manuel Torres-Moreno and +1
- •
Nous présentons des modèles d'apprentissage probabilistes appliqués à la tâche de classification telle que définie dans le cadre du défi DEFT07 : la classification d'un texte suivant l'opinion qu'il exprime. Pour classer les textes, nous... more
Nous présentons des modèles d'apprentissage probabilistes appliqués à la tâche de classification telle que définie dans le cadre du défi DEFT07 : la classification d'un texte suivant l'opinion qu'il exprime. Pour classer les textes, nous avons utilisé plusieurs classifieurs et une fusion. Une comparaison entre les résultats en validation et en tests montrent une coïncidence remarquable, et mettent en évidence la robustesse et performances de la fusion que nous proposons. Les résultats que nous obtenons, en termes de précision, rappel et F -score sur les sous corpus de test sont très encourageants. Mots-clés : Méthodes probabilistes, Apprentissage automatique, Classification de textes par leur contenu, défi DEFT.
- by M. El-bèze and +1
- •
The pivot shift test reproduces a complex instability of the knee joint following rupture of the anterior cruciate ligament. The grade of the pivot shift test has been shown to correlate to subjective criteria of knee joint function,... more
The pivot shift test reproduces a complex instability of the knee joint following rupture of the anterior cruciate ligament. The grade of the pivot shift test has been shown to correlate to subjective criteria of knee joint function, return to physical activity and long-term outcome. This severity is ...
Abstract: To select the most relevant sentences of a document, it uses an optimal decision algorithm that combines several metrics. The metrics processes, weighting and extract pertinence sentences by statistical and informational... more
Abstract: To select the most relevant sentences of a document, it uses an optimal decision algorithm that combines several metrics. The metrics processes, weighting and extract pertinence sentences by statistical and informational algorithms. This technique might improve a Question-Answering system, whose function is to provide an exact answer to a question in natural language. In this paper, we present the results obtained by coupling the Cortex summarizer with a Question-Answering system (QAAS). Two configurations have ...
RÉSUMÉ. Dans cet article, nous présentons une discussion sur la définition d'un score de compacité pour permettre l'extraction d'une réponse dans un système de Questions/Réponses. Ce score de compacité qui peut être... more
RÉSUMÉ. Dans cet article, nous présentons une discussion sur la définition d'un score de compacité pour permettre l'extraction d'une réponse dans un système de Questions/Réponses. Ce score de compacité qui peut être succinctement décrit comme une fonction liée a la densité des termes de la question dans le voisinage d'une réponse candidate, est présenté en détail. Ensuite, une discussion nous amène à envisager une extension de ce score, initialement défini d'un point de vue positionnel, vers un modèle ...
- by Juan-Manuel Torres-Moreno and +1
- •
Dans cet article, nous présentons des applications du système Enertex au Traitement Automatique de la Langue Naturelle. Enertex est basé sur l'énergie textuelle, une approche par réseaux de neurones inspirée de la physique statistique des... more
Dans cet article, nous présentons des applications du système Enertex au Traitement Automatique de la Langue Naturelle. Enertex est basé sur l'énergie textuelle, une approche par réseaux de neurones inspirée de la physique statistique des systèmes magnétiques. Nous avons appliqué cette approche aux problèmes du résumé automatique multi-documents et de la détection de frontières thématiques. Les résultats, en trois langues : anglais, espagnol et français, sont très encourageants.
Nous présentons une palette de modèles probabilistes que nous avons employés dans le cadre du défi DEFT'05. La tâche proposée conjuguait deux problématiques distinctes du Traitement Automatique du Langage : l'identification de l'auteur... more
Nous présentons une palette de modèles probabilistes que nous avons employés dans le cadre du défi DEFT'05. La tâche proposée conjuguait deux problématiques distinctes du Traitement Automatique du Langage : l'identification de l'auteur (au sein de discours de Jacques Chirac, a pu être insérée une séquence de phrases de François Mitterrand) et la détection de ruptures thématiques (les thèmes abordés par les deux auteurs sont censés être différents). Pour identifier la paternité de ces séquences, nous avons utilisé des chaînes de Markov, des modèles bayésiens, et des procédures d'adaptation de ces modèles. Pour ce qui est des ruptures thématiques, nous avons appliqué une méthode probabiliste modélisant la cohérence interne des discours. Son ajout améliore les performances. Une comparaison avec diverses approches montre la supériorité d'une stratégie combinant apprentissage, cohérence et adaptation. Les résultats que nous obtenons, en termes de précision (0,890), rappel (0,955) et Fscore (0,925) sur le sous-corpus de test sont très encourageants.
Nous présentons des modèles d'apprentissage probabilistes appliqués à la tâche de classification telle que définie dans le cadre du défi DEFT'07 : la classification d'un texte suivant l'opinion qu'il exprime. Pour classer les textes, nous... more
Nous présentons des modèles d'apprentissage probabilistes appliqués à la tâche de classification telle que définie dans le cadre du défi DEFT'07 : la classification d'un texte suivant l'opinion qu'il exprime. Pour classer les textes, nous avons utilisé plusieurs classifieurs et une fusion. Une comparaison entre les résultats en validation et en tests montrent une coïncidence remarquable et mettent en évidence la robustesse et performances de l'algorithme de fusion. Les résultats que nous obtenons, en termes de précision, rappel et F -score sur les sous corpus de test nous ont permis de remporter le défi. We present probabilistic learning models applied to sentiment classification task as defined in the DEFT'08 challenge. In this task, the texts must be classified following theirs opinions. We have used a mix of several classifiers. A comparison between the results and validation tests shows a remarkable coincidence and highlight the robustness and performance of our mixture algorithm. Our results, (precision, recall and F -score) on the test corpus, enabled us to win the challenge.
We present SMMR, a scalable sentence scoring method for query-oriented update summarization. Sentences are scored thanks to a criterion combining query relevance and dissimilarity with already read documents (history). As the amount of... more
We present SMMR, a scalable sentence scoring method for query-oriented update summarization. Sentences are scored thanks to a criterion combining query relevance and dissimilarity with already read documents (history). As the amount of data in history increases, non-redundancy is prioritized over query-relevance. We show that SMMR achieves promising results on the DUC 2007 update corpus.
This paper presents a User-Oriented Multi-Document Update Summarization system based on a maximization-minimization approach. Our system relies on two main concepts. The first one is the cross summaries sentence redundancy removal which... more
This paper presents a User-Oriented Multi-Document Update Summarization system based on a maximization-minimization approach. Our system relies on two main concepts. The first one is the cross summaries sentence redundancy removal which tempt to limit the redundancy of information between the update summary and the previous ones. The second concept is the newness of information detection in a cluster of documents. We try to adapt the clustering technique of bag of words extraction to a topic enrichment method that extend the topic with unique information. In the DUC 2007 update evaluation, our system obtained very good results in both automatic and human evaluations.