Créer une nouvelle revue est une aventure, stimulante certes, mais risquée aussi, et particulièrement gourmande en temps et en énergie. Il y faut donc de bonnes raisons. Au nombre de celles qui nous ont poussés à créer se trouve le constat que la linguistique de corpus, actuellement très en vogue, ne disposait d'aucun périodique qui lui fût spécifiquement consacré. Les ouvrages collectifs, les manuels de haut niveau, les numéros spéciaux fleurissent, mais de revue régulière, point. L'UMR « B.
Ce recueil rassemble les textes des communications faites au deuxième séminaire de la « Escuela interlatina de altos Estudios en Lingüística aplicada », qui s’est tenu à San Millán de la Cogolla en septembre 2000 et dont le thème, en cette année mondiale des mathématiques, était précisément : Matemáticas y Tratamiento de Corpus. Après un prologue assez général de A. M. Municio, les vingt exposés sont répartis en quatre chapitres correspondant aux différentes sessions du séminaire : 1. Quanti..
Ce volume d’hommage s’ouvre, après l’introduction des coordinateurs, par quelques pages de reproductions iconographiques (enluminures, manuscrits médiévaux) en lien avec certains centres d’intérêt de C. Marchello-Nizia, suivies de la liste de ses publications, puis d’un récit à trois mains dans lequel Bernard Cerquiglini, Jacqueline Cerquiglini-Toulet et Michèle Perret évoquent la constitution et la vie du Groupe de Linguistique romane (1971-1980) fondé en grande partie à l’instigation de C. ..
Ce recueil d’articles fait suite à une journée d’étude organisée à Tours en janvier 2008 et qui avait pour objectif de décrire comment le discours, appréhendé à travers des études de corpus, devient un lieu majeur de l’analyse linguistique et un observatoire de certains faits langagiers susceptibles d’être théorisés comme phénomènes sociaux. Les cadres théoriques sollicités sont variés, mais relèvent tous peu ou prou à la fois du courant énonciativiste francophone et de l’école française de l..
Cet article essaye d’évaluer l’impact de la lemmatisation, ou, inversement, de la flexion casuelle sur les réseaux cooccurrentiels d’un mot-pôle en latin. Conjointement, il exploite cet impact pour approfondir l’examen de l’asymétrie des relations de cooccurrence.Nos précédents articles méthodologiques, consacrés notamment à l’asymétrie de la cooccurrence, reposaient en effet sur le dénombrement des cooccurrents d’un mot-pôle considéré et décompté sous sa forme de lemme. Or, si la cooccurrence est bien la « forme minimale du contexte » [Mayaffre 2008] qui contribue (...) à construire le sens textuel, la question se pose alors de la pertinence de l’abstraction opérée par la lemmatisation. Les différentes formes fléchies d’un mot en latin sont porteuses non seulement des catégories du nombre (et, pour les adjectifs et les pronoms, du genre), mais aussi de marques casuelles étroitement reliées à la fonction syntaxique et l’ensemble est susceptible d’avoir une influence sur le contexte immédiat du mot, y compris dans sa dimension thématique.Nous montrons donc dans un premier temps que la forme casuelle d’un mot latin détermine pour une bonne part la liste de ses cooccurrents spécifiques. Nous exploitons ensuite ce constat pour confirmer, au moyen de deux tests différents qui utilisent le réseau cooccurrentiel des diverses formes fléchies d’un même lemme, une hypothèse précédemment avancée [Luong et al. 2010] selon laquelle l’asymétrie des cooccurrences est, pour partie au moins, une image de la double insertion d’une forme, d’une part, dans un paradigme lexico-sémantique stabilisée en langue, d’autre part, dans un réseau de relations syntagmatiques actualisées en discours. (shrink)
Cette livraison de la revue Langages semble avoir un objectif éditorial officiel, affiché dans son titre, consistant à porter un regard réflexif et critique sur les apports et les limites des (grands) corpus à divers domaines de l’analyse linguistique, et un objectif profond, moins immédiatement perceptible mais sans doute premier dans l’esprit des coordinateurs et particulièrement de Marcel Cori, consistant à remettre à sa juste place la linguistique de corpus accusée d’avoir des ambitions h..
Le prospectus publicitaire de cet ouvrage collectif annonce que « les éditeurs ont conçu ce recueil comme un outil de travail pour les étudiants et chercheurs en linguistique ». Etonnante conception de l’outil de travail, que celle d’éditeurs scientifiques qui ne prennent pas la peine d’offrir au lecteur un chapitre introductif de présentation et qui, par là-même, ne définissent ni ne justifient aucun des termes du titre de l’ouvrage. Pourtant la notion d’altérité est loin d’être obvie : Jean..
Le calcul de distance entre les textes a le plus souvent été effectué à partir du dénombrement des données lexicales ; nous nous proposons ici d’abord de tester la possibilité d’appliquer l’un des calculs disponibles de distance à des paramètres grammaticaux, puis de proposer notre propre méthode à partir, non pas d’un tableau de contingences, mais d’un tableau de classement ordinal. Les textes soumis au calcul sont des textes latins empruntés à un corpus lemmatisé et étiqueté. Les différents résultats sont (...) comparés et leur pertinence est évaluée au regard d’un savoir philologique préalable. (shrink)
1. ProlégomènesL’usage de méthodes mathématiques pour traiter de données textuelles a une longue tradition. On se souvient que c’est en étudiant Pouchkine que Markov a élaboré ses chaînes. La linguistique mathématique (qui dépasse de très loin l’analyse des données textuelles) a connu un peu partout un essor important et a fourni des modèles à bon nombre de travaux portant sur le langage (Chomsky, Harris, Montague, …). On connaît aussi, via des mathématiques fort sophistiquées, la profonde in..
Cet article essaye d’évaluer l’impact de la lemmatisation, ou, inversement, de la flexion casuelle sur les réseaux cooccurrentiels d’un mot-pôle en latin. Conjointement, il exploite cet impact pour approfondir l’examen de l’asymétrie des relations de cooccurrence.Nos précédents articles méthodologiques, consacrés notamment à l’asymétrie de la cooccurrence, reposaient en effet sur le dénombrement des cooccurrents d’un mot-pôle considéré et décompté sous sa forme de lemme. Or, si la cooccurrence est bien la « forme minimale du contexte » [Mayaffre 2008] qui contribue (...) à construire le sens textuel, la question se pose alors de la pertinence de l’abstraction opérée par la lemmatisation. Les différentes formes fléchies d’un mot en latin sont porteuses non seulement des catégories du nombre (et, pour les adjectifs et les pronoms, du genre), mais aussi de marques casuelles étroitement reliées à la fonction syntaxique et l’ensemble est susceptible d’avoir une influence sur le contexte immédiat du mot, y compris dans sa dimension thématique.Nous montrons donc dans un premier temps que la forme casuelle d’un mot latin détermine pour une bonne part la liste de ses cooccurrents spécifiques. Nous exploitons ensuite ce constat pour confirmer, au moyen de deux tests différents qui utilisent le réseau cooccurrentiel des diverses formes fléchies d’un même lemme, une hypothèse précédemment avancée [Luong et al. 2010] selon laquelle l’asymétrie des cooccurrences est, pour partie au moins, une image de la double insertion d’une forme, d’une part, dans un paradigme lexico-sémantique stabilisée en langue, d’autre part, dans un réseau de relations syntagmatiques actualisées en discours. (shrink)
Le calcul de distance entre les textes a le plus souvent été effectué à partir du dénombrement des données lexicales ; nous nous proposons ici d’abord de tester la possibilité d’appliquer l’un des calculs disponibles de distance à des paramètres grammaticaux, puis de proposer notre propre méthode à partir, non pas d’un tableau de contingences, mais d’un tableau de classement ordinal. Les textes soumis au calcul sont des textes latins empruntés à un corpus lemmatisé et étiqueté. Les différents résultats sont (...) comparés et leur pertinence est évaluée au regard d’un savoir philologique préalable. (shrink)
Pour sa dixième livraison, la revue CORPUS offre à ses lecteurs, après neuf numéros strictement thématiques, un volume de varia. Le comité de rédaction a souhaité en effet laisser le champ libre aux soumissions spontanées, de plus en plus nombreuses, et par là même donner un aperçu diversifié des recherches actuelles dans le champ couvert par la revue. En réalité, en dépit de cette ouverture, cette livraison ne saurait prétendre à l’exhaustivité : nous n’avons reçu, par exemple, aucune propos..