L’informatique : le prétendu dossier « scientifique »

Questions de lexicométrie

Une rapide orientation pour le visiteur pressé

Le calcul de la distance intertextuelle proposé en 2001 par Dominique et Cyril Labbé aurait l’avantage, selon ses auteurs, non seulement de mesurer la similitude entre des textes, mais, lorsque l’indice obtenu atteint certaines valeurs, d’établir la paternité des textes considérés. C’est par cette méthode qu’ils prétendent être parvenus à démontrer que Pierre Corneille serait l’auteur de la plupart des comédies de Molière. Cet indice, fondé sur les seules données lexicales, et étalonné empiriquement à partir d’un corpus ne comportant qu’un nombre limité de textes du XVIIe siècle, a fait l’objet de réserves et de critiques de la part de tous les autres spécialistes de statistiques lexicales. Ces réserves et critiques ont porté :

D’autres études quantitatives portant sur la métrique (Valérie Beaudouin et François Yvon, «Contribution de la métrique à la stylométrie»), sur les mots placés à la rime (Charles Bernet, « Hasards de la rime)  » ou sur la répartition des caractères textuels (Stephan Vonfelt, « Le graphonaute ou Molière retrouvé») mettent en évidence des différences manifestes entre les deux auteurs.

Le lecteur qui voudra en savoir un peu plus sur la pathétique impasse dans laquelle s’est enfermé D. Labbé, devenu un des plus fervents disciples de Pierre Louÿs, pourra lire la page suivante. Il y retrouvera les liens vers les principaux travaux qui invalident les analyses et les conclusions de D. Labbé, en particulier la récente étude de Ch. Bernet, citée ci-dessus (« La distance intertextuelle et le théâtre du Grand Siècle »), dont la conclusion principale est sans appel :

Les expériences rapportées dans ce travail invalident les conclusions de Cyril et Dominique Labbé et montrent que la lexicologie quantitative n’apporte pas d’arguments en faveur des « intuitions » de Pierre Louÿs.

Histoire d’une impasse

Vers la fin du XXe siècle, un chercheur de l’Institut d’Études Politiques de Grenoble, Dominique Labbé, a développé des enquêtes en paternité fondées sur des statistiques lexicales. Son algorithme mis au point, il en a démontré la fiabilité en se livrant à de nombreuses expériences d’attribution d’auteur en aveugle, toujours avec succès : romanciers anglais du XIXe siècle, textes politiques du XXe siècle ont ainsi paru démontrer la fiabilité de la méthode.

Persuadé de l’importance de sa découverte, D. Labbé a cherché vers qui il pourrait se tourner pour assurer la plus grande publicité possible à son travail, et il a appris l’existence de la trouvaille de Louÿs, reprise textuellement quarante ans plus tard par Henry Poulaille (qui avait racheté une partie de ses manuscrits), et sommairement résumée par Hippolyte Wouters, un avocat belge qui a vu là l’occasion de taquiner l’insupportable sentiment de supériorité des Français. Au lieu d’adopter l’approche scientifique qu’on aurait attendue de la part d’un chercheur universitaire travaillant dans un laboratoire lié au CNRS et qui aurait consisté à consulter les spécialistes d’une des disciplines dont relève l’étude de Molière (historiens de la littérature et/ou du théâtre) pour savoir que penser des travaux de Louÿs et de ses deux successeurs, ou pour s’enquérir auprès d’eux si les pièces de théâtre en alexandrins du XVIIe siècle ne mettaient pas en jeu un vocabulaire et des tournures spécifiques qui pouvaient rendre difficile l’application de son algorithme sur des textes de ce type, D. Labbé s’est jeté sur cette affaire pour « prouver » qu’il avait trouvé le moyen infaillible de faire reconnaître l’auteur d’un texte à partir du seul lexique.

Dépourvu de toute compétence en littérature, et fort de sa seule compétence en statistiques lexicales (que personne, même aujourd’hui, ne lui conteste), il a cru qu’il n’y avait pas de différence entre la prose et les vers, expliquant alors que les textes versifiés n’avaient pour toute spécificité que le fait d’avoir une majuscule en tête de chaque vers et qu’il suffisait donc d’ôter ces majuscules pour se retrouver devant l’équivalent d’un texte en prose !!!…

En outre, décidé à vérifier la trouvaille de Louÿs, il a pensé naïvement que pour savoir si c’est bien Corneille qui a écrit les pièces de Molière, il suffisait de lancer son algorithme sur les seules pièces de Corneille et de Molière. Et, comme on pouvait s’y attendre, son algorithme a permis de relever qu’il y avait bel et bien des ressemblances lexicales entre deux comédies de Corneille écrites durant la première moitié de la décennie 1640 et les pièces de Molière publiées une vingtaine d’années plus tard.

Malheureusement, loin de faire preuve de la prudence des autres spécialistes de lexicométrie en matière de « distance » entre les textes — voir l’étude de Étienne Brunet — il a aussitôt prétendu triomphalement qu’il avait « prouvé » l’intuition de Louÿs grâce à une démarche « scientifique ».

Or la méthodologie qu’il a adoptée n’a rien de scientifique.

a – Partant du principe que, lorsque la « distance intertextuelle » entre deux textes est nulle (égale à zéro), on est en présence de la même œuvre ou de deux œuvres du même auteur, la méthode consiste à mesurer les écarts. D. Labbé a estimé que pour seize pièces de Molière, les écarts avec les pièces de Corneille (tout particulièrement Le Menteur et La Suite du Menteur) sont assez faibles pour pouvoir en déduire qu’il s’agit du même auteur.

Malheureusement pour la prétendue scientificité de sa démarche, c’est M. Labbé lui-même qui a déterminé le seuil à partir duquel la distance entre deux œuvres révélerait que c’est un même auteur qui les a écrites.

b – On remarque ensuite que l’essentiel des pièces attribuées à Corneille, à part Don Juan et L’Avare, sont celles qui sont en vers, et toutes celles qui ne sont pas attribuées sont en prose (ainsi que les douteuses). Or, ce qu’ignorait D. Labbé lorsqu’il s’est lancé naïvement dans son entreprise (et ce qu’il refuse d’entendre maintenant qu’on lui a expliqué), c’est que l’emploi du vers implique des contraintes, dans le retour du vocabulaire impliqué par un nombre de rimes relativement réduit et dans les constructions syntaxiques, ce qui confère une uniformité certaine aux centaines de milliers d’alexandrins qui ont été écrits au 17e siècle. De plus, le choix de composer un « poème dramatique » — terme qui englobait alors tragédie, tragi-comédie, et grande comédie — engage automatiquement un certain registre de langue, ce qui réduit considérablement les champs lexicaux.

Or de cela, la méthode Labbé ne tient aucun compte.

  • Elle a été éprouvée, dit son auteur, sur « plusieurs milliers de textes de toutes origines (romans, articles de presse, discours politiques, entretiens…) » (abrégé français de leur article anglais), bref sur de la prose, c’est-à-dire sur un mode d’écriture qui ne présente aucune contrainte formelle. De ce point de vue, il en va tout autrement des genres relevant au XVIIe siècle de la « poésie », comme le théâtre en vers : les contraintes sont telles qu’elles obligent les auteurs à resserrer considérablement leur « liberté d’expression » et que les différences entre les uns et les autres (ce qui fait par exemple que le vers de Racine est globalement plus « musical » que le vers de Corneille) ne tient pas au choix des mots, mais à leur disposition et au rythme du vers (question de rhétorique et non de lexique).
  • Concernant la question des registres, qui engage le choix des mots, il faut savoir qu’un même auteur ne pouvait pas écrire de la même manière une « petite comédie » en un acte et en prose et une « grande comédie » en cinq actes et en vers. Ainsi, dans une comédie à tonalité farcesque, il ne sera guère fait usage de métaphores amoureuses, telles que « feux », « flammes » et « fers », etc., sauf, exceptionnellement à titre parodique. Les écarts entre la «grande comédie» du Misanthrope et la « petite comédie » en trois actes du Médecin malgré lui, qui sont de la même année, peuvent commencer par s’expliquer par là, avant de conduire à la conclusion que les deux pièces ne sont pas du même auteur.
  • Et à l’intérieur des « grandes comédies », il faut encore mettre à part Don Garcie de Navarre, qualifié par les contemporains (voir encore Donneau de Visé) de « pièce sérieuse ». Comme l’indique la qualité des personnages (princes, princesses et leurs confidents), la pièce ressortit au genre que Corneille avait baptisé « comédie héroïque », impliquant le même très haut style que la tragédie (les règles théâtrales interdisaient de faire parler un prince comme un marchand). Par là s’explique évidemment que Don Garcie puisse être rangé, du point de vue de la statistique lexicale, comme une œuvre de Corneille, au même titre que Psyché. En ne tenant pas compte de cela, la méthode de D. Labbé s’invalide d’elle-même…
  • Tout ce qui précède montre qu’il est normal que l’écart entre les deux Menteurs de Corneille et, par exemple, Les Femmes savantes de Molière soit relativement étroit, alors même que trente années les séparent. Estimant à juste titre que, en trente ans, le style et le vocabulaire d’un même auteur devraient changer, D. Labbé en déduit au contraire une extraordinaire unité dans l’œuvre de Corneille ! Mais ce qui est extraordinaire, c’est cette manière qu’a D. Labbé de gauchir, en faveur de sa thèse, tous les raisonnements au risque de se contredire lui-même. Car ce qu’il faut déduire de sa remarque, étant donné que vocabulaire et style de Corneille auraient dû changer en trente ans, c’est la stabilité des contraintes d’écriture liées à l’expression en vers. Ce que les spécialistes sérieux de lexicométrie appellent la loi des genres.

On lira avec profit l’étude d’un de ces spécialistes sérieux de lexicométrie, Étienne Brunet, qui montrait dès 2004, que la méthode de D. Labbé ne peut rien démontrer en matière de paternité, surtout dans la mesure où elle aboutit à montrer la prédominance des genres (voir son étude : « Où l’on mesure la distance entre les distances »).

c – Non seulement la méthode ne tient aucun compte des spécificités du théâtre de l’époque, mais le travail a d’emblée été conçu comme la vérification d’un fait établi (une assimilation Corneille-Molière), et non pas comme la mise à l’épreuve d’une hypothèse. Aussi D. Labbé n’a-t-il lancé sa recherche que sur les œuvres de Corneille et de Molière. Et cela au nom d’un prétendu acquis de sa méthode éprouvée sur des milliers de textes en prose : « Il n’est donc pas nécessaire de comparer Molière à tous les auteurs de théâtre de son temps. Pour trancher la question de savoir si Corneille peut être l’auteur de certaines comédies de Molière, il suffit d’examiner la distance séparant chacune des pièces d’un des auteurs à toutes celles de l’autre… » (C. & D. Labbé)

Une telle affirmation — dont la formulation relève strictement d’un faux syllogisme, c’est-à-dire d’un pur sophisme — est proprement inacceptable concernant le théâtre du XVIIe siècle du fait des contraintes de genre signalées plus haut.

  • Il aurait fallu au contraire préalablement et parallèlement lancer des recherches du même type sur les correspondances entre Thomas Corneille et Molière, Claude Boyer et Molière, afin d’être sûr qu’on n’aboutirait pas à des résultats « prouvant » que Th. Corneille et Boyer ont écrit la moitié des pièces de Molière (et bien sûr les mêmes pièces que celles que D. Labbé attribue à Corneille).
  • Inversement, il aurait fallu lancer des recherches permettant de comparer les deux Menteurs de Corneille et d’autres comédies de la même période, soit de Boisrobert, soit du grand rival de Molière en matière de comédies, Monfleury fils, soit de Thomas Corneille, soit d’un successeur. Si toutes ces comédies avaient présenté une valeur supérieure à 0,22 (moyenne du rapport entre Le Menteur et les comédies de Molière attribuées à Corneille), on aurait pu commencer à discuter sérieusement. On verra un peu plus loin qu’il a fallu attendre que d’autres que D. Labbé se lancent dans ce travail, et qu’il suffisait d’ajouter un tout petit nombre de comédies écrites par d’autres que Corneille et Molière pour invalider la méthode de D. Labbé.
  • De même, lorsque une bonne partie du corpus théâtral du XVIIe siècle sera pris en compte, on pourra commencer à réfléchir sur les prétendues « signatures » ou « empreintes digitales » que constitueraient les combinaisons de mots. Montrer que l’association «faire voir» se retrouve à un même degré et avec une même fréquence chez Corneille et chez Molière, alors qu’elle est absente chez Racine, ne prouve rigoureusement rien. Non seulement la différence entre les genres n’a pas été prise en compte, une fois de plus, mais on n’est pas allé voir si cette combinaison pouvait se retrouver, et avec quelle fréquence, chez les auteurs contemporains autres que Racine : quelle est donc cette démarche qui se prétend scientifique et qui réduit l’extraordinaire richesse de la production théâtrale du 17e siècle à Corneille, Molière et Racine, c’est-à-dire aux trois auteurs qu’a retenus l’institution scolaire ?

Récapitulons : lorsqu’on prétend déterminer l’attribution d’une œuvre en confrontant seulement deux auteurs — deux auteurs contemporains, pratiquant le même genre littéraire, et dont l’un, comédien, connaissait par cœur les pièces de l’autre —, on a toutes les chances d’aboutir à « prouver » ce qu’on avait préalablement posé. Surtout lorsque ces deux auteurs œuvrent dans un mode d’écriture aussi contraint que le théâtre du XVIIe siècle. Surtout aussi lorsque la pierre de touche n’est constituée que par deux œuvres du premier auteur. Et surtout enfin lorsqu’on a soi-même décidé du seuil qui permet d’attribuer la paternité d’une œuvre ! Bref, une vraie démarche scientifique se serait donné les moyens de montrer que l’écart entre les deux Menteurs de Corneille et les comédies de plusieurs de ses confrères est significativement supérieur à l’écart entre les Menteurs et les grandes comédies de Molière. C’était d’autant plus nécessaire que M. Labbé avait commencé par affirmer lui-même (p. 2 du résumé en français de son premier article paru dans le JQL) : « entre 0.20 et 0.25, il est pratiquement certain que l’auteur est le même. Sinon, les deux textes ont été écrits à la même époque, sur le même sujet et avec des arguments identiques. »

Depuis 2003, il a été demandé à D. Labbé de se prêter à cette véritable démarche scientifique. Et l’article d’Étienne Brunet, cité plus haut, aurait dû contribuer plus que tout autre à le pousser à élargir son corpus pour tenter de prouver qui, de lui ou de E. Brunet, avait raison. Au lieu de quoi, D. Labbé, sourd et aveugle à tout, s’est contenté de reproduire sans arrêt dans des livres, des articles et des communications les mêmes conclusions biaisées tirées de la même enquête initiale incomplète. Il a fallu qu’un autre de ses confrères en lexicométrie, Charles Bernet — il fut l’un des pionniers de cette discipline et avait montré toute sa richesse il y a une trentaine d’années en publiant un Vocabulaire de Jean Racine qui a fait date —, se lance dans ce travail en reprenant l’ensemble du protocole de D. Labbé et en se bornant à ajouter quelques pièces : nous reproduisons ici son étude qui a paru en 2009 (avec son aimable autorisation et celle des éditeurs du volume dans lequel cette étude a paru). Or les conclusions de Charles Bernet sont sans appel :

Les expériences rapportées dans ce travail invalident les conclusions de Cyril et Dominique Labbé et montrent que la lexicologie quantitative n’apporte pas d’arguments en faveur des « intuitions » de Pierre Louÿs.

Il vaut donc la peine de lire l’intégralité de son étude : « La « distance intertextuelle » et le théâtre du Grand Siècle ».

On consultera aussi une autre étude de Charles Bernet, à peine plus ancienne, consacrée aux mots placés à la rime dans un corpus de pièces du XVIIe siècle. Cette étude fait ressortir des différences statistiquement significatives entre les comédies de Corneille et celles de Molière: ces différences affectent aussi bien la répartition de syllabes en fin de vers que la distribution d’unités lexicales thématiques et non thématiques.

Malheureusement D. Labbé aujourd’hui encore s’obstine dans l’impasse dans laquelle il s’est enfermé. Au lieu de tenter d’en sortir élégamment en reconnaissant que son algorithme était parfait pour calculer la distance lexicale entre toutes les formes de textes en prose — ce que tous les spécialistes en statistiques lexicales lui reconnaissent sans réserve —, mais qu’il ne pouvait pas permettre des reconnaissances en paternité pour des textes aussi contraints par la forme que les textes en vers, il continue de tenter de « prouver » en allant chercher des inventions historiques, des textes biaisés, en rejetant des textes et des témoins contemporains qui prouvent le contraire etc (tout ce que nous dénonçons par ailleurs sur le présent site). Et sans observer que AUCUN de ses confrères spécialistes en lexicométrie (qui tous, encore une fois, le suivaient lorsqu’il s’agissait de comparer des textes en prose) n’a accepté ses conclusions sur Corneille et Molière, il reste persuadé de sa juste cause en se croyant victime d’un complot général… Et il invoque quelques conférences qu’il aurait faites ici ou là (l’Université de Paris-Orsay, le Trinity College de Dublin, l’Université de Neuchâtel en Suisse) pour faire croire que ces conclusions ont été acceptées par quelques universitaires français ou étrangers, sans préciser qu’il s’agissait à chaque fois d’exposés non contradictoires présentés devant un auditoire qui n’avait aucune connaissance préalable des contraintes de la lexicométrie en matière de textes en vers et des réalités historiques du XVIIe siècle : comme la présentation des travaux de D. Labbé offre toutes les apparences extérieures de la scientificité, ils peuvent, rapidement exposés devant un auditoire non spécialisé (même s’il s’agit de mathématiciens ou de statisticiens), être tenus pour « vrais ». Ils n’en restent pas moins parfaitement faux et n’en continuent pas moins d’être totalement rejetés par la totalité de la communauté scientifique (et en premier lieu, soulignons-le une dernière fois, par tous les spécialistes de statistiques lexicales et de lexicométrie).

Questions de syntaxe

L’analyse syntaxique prouverait que Molière, c’est Corneille et Quinault

La thèse syntaxique

Deux universitaires du département de linguistique mathématique de l’université d’État de Saint-Petersbourg sont entrés en lice en 2008, du « côté » Louÿs : Elena Rodionova, qui a soutenu sur ce sujet une thèse de doctorat, et son directeur de thèse le Pr Mikhaïl Marusenko. On les découvrira sur le site suivant, consacré également à une poignée d’autres cas d’attributions littéraires, française et russes.

Ils soutiennent que, en comparant par l’analyse syntaxique les comédies en vers de Molière aux comédies de Corneille et à celles de Quinault, ils sont parvenus à prouver que Corneille a écrit plusieurs des comédies de Molière et que Quinault en a écrit d’autres, certaines des comédies restant non attribuables à l’un ou à l’autre de ces deux auteurs. En bref : syntaxiquement, Tartuffe ressemble à du Corneille, L’Étourdi ressemble à du Quinault, et Don Garcie de Navarre ne ressemble ni à du Corneille ni à du Quinault. Ces ressemblances vaudraient pour attributions.

Les Petersbourgeois ont évidemment développé un outil scientifique qui peut avoir des applications légitimes. Ils ont également beaucoup travaillé (une partie de l’analyse syntaxique se fait certainement à la main : aucun logiciel n’est capable de compter exactement le nombre de propositions subordonnées dans Tartuffe), et il a fallu compter, phrase après phrase, le nombre moyen de mots, de propositions, de subordonnées, de subordonnées relatives, de conjonctions de coordination, de pronoms sujets, de déterminants numéraux ou pronoms numéraux, etc.

Les comparaisons sont faites en utilisant des procédures mathématiques si élaborées que la partie mathématique de leur travail est incompréhensible pour un profane. Nous avons dû pour pouvoir évaluer leur méthodologie et juger leurs conclusions consulter un spécialiste de mathématiques.

On remarque que leurs attributions contredisent pour partie celles qui résultent des analyses lexicométriques incomplètes et biaisées de D. Labbé (voir la page précédente), puisqu’elles attribuent une partie des pièces de Molière à Quinault, alors que M. Labbé veut que tout ait été écrit par Corneille. Mais, en même temps, ces contradictions entre les résultats de Mme Rodionova et ceux de M. Labbé confirment les conclusions des travaux des vrais spécialistes de lexicométrie que sont MM. Étienne Brunet et Charles Bernet : pour des textes aussi contraints que sont les pièces de théâtre en vers du XVIIe siècle les statistiques lexicales pas plus que les statistiques syntaxiques ne peuvent servir à des travaux d’attribution; dans le meilleur des cas, ils permettront de découvrir que ces textes sont des comédies (ou des tragédies) écrites par des auteurs qui ont vécu au XVIIe siècle et qui écrivaient en vers…

Réfutation

Pour le lecteur qui ne voudrait pas se lancer d’emblée dans la critique détaillée de la thèse des Petersbourgeois (voir au bas de cette page le renvoi au travail de François Pagès), nous proposons la présentation rapide de trois de ses principaux défauts, chacun d’eux suffisant à en révéler le caractère non opératoire :

Premier défaut. Les Pétersbourgeois évaluent la syntaxe moyenne chez Corneille, la syntaxe moyenne chez Quinault. Ils trouvent essentiellement une différence : il y a plus de subordonnées chez Corneille que chez Quinault.

La moindre des choses de leur part aurait été de donner les chiffres pour chaque pièce de Corneille et pour chaque pièce de Quinault. Cela seul leur aurait permis de montrer que la syntaxe, chez Corneille est un trait constant (c’est-à-dire, selon leur raisonnement, que c’est bien Corneille qui a écrit toutes les pièces de Corneille…).

Ils ne le font pas : ils ne donnent les chiffres que pour l’ensemble des pièces de Corneille (alors que, pour avoir les chiffres sur l’ensemble, il leur a fallu compter dans chaque pièce…). S’ils ne le font pas, c’est évidemment qu’il y a une raison, et cette raison ne peut être que celle-ci : les chiffres doivent être mauvais ; ils ont probablement révélé que L’Illusion comique possède une syntaxe si différente de celle du Menteur que probablement les deux pièces n’ont pas dû être écrites par le même auteur… Cherchant à confirmer leur thèse de départ, à savoir que Molière, c’est Corneille et Quinault, il semble bien qu’ils aient malgré eux découvert que Corneille n’existe pas…

Deuxième défaut. Cela dit, même si les chiffres relatifs à chacune des pièces de Corneille étaient « bons », en quoi cela leur conférerait-il valeur de preuve ? Même si Tartuffe ressemblait au plan syntaxique à telle comédie de Corneille, en quoi cela pourrait-il prouver que c’est Corneille qui l’a écrit. Depuis quand une ressemblance a-t-elle valeur d’identité ? Surtout lorsque cette ressemblance est simplement fondée sur le nombre de subordonnées par phrase…

Troisième (mais en fait premier) défaut. Le fait que Corneille et Quinault soient l’un et l’autre auteurs de pièces attribuées à Molière, loin d’être le résultat de la démarche des auteurs, en est l’un des deux points de départ. La procédure mathématique qu’ils emploient est propre à distribuer des objets M [Molière] sur des ensembles C [Corneille] et Q [Quinault] quand on sait déjà que ces objets M appartiennent à C ou à Q. Autrement dit, toute la machinerie syntaxico-statistico-mathématique déployée par les auteurs de ce travail consiste à vérifier un présupposé et non pas à répondre à une vraie question.

Conclusion

Les Pétersbourgeois ont développé une technique : le traitement mathématique de l’analyse syntaxique. Ils ont voulu lui conférer une légitimité internationale en tentant de montrer qu’elle pouvait servir à « prouver » quelque chose. Leur tort a été de partir de la « théorie Corneille » de Pierre Louÿs et de ses disciples en faisant comme si elle était avérée, ce qui les a conduit à ne rien démontrer d’autre que ce qui était postulé au départ. De ce fait, leur démonstration selon laquelle les pièces de Molière « appartiennent » les unes à Corneille et les autres à Quinault, étant élaborée à partir du postulat initial selon lequel les pièces de Molière « appartiennent » soit à Corneille soit à Quinault, n’est de nature ni à infirmer ni même à confirmer l’état de nos connaissances avérées depuis le XVIIe siècle, à savoir que Molière est bien l’auteur des œuvres qu’il a fait jouer et qu’il a publiées.

On pourra donc consulter ici l’analyse des travaux des Pétersbourgeois entreprise au printemps 2011 par François Pagès : Mini-mémoire de master exposant et réfutant leur théorie

Références : articles des Pétersbourgeois :

français : Corneille-Molière » confirmation scientifique par l’Université d’État de Saint-Pétersbourg » traduit du russe (lien perdu)

anglais : http://moliere-corneille.huma-num.fr/wp-content/uploads/2019/07/JournalofQuantitativeLinguistics.pdf