Publié le 27 août 2022, dernière modification le 31 octobre 2022

Fréquence des mots

Les Aventures de Tintin comptent 241'592 mots, dont 16'472 mots différents, ou 14'391 si l'on ignore la casse.

On peut naïvement chercher lesquels apparaissent le plus souvent, mais ça n'a pas grand intérêt, car cela ne fait que refléter les mots les plus courants du français : de, et, vous, le... Sans doute est-il plus intéressant de rapporter le nombre d'occurrences d'un mot dans Tintin au nombre de ses occurrences dans un corpus de référence. J'ai choisi pour cela de me baser sur le projet Grammalecte, plus précisément sur le Lexique dans sa version 7.0, qui contient 512'703 flexions (variante d'un même lemme, "chat" et "chats" étant par exemple deux flexions d'un même lemme).

Pour chaque flexion, le lexique Grammalecte indique le nombre de ses occurrences dans le corpus utilisé (qui semble comprendre notamment Wikipédia, Wikisource et un échantillon de littérature francophone), nombre qui peut atteindre plusieurs milliards pour les flexions les plus fréquentes. Un grand nombre de flexions (206'258) sont listées avec un nombre nul d'occurrences. Je crois qu'il s'agit principalement de formes verbales qui existent en théorie, mais qui n'ont pas été trouvées dans le corpus utilisé par Grammalecte. J'ai choisi d'ignorer ces flexions.

L'ensemble de mots que j'ai comptés se compose donc de l'union de deux ensembles :

  • les flexions listées par Grammalecte avec un nombre d'occurrences non nul, passées en majuscules ;
  • les mots (au sens de l'expression régulière \p{L}+) apparaissant dans les dialogues (au sens large) de Tintin (bulles, onomatopées, narration...), passées en majuscules.

En passant tous les termes en majuscules, je m'affranchis en fait de la casse. "Tintin" et "tintin" se confondent en "TINTIN".

Mon ensemble de mots se compose au final de 277'985 entrées. Pour chaque entrée, je regarde le nombre d'occurrences dans Tintin, le nombre d'occurrences dans le corpus de Grammalecte, et un ratio de ces deux valeurs.

Évidemment, ce sont les valeurs extrêmes du ratio qui sont les plus intéressantes. Au rayon des mots "sous-représentés" dans Tintin, on trouve ainsi que le mot POLITIQUE apparaît 85'803'392 fois dans le corpus de Grammalecte, contre... 1 fois seulement dans Tintin (23PIC021I). C'est ce mot qui détient donc le record de "rareté inexpliquée" dans Tintin. Autre rareté étonnante : ART, qui n'apparaît lui aussi qu'une fois (19COK040D). D'autres valeurs s'expliquent un peu mieux : FRANCE n'apparaît que 3 fois dans Tintin (12TRE058A, 18AFF031J et 23PIC047G, cette dernière occurrence ne comptant en fait pas vraiment puisqu'il s'agit d'une contrepèterie involontaire de Dupont), contre 130'033'058 fois dans le corpus de Grammalecte. Il est cependant évident qu'un corpus basé en grande partie sur le Wikipédia francophone et sur la littérature francophone va contenir de nombreuses références à la France (cela étant, le mot "Belgique" n'apparaît qu'une seule fois dans Tintin : 01SOV138C).

À l'autre extrême, on trouve les mots "surreprésentés" dans Tintin. Sans surprise, on y trouve tous les noms propres de l’œuvre et de nombreuses onomatopées, ce qui n'est pas très intéressant. On trouve la graphie SHANGHAÏ 33 fois dans Tintin, et 0 fois dans le corpus de Grammalecte, qui contient uniquement la graphie SHANGHAI (sans le tréma). Les orthographes douteuses (à plusieurs égards) telles que MISSIÉ (20 occurrences dans Tintin) sont également absentes du corpus de Grammalecte, et pour cause. On citera aussi tous les mots dont Mik Ezdanitoff roule les R, évidemment inconnus en dehors de Tintin (par exemple TRRÈS). La graphie TÉLÉSCOPER, erronée, se retrouve 2 fois dans Tintin, et jamais ailleurs. On pourrait citer un certain nombre de formes erronées du même genre, cf. à cet égard le billet à paraître consacré aux fautes de français dans Tintin.

Le terme BOULOTTEURS ne se trouve bizarrement pas dans la version français du Wiktionnaire, alors que la version anglaise la mentionne (comme un mot français). Elle ne se trouve pas davantage dans les dictionnaires du CNRTL, et n'a aucune occurrence dans le corpus de Grammalecte. On la trouve une fois dans Tintin (18AFF034M).

Si l'on se penche désormais sur les mots qui existent dans le corpus de Grammalecte, mais massivement moins que dans Tintin (toute proportion gardée), on trouve en premier lieu... TINTIN. N'oublions pas qu'il s'agit en effet d'un terme français, qui signifie "rien du tout". On le trouve 796 fois dans Tintin, contre 2'577 fois dans le corpus de Grammalecte, soit seulement 3.23 fois plus (on rappelle la taille gigantesque du corpus, certains termes apparaissant plusieurs milliards de fois). Autre nom dont on peut être surpris d'apprendre qu'il apparaît dans certains dictionnaires : BAXTER. Il s'agit, en Belgique du moins, d'un dispositif de perfusion (c'est évidemment un nom de marque lexicalisé). Bien sûr, HADDOCK est aussi un nom commun...

Plus amusant désormais, et assez peu surprenant finalement : SAPERLIPOPETTE, qui apparaît 39 fois dans Tintin et 834 fois dans le corpus de Grammalecte. On se convainc cependant aisément que ce mot n'apparaît pas souvent sur Wikipédia. Les formes verbales LIGOTONS et LIGOTEZ (surtout à l'impératif) sont également assez appréciées d'Hergé, alors qu'on ne les trouve pas si souvent dans le reste de la littérature. SOULOGRAPHE est très rare, mais Hergé l'utilise une fois. Un peu plus loin dans la liste, on trouve le fameux SAPRISTI (111 occurrences dans Tintin, 7'786 dans le corpus de Grammalecte). Enfin, Hergé est également friand de l'expression "ne moisissons pas ici", d'où une surreprésentation de MOISISSONS.

Et encore en vrac : MOUSSAILLON, PICAROS (le terme n'a pas été inventé par Hergé), SABORDS, LAMPION (évidemment), AÉROLITHE, et... GAUFRES.

La liste complète est disponible ici. Pour éviter les divisions par zéro, si le nombre d'occurrences dans Tintin est nul, le ratio vaut 99'999'999.0, une valeur facilement identifiable et qui dépasse le plus grand ratio véritable (85'803'392.0).

Le site

Made with 🌵 by Biganon

À propos

Mentions légales

Site non officiel

L’œuvre d’Hergé est protégée par le droit d’auteur.