#Fréquence des kanji dans l’Aozora Bunko

Vous trouverez ici des données sur la fréquence d’utilisation des kanji dans l’ensemble des textes de la librairie numérique Aozora Bunko.

Le fichier est disponible ici :

► Table de fréquence des kanji (.txt UTF-8)

Les kanji en dehors du jeu de caractères JIS X 0208 sont aussi pris en compte.

Motivation

Je me suis inspiré des listes de fréquence des kanji de Dmitry Shpika. Je tiens au passage à le remercier d’avoir préparé ces données. Allez donc voir son travail. Il a compilé des données sur l’utilisation des kanji à partir de plusieurs sources, dont Twitter et Wikipédia. Un bien joli travail de programmation !

Cependant, après avoir utilisé pendant quelques temps sa liste basée sur l’Aozora Bunko, j’ai remarqué deux défauts qui faussent quelque peu les statistiques.

  1. Certains radicaux ou éléments de kanji qui ne sont généralement jamais employés tels quels se retrouvent relativement haut dans le classement. On s’attendrait à ce que de tels éléments n’apparaissent pas du tout ou presque. Par exemple, dans la liste de Shpika, il est indiqué que le radical , qui n’est pourtant jamais employé seul, apparait 1595 fois dans le corpus et est classé 2294e kanji le plus fréquent. L’explication est simple : quand un kanji en dehors du jeu JIS X 0208 apparait dans un texte, la politique de l’Aozora Bunko est de le séparer en éléments plus simples. Par exemple, 𢌞 (il se peut que ce caractère ne s’affiche pas correctement si votre ordinateur ne dispose pas d’une police compatible) est réécrit ※[#「廴+囘」、第4水準2-12-11], où 廴+囘 est la décomposition du kanji et 第4水準2-12-11 le code JIS X 0213.

  2. La méthodologie selon laquelle les caractères sont comptabilisés n’est pas tout à fait correcte et tend à favoriser certains kanji. Toutes les tables de fréquence des kanji que j’ai trouvées en ligne, celles de Shpika comme celles d’autres personnes, sont réalisées en comptant simplement le nombre de fois qu’un kanji donné apparait dans tout le corpus de textes et en calculant sa fréquence d’occurrence à partir du nombre total de kanji dans le corpus. Toutefois, les données qui en résultent sont biaisées et ne représentent pas réellement l’utilisation de chaque kanji, en particulier pour les moins fréquents. La raison de ceci est que si un kanji peu fréquent apparait dans un livre donnée, grandes sont les chances qu’il apparaisse plusieurs fois dans ce livre. C’est particulièrement le cas des noms de lieux ou de personnages. Poussons le raisonnement à l’extrême et considérons un livre dans lequel l’un des personnages possède un nom qui comporte un kanji très rare. Imaginons que ce kanji soit si rare qu’il n’apparait dans aucun des milliers d’autres livres qui composent le corpus. Le nom du personnage pourrait apparaitre, disons, quelques dizaines de fois dans tout le livre. De ce fait le kanji rare sera comptés plusieurs dizaines de fois alors qu’aucun autre auteur dans tout le corpus ne l’a jamais utilisé.

Il est facile de se débarrasser ces biais.

  1. Ou bien supprimer toutes les décompositions de caractères dans les textes, et donc de les ignorer, ou, encore mieux, écrire un programme qui analyse ces décompositions et prend ainsi en compte les kanji en dehors du JIS X 0208. J’ai choisi la deuxième solution.

  2. Modifier la façon dont les occurrences des kanji sont comptabilisées : pour chaque kanji, j’ai choisi de compter le nombre de textes dans lesquels il apparait, et non le nombre total de fois qu’il apparait dans tout le corpus.

Comparaison des résultats

En comparant la table de Shpika avec la nouvelle, on peut voir que le résultat escompté a été atteint. Voici quelques exemples en lien avec les deux points ci-dessus.

  1. Le caractère mentionné plus haut n’apparait pas du tout dans la nouvelle table, comme on doit s’y attendre. Quelques autres radicaux apparaissent dans un petit nombre de textes, soit utilisés dans des mots ou noms propres très rares ou archaïques, soit employés délibérément par l’auteur dans la description d’un caractère composé.

  2. Le caractère , qui est employé presque exclusivement dans les noms propres, était surreprésenté et classé 1946e, alors qu’il est désormais classé 3526e.

Bien sûr, les deux tables ne montrent pas des tendances fondamentalement différentes : les kanji communs d’usage quotidien se retrouvent en tête du classement dans chaque table, et a contrario les kanji très rares se retrouvent vers la fin de chaque table. Les différences de résultats sont plus intéressantes pour les kanji entre deux, ni trop rares ni trop communs.