#Fréquence des jukugo dans l’Aozora Bunko par kanji

Vous trouverez ici, pour chaque kanji, les mots composés (ou jukugo 熟語) dans lesquels il apparait au sein des texts de la librairie numérique Aozora Bunko, et la fréquence de chacun de ces mots.

► Télécharger les données pour Mac/Unix/Linux (.tar.bz2, fichiers textes UTF-8 avec fins de ligne LF) ► Télécharger les données pour Windows (.7z, fichiers textes UTF-16 avec fins de ligne CRLF)

Utilité

Les apprenants de japonais débutants ou intermédiaires peuvent utiliser ces données pour optimiser leur apprentissage en se focalisant sur les mots les plus fréquents. Cela dit, (a) il existe déjà d’autres listes de mots fréquents, certaines avec un classement par fréquence, et (b) la source que j’ai utilisée, l’Aozora Bunko, rend les données biaisées pour les kanji communs étant donné qu’elle contient principalement des vieux livres qui ne reflètent pas toujours l’usage contemporain des mots dans des contextes courants (conversation, journaux, romans contemporains…).
Les apprenants de niveau avancé, et peut-être même les locuteurs natifs, qui apprennent des kanji rares pourront trouver ces données utiles. Prenons un exemple. Vous tombez sur le kanji 耆 et décidez d’apprendre ses sens et les mots qui en sont composés. Dans ce cas, les dictionnaires français-japonais ou anglais-japonais tels que le très connu EDICT ne vous aideront pas beaucoup étant donné qu’ils comportent peu ou pas d’entrées pour les kanji rares. Vous pouvez utiliser un dictionnaire monolingue japonais en ligne tel que Kotobank, mais vous trouverez alors plus de 60 entrées contenant le caractère 耆, et aucune information sur leurs fréquences respectives. En revanche, en utilisant les données que je mets à disposition ici, vous verrez que le kanji 耆 apparait dans 14 jukugo différents dans l’Aozora Bunko, les plus fréquents étant 伯耆, 耆宿 et 耆婆.

Sources et méthodologie

Le corpus utilisé est composé des quelques 14 milliers de fichiers textes de la librairie numérique Aozora Bunko.

Une très grande liste de mots a été réalisée en combinant le dictionnaire EDICT, une liste de yojijukugo extraite du 四字熟語辞典 ONLINE, une liste d’entrées du Dai Kan-Wa Jiten et une liste d’entrées du Hanyu Da Cidian, ces deux dernières étant mises à disposition par le Kanji Database Project.

J’ai écrit un script qui effectue les étapes suivantes :

Pour chaque kanji trouvé dans le corpus (y compris les kanji en dehors du jeu JIS X 0208), le script recherche toutes les séquences d’un ou plusieurs kanji (々 et 〆 étant considérés comme des kanji) qui contiennent ce kanji. Les occurrences de 々 et de 々々 sont développées en kanji de façon appropriée afin de ne manquer aucun jukugo (pour beaucoup de jukugo comportant un kanji répété, les dictionnaires utilisés contiennent à la fois une entrée avec 々 et une entrée sans, mais pas de façon systématique).
Pour chaque séquence, le script cherche la sous-chaîne la plus longue qui soit présente dans la liste des entrées de dictionnaire.
Les statistiques sont calculées en utilisant le nombre de textes dans lesquels un mot est présent plutôt qu’en comptant le nombre total d’occurrences d’un mot dans le corpus entier. Cette méthodologie est similaire à celle que j’ai employée pour ce projet où j’explique pourquoi elle donne des résultats davantage représentatifs.

Remarques

Les jukugo qui sont absents des entrées de dictionnaire ne sont pas reportés dans les données car le programme ne peut pas savoir s’il a rencontré un jukugo valable ou seulement une juxtaposition de différents mots (par exemple quand deux noms ou plus sont combinés pour former un nouveau nom, ou quand un jukugo est employé comme adverbe).
Certains mots composés peuvent être aussi bien un jukugo sino-japonais lu en on’yomi, qu’un mot d’origine japonaise lu en kun’yomi et parfois accompagné d’okurigana. Par exemple, 蹌踉 peut être un adjectif en -taru ou un adverbe en -to d’origine chinoise et lu そうろう, ou bien le radical d’un verbe japonais dont la forme du dictionnaire est 蹌踉めく, lue よろめく. Gardez à l’esprit que le programme que j’ai écrit n’analyse pas les kana et ne tente pas de lever les ambiguïtés quant à la lecture des kanji. Par conséquent, aucune distinction n’est faite entre les occurrences de 蹌踉 qui doivent être lues そうろう et celles qui doivent être lues よろ, et celles-ci sont confondues dans le calcul des statistiques. Ainsi, si vous consultez les données pour le kanji 蹌, la ligne correspondant à 蹌踉 fait référence à toutes les occurrences de 蹌踉 dans le corpus, quelle que soit leurs lectures respectives.
Du fait de la méthode d’analyse utilisée et de la nature imparfaite des algorithmes de segmentation des mots écrits en sinogrammes, il y a un petit nombre (négligeable mais non nul) de faux positifs et de mots manqués.