#Fréquence des jukugo dans l’Aozora Bunko par kanji

Vous trouverez ici, pour chaque kanji, les mots composés (ou jukugo 熟語) dans lesquels il apparait au sein des texts de la librairie numérique Aozora Bunko, et la fréquence de chacun de ces mots.

► Télécharger les données pour Mac/Unix/Linux (.tar.bz2, fichiers textes UTF-8 avec fins de ligne LF) ► Télécharger les données pour Windows (.7z, fichiers textes UTF-16 avec fins de ligne CRLF)

Utilité

  1. Les apprenants de japonais débutants ou intermédiaires peuvent utiliser ces données pour optimiser leur apprentissage en se focalisant sur les mots les plus fréquents. Cela dit, (a) il existe déjà d’autres listes de mots fréquents, certaines avec un classement par fréquence, et (b) la source que j’ai utilisée, l’Aozora Bunko, rend les données biaisées pour les kanji communs étant donné qu’elle contient principalement des vieux livres qui ne reflètent pas toujours l’usage contemporain des mots dans des contextes courants (conversation, journaux, romans contemporains…).

  2. Les apprenants de niveau avancé, et peut-être même les locuteurs natifs, qui apprennent des kanji rares pourront trouver ces données utiles. Prenons un exemple. Vous tombez sur le kanji et décidez d’apprendre ses sens et les mots qui en sont composés. Dans ce cas, les dictionnaires français-japonais ou anglais-japonais tels que le très connu EDICT ne vous aideront pas beaucoup étant donné qu’ils comportent peu ou pas d’entrées pour les kanji rares. Vous pouvez utiliser un dictionnaire monolingue japonais en ligne tel que Kotobank, mais vous trouverez alors plus de 60 entrées contenant le caractère , et aucune information sur leurs fréquences respectives. En revanche, en utilisant les données que je mets à disposition ici, vous verrez que le kanji apparait dans 14 jukugo différents dans l’Aozora Bunko, les plus fréquents étant 伯耆, 耆宿 et 耆婆.

Sources et méthodologie

Le corpus utilisé est composé des quelques 14 milliers de fichiers textes de la librairie numérique Aozora Bunko.

Une très grande liste de mots a été réalisée en combinant le dictionnaire EDICT, une liste de yojijukugo extraite du 四字熟語辞典 ONLINE, une liste d’entrées du Dai Kan-Wa Jiten et une liste d’entrées du Hanyu Da Cidian, ces deux dernières étant mises à disposition par le Kanji Database Project.

J’ai écrit un script qui effectue les étapes suivantes :

  1. Pour chaque kanji trouvé dans le corpus (y compris les kanji en dehors du jeu JIS X 0208), le script recherche toutes les séquences d’un ou plusieurs kanji ( et étant considérés comme des kanji) qui contiennent ce kanji. Les occurrences de et de 々々 sont développées en kanji de façon appropriée afin de ne manquer aucun jukugo (pour beaucoup de jukugo comportant un kanji répété, les dictionnaires utilisés contiennent à la fois une entrée avec et une entrée sans, mais pas de façon systématique).

  2. Pour chaque séquence, le script cherche la sous-chaîne la plus longue qui soit présente dans la liste des entrées de dictionnaire.

  3. Les statistiques sont calculées en utilisant le nombre de textes dans lesquels un mot est présent plutôt qu’en comptant le nombre total d’occurrences d’un mot dans le corpus entier. Cette méthodologie est similaire à celle que j’ai employée pour ce projet où j’explique pourquoi elle donne des résultats davantage représentatifs.

Remarques