Le chinois étant une langue isolante, chaque morphème équivaut à une signification et aucun espace ne délimite les mots comme en français.
Avant de traiter mon corpus, il faut donc que j’ajoute une étape de tokenization. J’ai décidé d’utiliser le module jieba
qui est un outil de segmentation des mots basé sur le langage Python.
Avant toute chose il ne faut pas oublier d’installer le module jieba
grâce à la commande :
sudo apt-get install python3-jieba
J’ai donc écrit un petit programme Python qui utilise jieba
pour tokeniser mes textes.
On peut utiliser le paramètre cut_all = False
avec jieba pour indiquer que l’on ne veut pas qu’il nous segmente tout, comme par exemple les mots composés.
J’ai appelé ce programme dans mon script bash.
Nous pouvons remarquer qu’il y a des éléments indésirables dans notre texte donc il faudra que je les nettoie.
2 réponses sur « Segmentation du chinois »
C’est un détail, mais il me semble que Jieba n’a pas été développé au MIT.
J’aimeAimé par 1 personne
Je vais changer ça, merci !
J’aimeJ’aime