Segmentation du chinois

Le chinois étant une langue isolante, chaque morphème équivaut à une signification et aucun espace ne délimite les mots comme en français.
Avant de traiter mon corpus, il faut donc que j’ajoute une étape de tokenization. J’ai décidé d’utiliser le module jieba qui est un outil de segmentation des mots basé sur le langage Python.

Avant toute chose il ne faut pas oublier d’installer le module jieba grâce à la commande :

sudo apt-get install python3-jieba

J’ai donc écrit un petit programme Python qui utilise jieba pour tokeniser mes textes.

On peut utiliser le paramètre cut_all = False avec jieba pour indiquer que l’on ne veut pas qu’il nous segmente tout, comme par exemple les mots composés.

J’ai appelé ce programme dans mon script bash.

Nous pouvons remarquer qu’il y a des éléments indésirables dans notre texte donc il faudra que je les nettoie.

Partager :

Articles similaires

2 réponses sur « Segmentation du chinois »

Laisser un commentaire Annuler la réponse.