Le chinois étant une langue isolante, chaque morphème équivaut à une signification et aucun espace ne délimite les mots comme en français.Avant de traiter mon corpus, il faut donc que j’ajoute une étape de tokenization. J’ai décidé d’utiliser le module jieba qui est un outil de segmentation des mots basé sur le langage Python. Avant […]
Catégories