Catégories
Journal de Travail Justine

Segmentation du chinois

Le chinois étant une langue isolante, chaque morphème équivaut à une signification et aucun espace ne délimite les mots comme en français.Avant de traiter mon corpus, il faut donc que j’ajoute une étape de tokenization. J’ai décidé d’utiliser le module jieba qui est un outil de segmentation des mots basé sur le langage Python. Avant […]

Catégories
Exercices Justine

Exercices de Justine

Consignes de l’exercice : A. On utilise l’option -e avec la commande echo afin de reconnaître les caractères d’échappement et on redirige la commande grâce au chevron simple > vers le fichier fichier.txt. « ../ » signifie qu’il faut retourner dans le répertoire parent avant d’arriver dans le répertoire DUMP-TEXT où se situe notre fichier. On allume […]