Catégories
Journal de Travail

Le retour

Après un long moment d’absence, nous revenons plus forts avec cet article qui résume ce que nous avons fait depuis début décembre. Tout d’abord, sous les conseils de monsieur Magistry, nous avons décidé de rajouter les mots 家族 pour le chinois et 家庭 pour le japonais. Nous avons donc cherché environ 50 liens en plus […]

Catégories
Journal de Travail Justine

Segmentation du chinois

Le chinois étant une langue isolante, chaque morphème équivaut à une signification et aucun espace ne délimite les mots comme en français.Avant de traiter mon corpus, il faut donc que j’ajoute une étape de tokenization. J’ai décidé d’utiliser le module jieba qui est un outil de segmentation des mots basé sur le langage Python. Avant […]

Catégories
Journal de Travail

Séance 7 : Index

Maintenant que l’on a nos fichiers HTML et TXT, on veut rajouter des colonnes dans le tableau qui vont nous donner des statistiques sur chacun de nos textes. On va donc répondre à la question : Quels mots sont les plus utilisés dans le texte ? Problème : Le japonais et le chinois ont besoin […]

Catégories
Exercices

Exercice : Vérification du nombre d’arguments

Afin de vérifier si nos deux arguments sont bien présents lors de l’exécution de notre script, nous allons ajouter une condition if à notre script. Il faut utiliser : – l’opérateur $# qui réfère au nombre d’arguments du script– l’option -eq qui est vraie si n1 (ici $#) est égal à n2 (ici 2) – 2 […]

Catégories
Journal de Travail

Séance 4 : Phase 1 du projet

Objectif : Partir de données en entrée (nos fichiers d’URL, un par langue) traitées par un programme afin de construire en sortie une interface de visualisation de données. On va en fait construire pour chaque fichier d’URL, un tableau (interface pour accéder aux données). Configuration de notre environnement de travail Pour organiser notre environnement de […]

Catégories
Exercices Justine

Exercices de Justine

Consignes de l’exercice : A. On utilise l’option -e avec la commande echo afin de reconnaître les caractères d’échappement et on redirige la commande grâce au chevron simple > vers le fichier fichier.txt. « ../ » signifie qu’il faut retourner dans le répertoire parent avant d’arriver dans le répertoire DUMP-TEXT où se situe notre fichier. On allume […]