Catégories
Journal de Travail

Le retour

Après un long moment d’absence, nous revenons plus forts avec cet article qui résume ce que nous avons fait depuis début décembre. Tout d’abord, sous les conseils de monsieur Magistry, nous avons décidé de rajouter les mots 家族 pour le chinois et 家庭 pour le japonais. Nous avons donc cherché environ 50 liens en plus […]

Catégories
Journal de Travail

Séance 8 : Bigramme

Résumé du cours: Nous avons vu une manière de tokeniser le chinois avec la commande grep: La première chose à faire pour créer un fichier de bigramme, est de tokeniser son fichier texte en mettant à la ligne chaque token. Et on écrit les commandes suivantes : Avancé du projet Nous avons commencé à faire […]

Catégories
Journal de Travail Justine

Segmentation du chinois

Le chinois étant une langue isolante, chaque morphème équivaut à une signification et aucun espace ne délimite les mots comme en français.Avant de traiter mon corpus, il faut donc que j’ajoute une étape de tokenization. J’ai décidé d’utiliser le module jieba qui est un outil de segmentation des mots basé sur le langage Python. Avant […]

Catégories
Exercices Journal de Travail Kenza

Segmentation du Japonais

Le japonais est une langue sans espace. Pour traiter, mon corpus j’ai dû installer le module janome basé sur un langage Python. pip install janome J’ai écrit le script Python suivant : J’ai utilisé les options tokenizer et analyzer pour tokenizer et compter le nombre d’occurrence par mot. L’option sorted=True permet de ranger dans l’ordre […]

Catégories
Journal de Travail

Séance 7 : Index

Maintenant que l’on a nos fichiers HTML et TXT, on veut rajouter des colonnes dans le tableau qui vont nous donner des statistiques sur chacun de nos textes. On va donc répondre à la question : Quels mots sont les plus utilisés dans le texte ? Problème : Le japonais et le chinois ont besoin […]

Catégories
Journal de Travail

Séance 6 : Récupération des documents HTML

Résumé du cours : – Notion de sous-programme ou fonctionUn sous-programme effectue une tâche spécifique, facile à identifier, et utile plusieurs fois. Le code sera plus lisible et on lui donnera un nom. – Trouver une solution pour les pages qui ne sont pas encodées en UTF8 – Récupération sous forme texte brut un document […]

Catégories
Journal de Travail

Séance 4 : Phase 1 du projet

Objectif : Partir de données en entrée (nos fichiers d’URL, un par langue) traitées par un programme afin de construire en sortie une interface de visualisation de données. On va en fait construire pour chaque fichier d’URL, un tableau (interface pour accéder aux données). Configuration de notre environnement de travail Pour organiser notre environnement de […]

Catégories
Journal de Travail

Séance 2 et 3 : apprendre à jouer à la « console »

Résumé du cours : But de la séance : comprendre la syntaxe des commandes Unix Notions vues en cours: Chemin absolu : référence complète pour designer une ressource sur la machine. Il commence par la racine de l’arborescence. Chemin relatif : localisation d’une ressource qui ne commence pas par la racine. Option : modifie le […]

Catégories
Journal de Travail

Séance 1 : 家庭 Família 家族

Résumé du cours : – Présentation du cours et du projet– Présentation de projets passés– Création de groupe et choix du mot Avancée du projet : Justine, Junior et moi avons décidé de travailler ensemble sur le mot « famille » en chinois, portugais et japonais. Comme dit en introduction, nous n’avions pas d’idée de mot sur […]