Famille TAL

Projet Encadré

Master TAL 2021-2022


Le mot « Famille » en chinois, japonais et portugais


Bienvenue sur notre blog

Pourquoi le mot « famille » ?

Il faut le dire, nous n’avions vraiment pas d’inspiration au moment de chercher le mot. Le mot « famille » a été choisi au hasard et c’est le cas de le dire étant donné que nous avons utilisé un générateur de mot sur Internet.

Nous n’avions pas envie de nous contenter des articles de journaux donc nous avons préféré choisir les contes et les légendes. Finalement, notre choix de corpus s’est élargie à la littérature en général car les données n’étaient pas suffisantes en chinois et en japonais.

Le retour

Après un long moment d’absence, nous revenons plus forts avec cet article qui résume ce que nous avons fait depuis début décembre. Tout d’abord, sous les conseils de monsieur Magistry, nous avons décidé de rajouter les mots 家族 pour le chinois et 家庭 pour le…

Lire la suite

Séance 8 : Bigramme

Résumé du cours: Nous avons vu une manière de tokeniser le chinois avec la commande grep: La première chose à faire pour créer un fichier de bigramme, est de tokeniser son fichier texte en mettant à la ligne chaque token. Et on écrit les commandes…

Lire la suite

Segmentation du chinois

Le chinois étant une langue isolante, chaque morphème équivaut à une signification et aucun espace ne délimite les mots comme en français.Avant de traiter mon corpus, il faut donc que j’ajoute une étape de tokenization. J’ai décidé d’utiliser le module jieba qui est un outil…

Lire la suite

A propos de nous

Nous sommes Kenza Piter, Gilvan Junior et Justine Tu, tous trois étudiants à l’INALCO.

Le japonais, le portugais et le chinois sont respectivement les langues que nous maîtrisons et que nous allons utilisés afin de mener à bien ce projet.