mardi 10 décembre 2013

Nuage Japonais


Retour à l'accueil
Retour aux résultats

Nuage Indonésien


Retour à l'accueil
Retour aux résultats

Nuage Français


Retour à l'accueil
Retour aux résultats

Nuage Espagnol


Retour à l'accueil
Retour aux résultats

Nuage Anglais




Retour à l'accueil
Retour aux résultats

Des résultats !!!

Des résultats en veux tu en voila, enfin, après quelques semaines de  plusieurs passages à plat, on trouve enfin ce que l'on cherche.

Ou pas : l'interprétation est encore en cours mais la chaîne de traitement est efficace. La plupart des problèmes linguistique et informatique ont été résolus. S'ensuivra donc une série d'articles explicatifs sur les problèmes et les solutions proposées.

Pour l'heure on se "contente" de stocker ces précieux résultats et de les afficher. La solution proposée pour l'occasion est l'utilisation de google drive et d'un hébergeur gratuit (http://www.livehost.fr/), ceci car même si google drive est très performant, il rend difficile l'affiche et le traitement de notre outil de démonstration principal, nos fameux tableaux d'URLs.

Sont ainsi disponibles, le script.txt , le téléchargement de celui-ci , un tableau des motifs traités
et enfin la page des tableaux d'URLs.

Le tout bien sûr présent sur la page  des résultats .

En espérant pouvoir les approfondir bientôt.

Retour à l'accueil
Retour à la théorisation

Longue vie à Lynx 2.8.8 !!!!

Après quelques semaines de travail sur le projet, force fut d'avouer que la technologie pouvait être merveilleuse.

En effet après s'être posé moult questions sur l'encodage de nos "chères pages dumpées", la reconnaissance de cet encodage (par file -i et via le charset présent dans le page), l'automatisation dans le but de généraliser cette reconnaissance de l'encodage pour une utilisation ultérieure ... et après un plusieurs grands questionnements et débats on constata ... que Lynx 2.8.8 "dumpait" tranquillement en utf8.

Passée la stupeur de cette découverte, le gain en valeur ajoutée sur le temps et sur la quantité de travail non nécessaire nous apparûmes et nous fûmes alors pour le moins ... satisfait. Nous décidâmes alors malgré tout de recoder de force les pages dans la mesure ou nous avions effectué une reconnaissance de l'encodage avec :
encodage=$(file -i ../PAGES-ASPIREES/$j/$i.html | cut -d= -f2);

et même si un Recode forcé ne se montrait pas forcément nécessaire dans notre cas nous avons malgré tout pensé à l'exportation du programme sur une machine ayant une version antérieure de Lynx :
recode -f UTF-8 ../DUMP-TEXT/$j"PageRecode"/$i.txt;

En tous les cas, longue vie à Lynx 2.8.8 et à ses versions futures !!!!


Retour à Bash/Linux
Retour à l'Accueil