mardi 10 décembre 2013

Nuage Japonais


Retour à l'accueil
Retour aux résultats

Nuage Indonésien


Retour à l'accueil
Retour aux résultats

Nuage Français


Retour à l'accueil
Retour aux résultats

Nuage Espagnol


Retour à l'accueil
Retour aux résultats

Nuage Anglais




Retour à l'accueil
Retour aux résultats

Des résultats !!!

Des résultats en veux tu en voila, enfin, après quelques semaines de  plusieurs passages à plat, on trouve enfin ce que l'on cherche.

Ou pas : l'interprétation est encore en cours mais la chaîne de traitement est efficace. La plupart des problèmes linguistique et informatique ont été résolus. S'ensuivra donc une série d'articles explicatifs sur les problèmes et les solutions proposées.

Pour l'heure on se "contente" de stocker ces précieux résultats et de les afficher. La solution proposée pour l'occasion est l'utilisation de google drive et d'un hébergeur gratuit (http://www.livehost.fr/), ceci car même si google drive est très performant, il rend difficile l'affiche et le traitement de notre outil de démonstration principal, nos fameux tableaux d'URLs.

Sont ainsi disponibles, le script.txt , le téléchargement de celui-ci , un tableau des motifs traités
et enfin la page des tableaux d'URLs.

Le tout bien sûr présent sur la page  des résultats .

En espérant pouvoir les approfondir bientôt.

Retour à l'accueil
Retour à la théorisation

Longue vie à Lynx 2.8.8 !!!!

Après quelques semaines de travail sur le projet, force fut d'avouer que la technologie pouvait être merveilleuse.

En effet après s'être posé moult questions sur l'encodage de nos "chères pages dumpées", la reconnaissance de cet encodage (par file -i et via le charset présent dans le page), l'automatisation dans le but de généraliser cette reconnaissance de l'encodage pour une utilisation ultérieure ... et après un plusieurs grands questionnements et débats on constata ... que Lynx 2.8.8 "dumpait" tranquillement en utf8.

Passée la stupeur de cette découverte, le gain en valeur ajoutée sur le temps et sur la quantité de travail non nécessaire nous apparûmes et nous fûmes alors pour le moins ... satisfait. Nous décidâmes alors malgré tout de recoder de force les pages dans la mesure ou nous avions effectué une reconnaissance de l'encodage avec :
encodage=$(file -i ../PAGES-ASPIREES/$j/$i.html | cut -d= -f2);

et même si un Recode forcé ne se montrait pas forcément nécessaire dans notre cas nous avons malgré tout pensé à l'exportation du programme sur une machine ayant une version antérieure de Lynx :
recode -f UTF-8 ../DUMP-TEXT/$j"PageRecode"/$i.txt;

En tous les cas, longue vie à Lynx 2.8.8 et à ses versions futures !!!!


Retour à Bash/Linux
Retour à l'Accueil

vendredi 15 novembre 2013

C'est la crise !!!!

Bonjour tout le monde !!!!

L'affaire est grave.
Il s'agit là d'une grosse remise en question concernant la base même de notre travail.









LA DÉFINITION DE NOTRE RECHERCHE

Le problème naquit sans aucun doute à cause du manque de définition propre de notre recherche, quelle est précisemment la question sous-jacente à tout notre projet, pourquoi donc ??

Nous nous sommes contentés de choisir une thématique plaisante, soit.
Pour rappel, la cuisine en Europe occidentale et orientale.

Pour autant, nous sommes bien incapables actuellement d'avancer un angle spécifique sur cette thématique pour motiver notre recherche. Nous n'avons pas tranché dans cette thématique pour la faire vivre le long d'un projet.
Nous avons choisi de nous laisser porter par notre recherche plutôt que de la diriger.
Ne soyons pas bêtes. Pour le coup, laissons-nous plutôt guider par notre thématique pour que se révèle à nous la grande question parente de notre projet.
Soit, très artificiellement, projetons-nous dans un problème créé de toutes pièces par nos cerveaux vicieux. Trouvons pour notre destinée la voie du succès.


LA RECHERCHE DES URLS

Quelle méthodologie clairement précisée avons-nous utilisé tous ensemble pour la recherche et la sélection de notre corpus ??
Aucune.

Nous avons tous les trois utilisé l'outil moteur de recherche, c'est bien tout.


Quel mot clé, quelle caractéristique linguistique a-t-on spécifié théoriquement puis utilisé pour taper dans le champ de recherche du moteur ??
Rien.

Nous sommes tout de même dans un travail de nature linguistique, traiter de problèmes d'encodage n'étant pas forcément le plus passionnant, attachons-nous donc à un certain marquage linguistique.


Dans ce cas quelle cohérence assurer à notre corpus ??
Aucune.

Il est important de préciser en sus que la cohérence de notre corpus doit en plus être interne c'est-à-dire pour une langue donnée puis aussi externe c'est-à-dire interlinguale. À cet égard, nous devons favoriser une communication de groupe efficace.


Il paraît bien important d'avoir un corpus proprement cadré pour la simple et bonne raison qu'il sera d'autant plus maniable à l'interprétation afin d'en dégager des terminaux ravageurs. Tenons-nous en donc aux faits !!


------

Pour conclure,  on doit se rendre compte qu'il n'est pas possible de mener une recherche d'URLs efficace étant motivée par... Rien. Les deux parties sus-traitées sont totalement imbriquées, ce qui montre au passage la belle harmonie de cet article.
Nous devons donc dès à présent répondre à cet appel du cœur, main dans la main nous retrousser les manches (pas forcément facile) et revoir notre copie. Ce n'est pas perdu, la remise en question est nécessaire, elle signifie déjà la prise de conscience de notre part.
Posons une question simple et claire en gardant notre thématique particulièrement sympathique au demeurant. Ne nous perdons pas dans des nébuleuses dorées. Le vrai changement c'est maintenant, nous tiendrons cet engagement dans les prochains articles.