mardi 10 décembre 2013
Des résultats !!!
Des résultats en veux tu en voila, enfin, après quelques semaines de plusieurs passages à plat, on trouve enfin ce que l'on cherche.
Ou pas : l'interprétation est encore en cours mais la chaîne de traitement est efficace. La plupart des problèmes linguistique et informatique ont été résolus. S'ensuivra donc une série d'articles explicatifs sur les problèmes et les solutions proposées.
Pour l'heure on se "contente" de stocker ces précieux résultats et de les afficher. La solution proposée pour l'occasion est l'utilisation de google drive et d'un hébergeur gratuit (http://www.livehost.fr/), ceci car même si google drive est très performant, il rend difficile l'affiche et le traitement de notre outil de démonstration principal, nos fameux tableaux d'URLs.
Sont ainsi disponibles, le script.txt , le téléchargement de celui-ci , un tableau des motifs traités
et enfin la page des tableaux d'URLs.
Le tout bien sûr présent sur la page des résultats .
En espérant pouvoir les approfondir bientôt.
Retour à l'accueil
Retour à la théorisation
Ou pas : l'interprétation est encore en cours mais la chaîne de traitement est efficace. La plupart des problèmes linguistique et informatique ont été résolus. S'ensuivra donc une série d'articles explicatifs sur les problèmes et les solutions proposées.
Pour l'heure on se "contente" de stocker ces précieux résultats et de les afficher. La solution proposée pour l'occasion est l'utilisation de google drive et d'un hébergeur gratuit (http://www.livehost.fr/), ceci car même si google drive est très performant, il rend difficile l'affiche et le traitement de notre outil de démonstration principal, nos fameux tableaux d'URLs.
Sont ainsi disponibles, le script.txt , le téléchargement de celui-ci , un tableau des motifs traités
et enfin la page des tableaux d'URLs.
Le tout bien sûr présent sur la page des résultats .
En espérant pouvoir les approfondir bientôt.
Retour à l'accueil
Retour à la théorisation
Longue vie à Lynx 2.8.8 !!!!
Après quelques semaines de travail sur le projet, force fut d'avouer que la technologie pouvait être merveilleuse.
En effet après s'être posé moult questions sur l'encodage de nos "chères pages dumpées", la reconnaissance de cet encodage (par file -i et via le charset présent dans le page), l'automatisation dans le but de généraliser cette reconnaissance de l'encodage pour une utilisation ultérieure ... et après un plusieurs grands questionnements et débats on constata ... que Lynx 2.8.8 "dumpait" tranquillement en utf8.
Passée la stupeur de cette découverte, le gain en valeur ajoutée sur le temps et sur la quantité de travail non nécessaire nous apparûmes et nous fûmes alors pour le moins ... satisfait. Nous décidâmes alors malgré tout de recoder de force les pages dans la mesure ou nous avions effectué une reconnaissance de l'encodage avec :
encodage=$(file -i ../PAGES-ASPIREES/$j/$i.html | cut -d= -f2);
et même si un Recode forcé ne se montrait pas forcément nécessaire dans notre cas nous avons malgré tout pensé à l'exportation du programme sur une machine ayant une version antérieure de Lynx :
recode -f UTF-8 ../DUMP-TEXT/$j"PageRecode"/$i.txt;
En tous les cas, longue vie à Lynx 2.8.8 et à ses versions futures !!!!
Retour à Bash/Linux
Retour à l'Accueil
En effet après s'être posé moult questions sur l'encodage de nos "chères pages dumpées", la reconnaissance de cet encodage (par file -i et via le charset présent dans le page), l'automatisation dans le but de généraliser cette reconnaissance de l'encodage pour une utilisation ultérieure ... et après un plusieurs grands questionnements et débats on constata ... que Lynx 2.8.8 "dumpait" tranquillement en utf8.
Passée la stupeur de cette découverte, le gain en valeur ajoutée sur le temps et sur la quantité de travail non nécessaire nous apparûmes et nous fûmes alors pour le moins ... satisfait. Nous décidâmes alors malgré tout de recoder de force les pages dans la mesure ou nous avions effectué une reconnaissance de l'encodage avec :
encodage=$(file -i ../PAGES-ASPIREES/$j/$i.html | cut -d= -f2);
et même si un Recode forcé ne se montrait pas forcément nécessaire dans notre cas nous avons malgré tout pensé à l'exportation du programme sur une machine ayant une version antérieure de Lynx :
recode -f UTF-8 ../DUMP-TEXT/$j"PageRecode"/$i.txt;
En tous les cas, longue vie à Lynx 2.8.8 et à ses versions futures !!!!
Retour à Bash/Linux
Retour à l'Accueil
vendredi 15 novembre 2013
C'est la crise !!!!
Bonjour tout le monde !!!!
L'affaire est grave.
Il s'agit là d'une grosse remise en question
concernant la base même de notre travail.
LA
DÉFINITION DE NOTRE RECHERCHE
Le problème naquit sans aucun doute à cause du
manque de définition propre de notre recherche, quelle est précisemment la
question sous-jacente à tout notre projet, pourquoi donc ??
Nous nous sommes contentés de choisir une
thématique plaisante, soit.
Pour rappel, la cuisine en Europe occidentale
et orientale.
Pour autant, nous sommes bien incapables
actuellement d'avancer un angle spécifique sur cette thématique pour motiver
notre recherche. Nous n'avons pas tranché dans cette thématique pour la faire
vivre le long d'un projet.
Nous avons choisi de nous laisser porter par
notre recherche plutôt que de la diriger.
Ne soyons pas bêtes. Pour le coup,
laissons-nous plutôt guider par notre thématique pour que se révèle à nous la
grande question parente de notre projet.
Soit, très artificiellement, projetons-nous
dans un problème créé de toutes pièces par nos cerveaux vicieux. Trouvons pour
notre destinée la voie du succès.
LA
RECHERCHE DES URLS
Quelle méthodologie clairement précisée
avons-nous utilisé tous ensemble pour la recherche et la sélection de notre
corpus ??
Aucune.
Nous avons tous les trois utilisé l'outil
moteur de recherche, c'est bien tout.
Quel mot clé, quelle caractéristique
linguistique a-t-on spécifié théoriquement puis utilisé pour taper dans le
champ de recherche du moteur ??
Rien.
Nous sommes tout de même dans un travail de
nature linguistique, traiter de problèmes d'encodage n'étant pas forcément le
plus passionnant, attachons-nous donc à un certain marquage linguistique.
Dans ce cas quelle cohérence assurer à notre
corpus ??
Aucune.
Il est important de préciser en sus que la cohérence de notre corpus doit en plus être interne c'est-à-dire pour une langue donnée puis aussi externe c'est-à-dire interlinguale. À cet égard, nous devons favoriser une communication de groupe efficace.
Il paraît bien important d'avoir un corpus
proprement cadré pour la simple et bonne raison qu'il sera d'autant plus
maniable à l'interprétation afin d'en dégager des terminaux ravageurs.
Tenons-nous en donc aux faits !!
------
Pour conclure, on doit se rendre compte qu'il n'est pas
possible de mener une recherche d'URLs efficace étant motivée par... Rien. Les
deux parties sus-traitées sont totalement imbriquées, ce qui montre au passage
la belle harmonie de cet article.
Nous devons donc dès à présent répondre à cet
appel du cœur, main dans la main nous retrousser les manches (pas forcément
facile) et revoir notre copie. Ce n'est pas perdu, la remise en question est
nécessaire, elle signifie déjà la prise de conscience de notre part.
Posons une question simple et claire en
gardant notre thématique particulièrement sympathique au demeurant. Ne nous
perdons pas dans des nébuleuses dorées. Le vrai changement c'est maintenant,
nous tiendrons cet engagement dans les prochains articles.
Inscription à :
Articles (Atom)