mardi 12 novembre 2013

Petits problèmes de codage ???

 Hello !!


En parlant de page dumpée, vous est-il arrivé de cliquer sur la colonne concernée dans le tableau préparé pour l'exercice de création d'un tableau répertoire global de nos urls traité sur cette page ?

Eh bien moi oui , et voici ce que j'ai eu à l'écran :






Je vous passe la suite c'est du même ordre...

l'option file -i dit pourtant :

Ainsi le navigateur ne reconnait pas que la page dumpée est codée en utf-8.

"c'est bien beau tout ça mais comment je fais moi pour la lire ta page ???"

 Il reste juste à corriger cela avec les outils propres au navigateur (pour moi sur chrome : onglet paramètres→outils→codage→utf8)

Ce qui affiche :

Du beau japonais bien plus ..."lisible".

"ouf alors ce n'était que "ça" ?"

Oui et ... non , prenons maintenant un cas extrême afin de voir ce qui pourrait nous arriver dans la suite du projet.
Le cas dont je parle est présent sur :
http://www.let.osaka-u.ac.jp/~okajima/tokan.htm

(et nous le devons à Mr Perrot, on lui dira bien merci !!!)

voici ce qu'affiche la page en question :


si on "s'amuse" à faire un wget sur l'url et à scruter le fichier avec la loupe file -i on obtient :


on espère donc lire le codage dans l'entête du code html on fait donc un head du fichier ce qui donne le résultat navrant de :


Ici pas de solution ... sinon que notre propre connaissance en japonais nous permet de dire qu'il s'agit d'un codage japonais (shift-JIS, EUC-JP,...), ceci car le titre du fichier tokan ou 東関 évoque directement un nom japonais...

Faisons un petit test avec le shift-JIS à l'aide du navigateur comme tout à l'heure, et fort heureusement on obtient :


Nettement plus lisible ... (enfin tout est relatif)

Bonne soirée à tous !!!

Aucun commentaire:

Enregistrer un commentaire