<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Le blog de Michauko &#187; od</title>
	<atom:link href="http://michauko.org/blog/tag/od/feed/" rel="self" type="application/rss+xml" />
	<link>http://michauko.org/blog</link>
	<description>Si tu ne comprends pas le titre de l&#039;article, passe ton chemin</description>
	<lastBuildDate>Tue, 29 Nov 2011 11:45:57 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Joujou avec les encodages 8859-1, UTF-8 etc</title>
		<link>http://michauko.org/blog/2009/05/12/joujou-avec-les-encodages-8859-1-utf-8-etc/</link>
		<comments>http://michauko.org/blog/2009/05/12/joujou-avec-les-encodages-8859-1-utf-8-etc/#comments</comments>
		<pubDate>Tue, 12 May 2009 13:50:49 +0000</pubDate>
		<dc:creator>michauko</dc:creator>
				<category><![CDATA[coup de coeur]]></category>
		<category><![CDATA[Debian]]></category>
		<category><![CDATA[ligne de commande]]></category>
		<category><![CDATA[planet-libre.org]]></category>
		<category><![CDATA[Ubuntu]]></category>
		<category><![CDATA[iso-8859-1]]></category>
		<category><![CDATA[od]]></category>
		<category><![CDATA[rxp]]></category>
		<category><![CDATA[tcs]]></category>
		<category><![CDATA[utf-8]]></category>

		<guid isPermaLink="false">http://michauko.org/blog/?p=295</guid>
		<description><![CDATA[A l&#8217;occasion de l&#8217;écriture d&#8217;un script Python pour convertir un CSV-dégueu en XML-UTF8, le tout en environnement windows+linux et partant d&#8217;un CSV issu d&#8217;un Excel issu de copier-coller dégueulasses, j&#8217;ai eu à jouer avec des conversions de charset, de formats UNIX/Windows etc etc Ca m&#8217;a permis de découvrir 2/3 outils, objet de cet article ; [...]]]></description>
			<content:encoded><![CDATA[<p>A l&#8217;occasion de l&#8217;écriture d&#8217;un script Python pour convertir un CSV-dégueu en XML-UTF8, le tout en environnement windows+linux et partant d&#8217;un CSV issu d&#8217;un Excel issu de copier-coller dégueulasses, j&#8217;ai eu à jouer avec des conversions de charset, de formats UNIX/Windows etc etc<br />
Ca m&#8217;a permis de découvrir 2/3 outils, objet de cet article ; je passe sur la multitude d&#8217;autres problèmes de nettoyage du contenu issu du copier-coller : guillemets relookés par je ne sais qui (Word ?), tirets relookés aussi etc&#8230;<span id="more-295"></span></p>
<p>Les basiques :</p>
<ul>
<li>file : permet d&#8217;identifier un type de fichier, notamment, pour du texte brut, s&#8217;il est encodé en ISO-machin ou en UTF-8. A noter, si le texte en question est à l&#8217;intérieur d&#8217;un script, enfin bref, de quelque chose enrobant ce texte, &laquo;&nbsp;file&nbsp;&raquo; se limitera à détecter le type de script, par exemple. Dans ce cas, extraire le texte en question dans un fichier à part (via des &laquo;&nbsp;grep&nbsp;&raquo;) afin d&#8217;analyser l&#8217;encodage de ce texte. J&#8217;ai pas trouvé plus simple</li>
<li>dos2unix : conversion des fins de lignes DOS (2 octets \010\013 (ou l&#8217;inverse) en un seul (\010 ou l&#8217;autre, je ne sais jamais <img src='http://michauko.org/blog/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> . Si vous êtes passés par un transfert FTP type ASCII, c&#8217;est fait totomatiquement. Mais en SFTP ou autre chose, niet.</li>
<li>unix2dos : devinez</li>
</ul>
<p>Ensuite :</p>
<ul>
<li>tcs : permet de convertir un fichier encodé avec un charset vers un autre, exemple : <code>tcs -f 8859-1 -t utf source > dest</code>. Faites des &laquo;&nbsp;file&nbsp;&raquo; ensuite pour voir.</li>
<li>rxp : valide la syntaxe XML (et l&#8217;encodage utilisé) d&#8217;un fichier XML</li>
<li>od : affiche en hexa, ascii, octal (etc) un fichier. On peut cumuler et mettre en parallèle l&#8217;ascii avec l&#8217;hexa, par exemple</li>
</ul>
<p>Voilà, c&#8217;est tout.</p>
]]></content:encoded>
			<wfw:commentRss>http://michauko.org/blog/2009/05/12/joujou-avec-les-encodages-8859-1-utf-8-etc/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>

