Guide Complet : Standardisation et Nettoyage de vos Fichiers CSV
Découvrez comment l'algorithme de CleanMyCSV analyse, corrige et sécurise vos bases de données. Ce guide détaille l'ensemble des processus de traitement appliqués à vos fichiers pour garantir une donnée exploitable, fiable et standardisée.
1. Résolution des Problèmes d'Encodage et de Caractères
Les exports depuis d'anciens systèmes ou certaines versions d'Excel (format Windows-1252 ou MacRoman) génèrent fréquemment des erreurs d'encodage, remplaçant les accents par des symboles illisibles.
L'action du programme :
CleanMyCSV scanne le fichier pour détecter les anomalies d'encodage (ex: présence de caractères ``). S'il détecte un format obsolète, il le convertit de force en UTF-8 standard, garantissant la préservation de tous les caractères spéciaux et accents internationaux.
2. Détection Intelligente des Délimiteurs (Séparateurs)
Un fichier CSV mal formaté regroupe souvent toutes les données dans une seule colonne. Cela se produit lorsque le logiciel cible n'utilise pas le même séparateur que le fichier source.
L'action du programme : L'algorithme analyse un échantillon de vos données (jusqu'à 10 000 caractères) et calcule un score de probabilité pour identifier le séparateur exact. Il gère parfaitement les virgules intégrées dans des champs de texte (ex: adresses) sans provoquer de décalage de colonnes.
3. Normalisation Typographique (Noms et Codes Postaux)
La consistance visuelle et technique des textes est indispensable pour une base de données client saine.
Noms Propres (Proper Case) : L'outil harmonise la casse des noms et prénoms. Il gère intelligemment les particules complexes (De, Du, Des, Le, La, Van, Von) et les préfixes anglo-saxons (Mc, O').
Exemple : mcdonald O'neil devient McDonald O'Neil.
Restauration des Codes Postaux : Les tableurs comme Excel ont tendance à considérer les codes postaux comme des nombres, supprimant ainsi les zéros initiaux (très courant pour les codes postaux français ou internationaux). CleanMyCSV détecte cette anomalie et restaure le zéro manquant pour garantir la longueur légale du code.
Exemple : 7500 devient 07500.
4. Normalisation des Téléphones (Standard International)
Le moteur détecte automatiquement les colonnes liées aux téléphones (Tel, Mobile, WhatsApp, etc.) grâce à des expressions régulières strictes et applique un formatage intelligent.
Conversion indicatifs : Remplacement des 00 et (0) par le standard +.
Gestion des doublons : Si une case contient Num1 / Num2, seul le premier est conservé pour garantir un import CRM sans erreur.
Sécurité Anti-ID (SIRET/EAN) : Les suites alphanumériques de plus de 13 caractères sans séparateur sont ignorées pour protéger vos identifiants métiers.
5. Extraction et Formatage des Données Financières (Montants et Devises)
Les colonnes de prix contenant des symboles monétaires ou des espaces sont lues comme du "texte" par les logiciels d'analyse, ce qui empêche tout calcul mathématique.
L'action du programme :
1. Il détecte la présence de symboles monétaires ($, €, £, ¥) ou de codes (EUR, USD, GBP, JPY, CAD, AUD, CHF, SEK).
2. Il extrait cette devise pour l'isoler de la donnée. (Note : selon la structure du fichier, cela peut créer une nouvelle colonne "Devise" distincte).
3. Il nettoie le montant de tout espace ou séparateur de milliers inapproprié, et unifie le séparateur décimal en un format mathématique pur (point).
Avant
1 250,50 € | $ 45.00
Après (Prêt pour calculs)
Montant;Devise
1250.50;EUR
45.00;USD
6. Standardisation Internationale des Dates (Format ISO 8601)
Les conflits de formats de dates faussent les tris et les automatisations.
L'action du programme : Le script identifie les différents formats de dates, y compris les formats mixtes, les dates textuelles ("Jan 1, 2024") et les numéros de série Excel (ex: 45292). Il convertit ensuite l'intégralité de ces données au format de base de données standard international : AAAA-MM-JJ.
7. Adaptation Régionale : Algorithmes de Nettoyage (FR vs US)
Les standards de formatage des données varient drastiquement entre l'Europe et l'Amérique du Nord. Un outil de nettoyage générique risque de corrompre vos montants financiers ou de mal interpréter la structure de votre fichier.
L'action du programme : CleanMyCSV intègre un double moteur de traitement. Avant l'exécution, vous définissez le contexte de vos données (Logique FR ou US).
Impact sur la donnée :
Les Nombres : En mode Français, le programme comprend que l'espace sépare les milliers et la virgule marque les décimales (1 250,50 devient 1250.50). En mode US, il interprète correctement la virgule comme séparateur de milliers (1,250.50 devient 1250.50).
Les Séparateurs : L'algorithme ajuste ses probabilités de détection, privilégiant le point-virgule (;) pour les fichiers FR et la virgule (,) pour les fichiers US.
8. Optimisation Structurelle : Lignes Vides et Doublons
Un fichier lourd ralentit vos systèmes. Le nettoyage des données superflues est effectué à la volée.
Lignes 100% vides : Toute ligne ne contenant aucune valeur utile est ignorée et supprimée du fichier de sortie.
Dédoublonnage strict : Le programme compare l'intégralité des lignes. Si deux lignes (ou plus) sont rigoureusement identiques sur toutes leurs colonnes, une seule est conservée.
9. Sécurité des Données et Prévention des Injections (XSS)
L'importation de fichiers externes représente un risque de sécurité (injections de scripts).
L'action du programme : Avant restitution, une fonction de "Sanitization" chirurgicale est appliquée. Les caractères sensibles utilisés dans le code informatique (<, >, &, ", ', /) sont convertis en entités HTML inoffensives. Cela garantit que votre fichier CSV ne peut pas exécuter de code malveillant s'il est importé dans votre CRM ou sur un affichage web.
10. Audit et Traçabilité (Le Rapport JSON)
La transparence est totale. Vous ne confiez pas vos données à une "boîte noire".
L'action du programme : Chaque modification effectuée par CleanMyCSV est consignée. En plus de votre fichier propre, l'outil génère un rapport d'audit exhaustif (disponible en téléchargement).
Ce que contient le rapport : Le nombre exact de lignes traitées, le nombre de colonnes, et le détail ligne par ligne de la valeur Avant et de la valeur Après correction, avec le motif exact de la modification (jusqu'à 1000 détails affichés pour préserver les performances).