web-dev-qa-db-fra.com

Existe-t-il des services connus pour valider un fichier CSV?

Existe-t-il un bon sites/services pour valider la cohérence du fichier CSV? 

Identique à validateur W3C mais pour CSV?

31
Dmitriy Naumov

Je suis récemment tombé sur Google Fine. Ce n'est pas un service de validation de fichiers CSV, c'est un outil que vous téléchargez en local, mais il fournit de nombreux outils pour travailler avec les données et détecter les anomalies.

http://code.google.com/p/google-refine/

Comme indiqué dans une réponse, "CSV" est devenu un terme mal défini, principalement parce que les utilisateurs ne suivent pas la méthode véritablement unique lorsqu'ils utilisent des données séparées par délimiteur.

http://www.catb.org/~esr/writings/taoup/html/ch05s02.html

EDIT/UPDATE (2016-08-09):
CSV en passe de devenir un terme bien défini par le groupe de travail CSV du W3C

20
Adrian

Open Data Institute développe un service de validation CSV qui permettra aux utilisateurs de vérifier la structure de leurs données et de la valider par rapport à un simple schéma.

Le service est encore très en alpha mais peut être trouvé ici:

http://csvlint.io/

Le code de l'application et la bibliothèque sous-jacente sont tous deux open source:

https://github.com/theodi/csvlint

https://github.com/theodi/csvlint.rb

Le README dans la bibliothèque fournit un résumé des erreurs et des avertissements pouvant être générés. Les types d'erreur suivants peuvent être signalés:

  • :wrong_content_type - le type de contenu n'est pas text/csv
  • :ragged_rows - la ligne a un nombre différent de colonnes (que la première ligne du fichier)
  • :blank_rows - ligne complètement vide, par exemple ligne vide ou une ligne où toutes les valeurs de colonne sont vides
  • :invalid_encoding - erreur de codage lors de l'analyse d'une ligne, par ex. à cause de caractères invalides
  • :not_found - Erreur HTTP 404 lors de la récupération des données
  • :quoting - problème avec la citation, par exemple citation manquante ou parasite, champ cité non clos
  • :whitespace - une colonne citée a des espaces de début ou de fin

Les types d’avertissement suivants peuvent être signalés:

  • :no_encoding - l'en-tête Content-Type renvoyé dans la requête HTTP n'a pas de paramètre charset
  • :encoding - le jeu de caractères n'est pas UTF-8
  • :no_content_type - le fichier est servi sans en-tête Content-Type
  • :Excel - pas d'en-tête Content-Type et l'extension de fichier est .xls
  • :check_options - le fichier CSV semble contenir une seule colonne
  • :inconsistent_values - valeurs incohérentes dans la même colonne. Signalé si <90% des valeurs semblent avoir le même type de données (numérique ou alphanumérique, y compris la ponctuation)
9
ldodds

Pour valider un fichier CSV, j'utilise l'extension Rainbow CSV dans Visual Studio Code et j'ouvre également le fichier CSV dans Excel.

1
mruanova

CSV Lint at csvlint.com (pas .io :) est un service que nous développons pour résoudre ce problème. Il vérifie les fichiers CSV par rapport aux règles/schémas de validation définis par l'utilisateur, cellule par cellule.

Nous avons passé beaucoup de temps à peaufiner l'interface utilisateur pour permettre aux utilisateurs de créer facilement des règles/schémas de validation complexes qui répondent à leurs besoins métier sans disposer d'une seule ligne de code. 

Notre fonctionnalité de validation hors ligne permet aux utilisateurs de voir les résultats en temps réel, même lors de la validation de plusieurs fichiers de grande taille (avec des millions de lignes +), et surtout, de protéger à 100% la confidentialité des données de l'utilisateur.

0
Joe

Les Archives nationales ont développé un CSV Schema Language et CSV Validator , un logiciel écrit en Java. C'est open source. 

0
Milos