web-dev-qa-db-fra.com

Comment gérer la variable de date dans le pré-traitement des données d'apprentissage automatique

J'ai un ensemble de données qui contient entre autres variables l'horodatage de la transaction au format 26-09-2017 15:29:32. J'ai besoin de trouver des corrélations et prédictions possibles des ventes (disons en régression logistique). Mes questions sont:

  1. Comment gérer le format de date? Dois-je le convertir en un seul nombre (comme Excel le fait automatiquement)? Dois-je le diviser en plusieurs variables comme le jour, le mois, l'année, l'heure, les minutes, les secondes? d'autres suggestions possibles?
  2. Que faire si je souhaite ajouter un numéro de semaine distinct par an? dois-je ajouter une variable comme 342017 (semaine 34 de l'année 2017)?
  3. Dois-je faire de même pour la question 2 pour le trimestre de l'année?
#         Datetime               Gender        Purchase
1    23/09/2015 00:00:00           0             1
2    23/09/2015 01:00:00           1             0
3    25/09/2015 02:00:00           1             0
4    27/09/2015 03:00:00           1             1
5    28/09/2015 04:00:00           0             0
8
ukdatahub

Quelques pensées aléatoires:

Les dates sont de bonnes sources pour l'ingénierie des fonctionnalités, je ne pense pas qu'il existe une méthode pour utiliser les dates dans un modèle. L'expertise des utilisateurs professionnels serait formidable; Y a-t-il des tendances observées qui peuvent être codées dans les données?

Les suggestions de fonctionnalités possibles incluent:

  • week-ends vs jours de semaine
  • heures d'ouverture et heure de la journée
  • saisons
  • numéro de la semaine de l'année
  • mois
  • année
  • début/fin de mois (jours de paie)
  • trimestre
  • jours vers/depuis un événement d'action (distance)
  • données manquantes ou incomplètes
  • etc.

Tout cela dépend de l'ensemble de données et la plupart ne s'appliquent pas.

quelques liens:

http://appliedpredictivemodeling.com/blog/2015/7/28/feature-engineering-versus-feature-extraction

https://www.salford-systems.com/blog/dan-steinberg/using-dates-in-data-mining-models

http://trevorstephens.com/kaggle-titanic-tutorial/r-part-4-feature-engineering/

17
Ryan John