Je recherche ces outils open source éventuellement gratuits ou avec une version d'essai gratuite pour configurer une pile complète d'entrepôt de données.
Je connais quelques-uns comme Pentaho serveur Mondrian open source, mais je n'ai pas pu obtenir de résultat Google pour configurer la plate-forme complète. Je ne sais pas si ces composants sont compatibles entre eux? Quelqu'un pourrait-il les énumérer avec leur position dans la chaîne?
Open Source Data Warehousing fait un excellent travail pour identifier les composants OSS qui pourraient être utilisés pour construire une pile de Data Warehouse: infrastructure (serveurs, OS, bases de données), gestion de l'intégration (ETL, EAI, etc.), Gestion des informations (DW/Mart/ODS, serveurs OLap, etc.), livraison des informations (portail, tableau de bord, client Analytics/OLAP, etc.). En voici un résumé:
Projets Open Source BI/DW
BI et Analytics
- BEE - http://bee.insightstrategy.cz/en/index.html
- BIRT - http://www.Eclipse.org/birt
- JasperSoft - http://www.jaspersoft.com
- MarvelIT - http://www.marvelit.com/dash.html
- OpenI - http://openi.sourceforge.net
- OpenReports - http://oreports.com
- Orange - http://www.ailab.si/orange
- Palo - http://www.palo.net
- Pentaho - http://www.pentaho.com
- R - http://www.r-project.org
- SpagoBI - http://spagobi.eng.it
- Weka - http://www.cs.waikato.ac.nz/~ml/index.html
- VitalSigns - http://vitalsigns.sourceforge.net/
Bases de données
- http://greenplum.org (bizgres)
- http://www.Ingres.com
- http://www.mysql.com
- http://www.postgresql.org
- http://www.enterprisedb.com
L'intégration
- Apatar - http://www.apatar.com
- CloverETL - http://cloveretl.berlios.de/
- JitterBit - http://www.jitterbit.com/
- KETL - http://www.ketl.org
- Octopus - http://www.enhydra.org/tech/octopus/index.html
- OSDQ - http://sourceforge.net/projects/dataquality
- Pentaho - http://www.pentaho.com
- Red Hat - http://www.redhat.com
- Saga.M31 Galaxy - http://galaxy.sagadc.com
- Talend - http://www.talend.com
- SnapLogic - http://www.snaplogic.com
Je recommande de parcourir la présentation. Bon produit.
Une pile (ou suite) de datawarehouse se compose généralement de trois couches. Ceux-ci sont généralement référencés comme ETL
(chargement), Database
& Reporting
(interface). De plus, il existe des outils un peu plus avancés pour les performances et les besoins des experts. Il s'agit de Cubes
et Statistical Analysis Tools
.
En ce qui concerne l'interopérabilité, les outils ETL et les outils de création de rapports doivent prendre en charge la base de données que vous utilisez. Cependant, comme il n'y a que deux grandes bases de données open source, il n'y a généralement aucun problème à mélanger différentes solutions.
Quant aux détails -
1 - ETL
Le chargement des données peut être réalisé par des outils open-source tels que l'intégration de données de Pentaho ou Talend (une extension Eclipse). Je suggérerais de googler "open source etl" pour adapter la solution à vos besoins spécifiques.
2 - DB
Vous aurez besoin d'une base de données relationnelle (SGBDR). Les deux joueurs open source les plus importants sont PostgreSQL (utilisé par Stack Overflow) et MySQL. Alors que MySQL a une base d'utilisateurs plus large, Postgres gagne en popularité depuis la mise en œuvre de plusieurs fonctionnalités cruciales qui manquaient dans les versions précédentes.
3 - Rapports
Pentaho offre une plateforme de reporting. Il en va de même pour BIRT (une autre extension Eclipse). Encore une fois, Google est votre ami pour des comparaisons spécifiques. Notez que si vous choisissez Pentaho pour les outils ETL et Reporting, vous bénéficierez probablement d'une meilleure intégration. Vous avez également mentionné Mondrian, qui est un outil pour générer des requêtes MDX sur un SGBDR. MDX est le langage standard pour interroger les cubes.
À ce stade, en supposant que vous partez de zéro, je recommanderais de configurer les deux premières couches de l'entrepôt de données - ETL & DB. Vous pouvez ultérieurement ajouter n'importe quel nombre d'outils de création de rapports ci-dessus.
Ceci est une autre question similaire 20 milliards de lignes/mois - Hbase/Hive/Greenplum/Quoi?
La partie la plus pertinente:
Je ne saurais trop insister sur ce point: obtenez quelque chose qui fonctionne bien avec des outils de reporting standard.
.
Hive ou HBase vous permettent de créer un front-end personnalisé, ce que vous ne voulez vraiment pas, sauf si vous êtes heureux de passer les 5 prochaines années à écrire des formateurs de rapports personnalisés en Python.
Développant ce que Pascal a écrit:
Serveur OLAP: Mondrian
Tableaux pivotants AJAX: Saik
Concepteur de schéma OLAP: Pentaho Schema Workbench
Concepteur d'agrégats OLAP: Pentaho Aggregation Designer
ETL: Bouilloire Pentaho
Concepteur de rapports: Pentaho Report Designer
Qualité des données: DataCleaner
Entrepôt de données en colonnes: MonetDB
Exploration de données: RapidMiner