Exporter python scikit learn models en pmml

Question

Je veux exporter des modèles python scikit-learn en PMML.

Quel package python est le mieux adapté?

J'ai lu Augustus , mais je n'ai pas pu trouver d'exemple en utilisant des modèles scikit-learn.

C8H10N4O2 · Answer

SkLearn2PMML est

une enveloppe mince autour de l'application de ligne de commande JPMML-SkLearn. Pour obtenir une liste des types d'estimateur et de transformateur Scikit-Learn pris en charge, reportez-vous à la documentation du projet JPMML-SkLearn.

Comme le note @ user1808924, il prend en charge Python 2.7 ou 3.4+. Il nécessite également Java 1.7+

Installé via: (nécessite git )

pip install git+https://github.com/jpmml/sklearn2pmml.git

Exemple de la façon d'exporter un arbre classificateur vers PMML. Faites d'abord grandir l'arbre:

# example tree & viz from http://scikit-learn.org/stable/modules/tree.html from sklearn import datasets, tree iris = datasets.load_iris() clf = tree.DecisionTreeClassifier() clf = clf.fit(iris.data, iris.target)

Une conversion SkLearn2PMML comprend deux parties, un estimateur (notre clf) et un mappeur (pour les étapes de prétraitement telles que la discrétisation ou l'ACP). Notre mappeur est assez basique, car nous ne faisons aucune transformation.

from sklearn_pandas import DataFrameMapper default_mapper = DataFrameMapper([(i, None) for i in iris.feature_names + ['Species']]) from sklearn2pmml import sklearn2pmml sklearn2pmml(estimator=clf, mapper=default_mapper, pmml="D:/workspace/IrisClassificationTree.pmml")

Il est possible (mais non documenté) de passer mapper=None, mais vous verrez que les noms des prédicteurs se perdent (renvoyant x1 ne pas sepal length etc.).

Regardons le .pmml fichier:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?> <PMML xmlns="http://www.dmg.org/PMML-4_3" version="4.3"> <Header> <Application name="JPMML-SkLearn" version="1.1.1"/> <Timestamp>2016-09-26T19:21:43Z</Timestamp> </Header> <DataDictionary> <DataField name="sepal length (cm)" optype="continuous" dataType="float"/> <DataField name="sepal width (cm)" optype="continuous" dataType="float"/> <DataField name="petal length (cm)" optype="continuous" dataType="float"/> <DataField name="petal width (cm)" optype="continuous" dataType="float"/> <DataField name="Species" optype="categorical" dataType="string"> <Value value="setosa"/> <Value value="versicolor"/> <Value value="virginica"/> </DataField> </DataDictionary> <TreeModel functionName="classification" splitCharacteristic="binarySplit"> <MiningSchema> <MiningField name="Species" usageType="target"/> <MiningField name="sepal length (cm)"/> <MiningField name="sepal width (cm)"/> <MiningField name="petal length (cm)"/> <MiningField name="petal width (cm)"/> </MiningSchema> <Output> <OutputField name="probability_setosa" dataType="double" feature="probability" value="setosa"/> <OutputField name="probability_versicolor" dataType="double" feature="probability" value="versicolor"/> <OutputField name="probability_virginica" dataType="double" feature="probability" value="virginica"/> </Output> <Node id="1"> <True/> <Node id="2" score="setosa" recordCount="50.0"> <SimplePredicate field="petal width (cm)" operator="lessOrEqual" value="0.8"/> <ScoreDistribution value="setosa" recordCount="50.0"/> <ScoreDistribution value="versicolor" recordCount="0.0"/> <ScoreDistribution value="virginica" recordCount="0.0"/> </Node> <Node id="3"> <SimplePredicate field="petal width (cm)" operator="greaterThan" value="0.8"/> <Node id="4"> <SimplePredicate field="petal width (cm)" operator="lessOrEqual" value="1.75"/> <Node id="5"> <SimplePredicate field="petal length (cm)" operator="lessOrEqual" value="4.95"/> <Node id="6" score="versicolor" recordCount="47.0"> <SimplePredicate field="petal width (cm)" operator="lessOrEqual" value="1.6500001"/> <ScoreDistribution value="setosa" recordCount="0.0"/> <ScoreDistribution value="versicolor" recordCount="47.0"/> <ScoreDistribution value="virginica" recordCount="0.0"/> </Node> <Node id="7" score="virginica" recordCount="1.0"> <SimplePredicate field="petal width (cm)" operator="greaterThan" value="1.6500001"/> <ScoreDistribution value="setosa" recordCount="0.0"/> <ScoreDistribution value="versicolor" recordCount="0.0"/> <ScoreDistribution value="virginica" recordCount="1.0"/> </Node> </Node> <Node id="8"> <SimplePredicate field="petal length (cm)" operator="greaterThan" value="4.95"/> <Node id="9" score="virginica" recordCount="3.0"> <SimplePredicate field="petal width (cm)" operator="lessOrEqual" value="1.55"/> <ScoreDistribution value="setosa" recordCount="0.0"/> <ScoreDistribution value="versicolor" recordCount="0.0"/> <ScoreDistribution value="virginica" recordCount="3.0"/> </Node> <Node id="10"> <SimplePredicate field="petal width (cm)" operator="greaterThan" value="1.55"/> <Node id="11" score="versicolor" recordCount="2.0"> <SimplePredicate field="sepal length (cm)" operator="lessOrEqual" value="6.95"/> <ScoreDistribution value="setosa" recordCount="0.0"/> <ScoreDistribution value="versicolor" recordCount="2.0"/> <ScoreDistribution value="virginica" recordCount="0.0"/> </Node> <Node id="12" score="virginica" recordCount="1.0"> <SimplePredicate field="sepal length (cm)" operator="greaterThan" value="6.95"/> <ScoreDistribution value="setosa" recordCount="0.0"/> <ScoreDistribution value="versicolor" recordCount="0.0"/> <ScoreDistribution value="virginica" recordCount="1.0"/> </Node> </Node> </Node> </Node> <Node id="13"> <SimplePredicate field="petal width (cm)" operator="greaterThan" value="1.75"/> <Node id="14"> <SimplePredicate field="petal length (cm)" operator="lessOrEqual" value="4.8500004"/> <Node id="15" score="virginica" recordCount="2.0"> <SimplePredicate field="sepal width (cm)" operator="lessOrEqual" value="3.1"/> <ScoreDistribution value="setosa" recordCount="0.0"/> <ScoreDistribution value="versicolor" recordCount="0.0"/> <ScoreDistribution value="virginica" recordCount="2.0"/> </Node> <Node id="16" score="versicolor" recordCount="1.0"> <SimplePredicate field="sepal width (cm)" operator="greaterThan" value="3.1"/> <ScoreDistribution value="setosa" recordCount="0.0"/> <ScoreDistribution value="versicolor" recordCount="1.0"/> <ScoreDistribution value="virginica" recordCount="0.0"/> </Node> </Node> <Node id="17" score="virginica" recordCount="43.0"> <SimplePredicate field="petal length (cm)" operator="greaterThan" value="4.8500004"/> <ScoreDistribution value="setosa" recordCount="0.0"/> <ScoreDistribution value="versicolor" recordCount="0.0"/> <ScoreDistribution value="virginica" recordCount="43.0"/> </Node> </Node> </Node> </Node> </TreeModel> </PMML>

La première division (nœud 1) est sur la largeur des pétales à 0,8. Node 2 (largeur des pétales <= 0,8) capture tout le setosa, sans rien d'autre.

Vous pouvez comparer la sortie pmml à la sortie graphviz:

from sklearn.externals.six import StringIO import pydotplus # this might be pydot for python 2.7 dot_data = StringIO() tree.export_graphviz(clf, out_file=dot_data, feature_names=iris.feature_names, class_names=iris.target_names, filled=True, rounded=True, special_characters=True) graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) graph.write_pdf("D:/workspace/iris.pdf") # for in-line display, you can also do: # from IPython.display import Image # Image(graph.create_png())

dr. rAI · Answer

N'hésitez pas à essayer Nyoka. Exporte les modèles SKL, puis certains.

Nirmal · Answer

Nyoka est une bibliothèque python prenant en charge Scikit-learn, XGBoost, LightGBM, Keras et Statsmodels.

Outre environ 500 classes Python qui couvrent chacune une balise PMML et tous les paramètres/attributs du constructeur tels que définis dans la norme, Nyoka fournit également un nombre croissant de classes et de fonctions pratiques qui facilitent la vie du Data Scientist. par exemple en lisant ou en écrivant n'importe quel fichier PMML dans une ligne de code à partir de votre environnement Python préféré).

Il peut être installé à partir de PyPi en utilisant:

pip install nyoka

Exemple de code

Exemple 1

import pandas as pd from sklearn import datasets from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler, Imputer from sklearn_pandas import DataFrameMapper from sklearn.ensemble import RandomForestClassifier iris = datasets.load_iris() irisd = pd.DataFrame(iris.data, columns=iris.feature_names) irisd['Species'] = iris.target features = irisd.columns.drop('Species') target = 'Species' pipeline_obj = Pipeline([ ("mapping", DataFrameMapper([ (['sepal length (cm)', 'sepal width (cm)'], StandardScaler()) , (['petal length (cm)', 'petal width (cm)'], Imputer()) ])), ("rfc", RandomForestClassifier(n_estimators = 100)) ]) pipeline_obj.fit(irisd[features], irisd[target]) from nyoka import skl_to_pmml skl_to_pmml(pipeline_obj, features, target, "rf_pmml.pmml")

Exemple 2

from keras import applications from keras.layers import Flatten, Dense from keras.models import Model model = applications.MobileNet(weights='imagenet', include_top=False,input_shape = (224, 224,3)) activType='sigmoid' x = model.output x = Flatten()(x) x = Dense(1024, activation="relu")(x) predictions = Dense(2, activation=activType)(x) model_final = Model(inputs =model.input, outputs = predictions,name='predictions') from nyoka import KerasToPmml cnn_pmml = KerasToPmml(model_final,dataSet='image',predictedClasses=['cats','dogs']) cnn_pmml.export(open('2classMBNet.pmml', "w"), 0)

Plus d'exemples peuvent être trouvés dans Page Github de Nyoka .