Pourquoi n’obtiens-nous qu’un seul paramètre à partir d’un ajustement OLS de statsmodels

Question

Voici ce que je fais:

$ python Python 2.7.6 (v2.7.6:3a1db0d2747e, Nov 10 2013, 00:42:54) [GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin >>> import statsmodels.api as sm >>> statsmodels.__version__ '0.5.0' >>> import numpy >>> y = numpy.array([1,2,3,4,5,6,7,8,9]) >>> X = numpy.array([1,1,2,2,3,3,4,4,5]) >>> res_ols = sm.OLS(y, X).fit() >>> res_ols.params array([ 1.82352941])

Je m'attendais à un tableau avec deux éléments?!?. L'interception et le coefficient de pente?

behzad.nouri · Accepted Answer

Essaye ça:

X = sm.add_constant(X) sm.OLS(y,X)

comme dans la documentation :

Une interception n'est pas incluse par défaut et doit être ajoutée par l'utilisateur

statsmodels.tools.tools.add_constant

Tom · Answer

Juste pour être complet, cela fonctionne:

>>> import numpy >>> import statsmodels.api as sm >>> y = numpy.array([1,2,3,4,5,6,7,8,9]) >>> X = numpy.array([1,1,2,2,3,3,4,4,5]) >>> X = sm.add_constant(X) >>> res_ols = sm.OLS(y, X).fit() >>> res_ols.params array([-0.35714286, 1.92857143])

Cela me donne un coefficient de pente différent, mais je suppose que ces chiffres, comme nous le faisons maintenant, ont une intersection.

sup · Answer

Essayez ceci, cela a fonctionné pour moi:

import statsmodels.formula.api as sm from statsmodels.api import add_constant X_train = add_constant(X_train) X_test = add_constant(X_test) model = sm.OLS(y_train,X_train) results = model.fit() y_pred=results.predict(X_test) results.params

R.jzadeh · Answer

j'ai ajouté le code X = sm.add_constant(X) mais python n'a pas renvoyé la valeur d'interception, aussi, avec un peu d'algèbre, j'ai décidé de le faire moi-même dans le code:

ce code calcule la régression sur 35 échantillons, 7 caractéristiques plus une valeur d'interception que j'ai ajoutée comme caractéristique à l'équation:

import statsmodels.api as sm from sklearn import datasets ## imports datasets from scikit-learn import numpy as np import pandas as pd x=np.empty((35,8)) # (numSamples, oneIntercept + numFeatures)) feature_names = np.empty((8,)) y = np.empty((35,)) dbfv = open("dataset.csv").readlines() interceptConstant = 1; i = 0 # reading data and writing in numpy arrays while i<len(dbfv): cells = dbfv[i].split(",") j = 0 x[i][j] = interceptConstant feature_names[j] = str(j) while j<len(cells)-1: x[i][j+1] = cells[j] feature_names[j+1] = str(j+1) j += 1 y[i] = cells[len(cells)-1] i += 1 # creating dataframes df = pd.DataFrame(x, columns=feature_names) target = pd.DataFrame(y, columns=["TARGET"]) X = df y = target["TARGET"] model = sm.OLS(y, X).fit() print(model.params) # predictions = model.predict(X) # make the predictions by the model # Print out the statistics print(model.summary())

lukearmistead · Answer

J'utilise la version 0.6.1 et il semble que la fonction "add_constant" ait été déplacée dans le module statsmodels.tools. Voici ce que j'ai couru qui a fonctionné:

res_ols = sm.OLS(y, statsmodels.tools.add_constant(X)).fit()