Je lis Abdi & Williams (2010) "Principal Component Analysis", et j'essaie de refaire le SVD pour atteindre des valeurs pour d'autres PCA.
L'article indique que SVD suivant:
X = P D Q ^ t
Je charge mes données dans un np.array X.
X = np.array(data)
P, D, Q = np.linalg.svd(X, full_matrices=False)
D = np.diag(D)
Mais je n'obtiens pas l'égalité ci-dessus lors de la vérification avec
X_a = np.dot(np.dot(P, D), Q.T)
X_a et X sont les mêmes dimensions, mais les valeurs ne sont pas les mêmes. Suis-je en train de manquer quelque chose, ou la fonctionnalité de la fonction np.linalg.svd n'est-elle pas compatible d'une manière ou d'une autre avec l'équation du document?
TL; DR: le SVD de numpy calcule X = PDQ, donc le Q est déjà transposé.
SVD décompose efficacement la matrice X
en rotations P
et Q
et la matrice diagonale D
. La version de linalg.svd()
J'ai des retours vers l'avant pour P
et Q
. Vous ne voulez pas transformer Q
lorsque vous calculez X_a
.
import numpy as np
X = np.random.normal(size=[20,18])
P, D, Q = np.linalg.svd(X, full_matrices=False)
X_a = np.matmul(np.matmul(P, np.diag(D)), Q)
print(np.std(X), np.std(X_a), np.std(X - X_a))
J'obtiens: 1.02, 1.02, 1.8e-15, montrant que X_a
Reconstruit très précisément X
.
Si vous utilisez Python 3, l'opérateur @
Implémente la multiplication matricielle et rend le code plus facile à suivre:
import numpy as np
X = np.random.normal(size=[20,18])
P, D, Q = np.linalg.svd(X, full_matrices=False)
X_a = P @ diag(D) @ Q
print(np.std(X), np.std(X_a), np.std(X - X_a))
print('Is X close to X_a?', np.isclose(X, X_a).all())
À partir de la docstring scipy.linalg.svd, où (M, N) est la forme de la matrice d'entrée, et K est le moindre des deux:
Returns
-------
U : ndarray
Unitary matrix having left singular vectors as columns.
Of shape ``(M,M)`` or ``(M,K)``, depending on `full_matrices`.
s : ndarray
The singular values, sorted in non-increasing order.
Of shape (K,), with ``K = min(M, N)``.
Vh : ndarray
Unitary matrix having right singular vectors as rows.
Of shape ``(N,N)`` or ``(K,N)`` depending on `full_matrices`.
Vh, comme décrit, est la transposition du Q utilisé dans l'article d'Abdi et Williams. Alors juste
X_a = P.dot(D).dot(Q)
devrait vous donner votre réponse.
Je pense qu'il y a encore des points importants pour ceux qui utilisent SVD dans la bibliothèque Python/linalg. Tout d'abord, https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.svd.html est une bonne référence pour la fonction de calcul SVD.
En prenant le calcul SVD comme A = U D (V ^ T), Pour U, D, V = np.linalg.svd (A), cette fonction renvoie déjà V sous la forme V ^ T. De plus, D ne contient que des valeurs propres, il doit donc être façonné sous forme matricielle. Par conséquent, la reconstruction peut être formée avec
import numpy as np
U, D, V = np.linalg.svd(A)
A_reconstructed = U @ np.diag(D) @ V
Le fait est que, si une matrice n'est pas une matrice carrée mais rectangulaire, cela ne fonctionnera pas, vous pouvez l'utiliser à la place
import numpy as np
U, D, V = np.linalg.svd(A)
m, n = A.shape
A_reconstructed = U[:,:n] @ np.diag(D) @ V[:m,:]
ou vous pouvez utiliser l'option 'full_matrices = False' dans la fonction SVD;
import numpy as np
U, D, V = np.linalg.svd(A,full_matrices=False)
A_reconstructed = U @ np.diag(D) @ V