Mostly clean ups

2007-11-27 15:05:19 +00:00
parent 2951ca4088
commit 4c809674bb
2 changed files with 98 additions and 84 deletions
--- a/pyblm/crossvalidation.py
+++ b/pyblm/crossvalidation.py
@ -12,7 +12,7 @@ from numpy.random import shuffle
 from engines import nipals_lpls as lpls
-def lpls_val(X, Y, Z, a_max=2, nsets=None,alpha=.5, mean_ctr=[2,0,2], zorth=False, verbose=True):
+def lpls_val(X, Y, Z, a_max=2, nsets=None,alpha=.5, mean_ctr=[2,0,2], zorth=False, verbose=False):
    """Performs crossvalidation for generalisation error in lpls.
    The L-PLS crossvalidation is estimated just like an ordinary pls
@ -61,8 +61,8 @@ def lpls_val(X, Y, Z, a_max=2, nsets=None,alpha=.5, mean_ctr=[2,0,2], zorth=Fals
    m, n = X.shape
    k, l = Y.shape
    o, p = Z.shape
-    assert m==k, "X (%d,%d) - Y (%d,%d) dim mismatch" %(m,n,k,l)
+    assert m == k, "X (%d,%d) - Y (%d,%d) dim mismatch" %(m, n, k, l)
-    assert n==p, "X (%d,%d) - Z (%d,%d) dim mismatch" %(m,n,o,p)
+    assert n == p, "X (%d,%d) - Z (%d,%d) dim mismatch" %(m, n, o, p)
    if nsets == None:
        nsets = m 
    if nsets > X.shape[0]:
@ -80,11 +80,11 @@ def lpls_val(X, Y, Z, a_max=2, nsets=None,alpha=.5, mean_ctr=[2,0,2], zorth=Fals
        if mean_ctr[0] != 1:
            xi = X[val,:] - dat['mnx']
        else:
-            xi = X[val] - X[val].mean(1)[:,newaxis]
+            xi = X[val] - X[cal].mean(1)[:,newaxis]
        if mean_ctr[2] != 1:
            ym = dat['mny']
        else:
-            ym = Y[val].mean(1)[:,newaxis] #???: check this
+            ym = Y[cal].mean(1)[:,newaxis]
        # predictions
        for a in range(a_max):
            Yhat[a,val,:] = atleast_2d(ym + dot(xi, dat['B'][a]))
@ -113,7 +113,7 @@ def lpls_val(X, Y, Z, a_max=2, nsets=None,alpha=.5, mean_ctr=[2,0,2], zorth=Fals
 def pca_jk(a, aopt, n_blocks=None):
    """Returns jack-knife segements from PCA.
-    Parameters:
+    *Parameters*:
        a : {array}
            data matrix (n x m)
@ -122,20 +122,14 @@ def pca_jk(a, aopt, n_blocks=None):
        nsets : {integer}
            number of segments
-    Returns:
+    *Returns*:
        Pcv : {array}
            Loadings collected in a three way matrix (n_segments, m, aopt)
-    Notes:
+    *Notes*:
        - The loadings are scaled with the (1/samples)*eigenvalues.
        - Crossvalidation method is currently set to random blocks of samples.
        - todo: add support for T
        - fixme: more efficient to add this in validation loop?
    """
    if nsets == None:
@ -183,7 +177,7 @@ def pls_jk(X, Y, a_opt, nsets=None, center=True, verbose=False):
    """
    m, n = X.shape
    k, l = Y.shape
-    assert(m==k)
+    assert(m == k)
    if nsets == None:
        nsets = X.shape[0]
    Wcv = empty((nsets, X.shape[1], a_opt), dtype=X.dtype)
@ -242,9 +236,9 @@ def lpls_jk(X, Y, Z, a_opt, nsets=None, xz_alpha=.5, mean_ctr=[2,0,2], verbose=F
    m, n = X.shape
    k, l = Y.shape
    o, p = Z.shape
-    assert(m==k)
+    assert(m == k)
-    assert(n==p)
+    assert(n == p)
-    if nsets==None:
+    if nsets == None:
        nsets = m
    WWx = empty((nsets, n, a_opt), 'd')
    WWz = empty((nsets, o, a_opt), 'd')
@ -279,12 +273,12 @@ def find_aopt_from_sep(sep, method='vanilla'):
            A guess on the optimal number of components
    """
-    if method=='vanilla':
+    if method == 'vanilla':
        # min rmsep
        rmsecv = sqrt(sep.mean(0))
        return rmsecv.argmin() + 1
-    elif method=='75perc':
+    elif method == '75perc':
        prct = .75 #percentile
        ind = 1.*sep.shape[0]*prct
        med = median(sep)
@ -305,6 +299,7 @@ def cv(N, K, randomise=True, sequential=False):
    of length ~N/K, *without* replacement.
    *Parameters*:
        N : {integer}
            Total number of samples
        K : {integer}
@ -333,7 +328,7 @@ def cv(N, K, randomise=True, sequential=False):
        otherwise interleaved ordering is used.
    """
-    if N>K:
+    if N > K:
        raise ValueError, "You cannot divide a list of %d samples into more than %d segments. Yout tried: %s" %(K, K, N)
    index = xrange(N)
    if randomise:
--- a/pyblm/engines.py
+++ b/pyblm/engines.py
@ -9,16 +9,17 @@ from math import sqrt as msqrt
 from numpy import dot,empty,zeros,apply_along_axis,newaxis,finfo,sqrt,r_,expand_dims,\
 minimum
-from numpy.linalg import inv, svd
+from numpy.linalg import inv,svd
 from scipy.sandbox import arpack
 def pca(X, aopt, scale='scores', mode='normal', center_axis=0):
    """ Principal Component Analysis.
    PCA is a low rank bilinear aprroximation to a data matrix that sequentially
    extracts orthogonal components of maximum variance.
-    Parameters:
+    *Parameters*:
        X : {array}
            Data measurement matrix, (samples x variables)
@ -27,7 +28,7 @@ def pca(X, aopt, scale='scores', mode='normal', center_axis=0):
        center_axis : {integer}
            Center along given axis. If neg.: no centering (-inf,..., matrix modes)
-    Returns:
+    *Returns*:
        T : {array}
            Scores, (samples, components)
@ -47,7 +48,7 @@ def pca(X, aopt, scale='scores', mode='normal', center_axis=0):
        leverage : {array}
            Leverages, (samples,)
-    OtherParameters:
+    *OtherParameters*:
        scale : {string}, optional
             Where to put the weights [['scores'], 'loadings']
@ -55,7 +56,7 @@ def pca(X, aopt, scale='scores', mode='normal', center_axis=0):
            Amount of info retained, [['normal'], 'fast', 'detailed']
-    :SeeAlso:
+    *SeeAlso*:
        `center` : Data centering
@ -78,10 +79,12 @@ def pca(X, aopt, scale='scores', mode='normal', center_axis=0):
    """
    m, n = X.shape
-    assert(aopt<=min(m,n))
+    min_aopt = min(m, n)
-    if center_axis>=0:
+    if center_axis >= 0:
        X = X - expand_dims(X.mean(center_axis), center_axis)
-    if m>(n+100) or n>(m+100):
+        min_aopt = min_aopt - 1
    assert(aopt <= min_aopt)
    if m > (n+100) or n > (m+100):
        u, s, v = esvd(X, aopt)
    else:
        u, s, vt = svd(X, 0)
@ -92,7 +95,7 @@ def pca(X, aopt, scale='scores', mode='normal', center_axis=0):
    # ranktest
    tol = 1e-10
-    eff_rank = sum(s>s[0]*tol)
+    eff_rank = sum(s > s[0]*tol)
    aopt = minimum(aopt, eff_rank)
    T = u*s
    s = s[:aopt]
@ -124,7 +127,7 @@ def pca(X, aopt, scale='scores', mode='normal', center_axis=0):
        sep = E**2
        ssq = [sep.sum(0), sep.sum(1)]
        # leverages
-        if scale=='loads':
+        if scale == 'loads':
            lev = [(1./m)+(T**2).sum(1), (1./n)+((P/s)**2).sum(1)]
        else:
            lev = [(1./m)+((T/s)**2).sum(1), (1./n)+(P**2).sum(1)]
@ -139,7 +142,7 @@ def pcr(a, b, aopt, scale='scores',mode='normal',center_axis=0):
    Performs PCR on given matrix and returns results in a dictionary.
-    Parameters:
+    *Parameters*:
        a : array
        Data measurement matrix, (samples x variables)
@ -148,19 +151,19 @@ def pcr(a, b, aopt, scale='scores',mode='normal',center_axis=0):
        aopt : int
        Number of components to use, aopt<=min(samples, variables)
-    Returns:
+    *Returns*:
    results : dict
        keys -- values,  T -- scores, P -- loadings, E -- residuals,
        levx -- leverages, ssqx -- sum of squares, expvarx -- cumulative
        explained variance, aopt -- number of components used
-    OtherParameters:
+    *OtherParameters*:
-    mode : str
+        mode : {string}
-        Amount of info retained, ('fast', 'normal', 'detailed')
+            Amount of info retained, ('fast', 'normal', 'detailed')
-    center_axis : int
+        center_axis : {integer}
-        Center along given axis. If neg.: no centering (-inf,..., matrix modes)
+            Center along given axis. If neg.: no centering (-inf,..., matrix modes)
    SeeAlso:
@ -194,21 +197,21 @@ def pcr(a, b, aopt, scale='scores',mode='normal',center_axis=0):
    except:
        b = atleast_2d(b).T
        k, l = b.shape
-    if center_axis>=0:
+    if center_axis >= 0:
        b = b - expand_dims(b.mean(center_axis), center_axis)
    dat = pca(a, aopt=aopt, scale=scale, mode=mode, center_axis=center_axis)
    T = dat['T']
    weights = apply_along_axis(vnorm, 0, T)**2
-    if scale=='loads':
+    if scale == 'loads':
        Q = dot(b.T, T*weights)
    else:
        Q = dot(b.T, T/weights)
-    if mode=='fast':
+    if mode == 'fast':
        dat.update({'Q':Q})
        return dat
-    if mode=='detailed':
+    if mode == 'detailed':
        F = empty((aopt, k, l))
        ssqy = []
        for i in range(aopt):
@ -284,7 +287,7 @@ def pls(X, Y, aopt=2, scale='scores', mode='normal', center_axis=-1):
    *SeeAlso*:
-        `center` : data centering
+        `center` - data centering
    *Notes*
@ -310,14 +313,16 @@ def pls(X, Y, aopt=2, scale='scores', mode='normal', center_axis=-1):
    except:
        Y = atleast_2d(Y).T
        k, l = Y.shape
-    assert(m==k)
+    assert(m == k)
-    assert(aopt<min(m, n))
+    mnx, mny = 0, 0
-    mnx, mny = 0,0
+    min_aopt = min(m, n)
-    if center_axis>=0:
+    if center_axis >= 0:
        mnx = expand_dims(X.mean(center_axis), center_axis)
        X = X - mnx
        min_aopt = min_aopt - 1
        mny = expand_dims(Y.mean(center_axis), center_axis)
        Y = Y - mny 
    assert(aopt > 0 and aopt < min_aopt)
    W = empty((n, aopt))
    P = empty((n, aopt))
@ -329,10 +334,10 @@ def pls(X, Y, aopt=2, scale='scores', mode='normal', center_axis=-1):
    XY = dot(X.T, Y)
    for i in range(aopt):
-        if XY.shape[1]==1: #pls 1
+        if XY.shape[1] == 1: #pls 1
            w = XY.reshape(n, l)
            w = w/vnorm(w)
-        elif n<l: # more yvars than xvars
+        elif n < l: # more yvars than xvars
            s, w = arpack.eigen_symmetric(dot(XY, XY.T),k=1, tol=1e-10, maxiter=100)
            #w, s, vh = svd(dot(XY, XY.T))
            #w = w[:,:1]
@ -344,7 +349,7 @@ def pls(X, Y, aopt=2, scale='scores', mode='normal', center_axis=-1):
            w = dot(XY, q)
            w = w/vnorm(w)
        r = w.copy()
-        if i>0:
+        if i > 0:
            for j in range(0, i, 1):
                r = r - dot(P[:,j].T, w)*R[:,j][:,newaxis]
@ -356,8 +361,8 @@ def pls(X, Y, aopt=2, scale='scores', mode='normal', center_axis=-1):
        T[:,i] = t.ravel()
        W[:,i] = w.ravel()
-        if mode=='fast' and i==aopt-1:
+        if mode == 'fast' and i == (aopt - 1):
-            if scale=='loads':
+            if scale == 'loads':
                tnorm = sqrt(tt)
                T = T/tnorm
                W = W*tnorm
@ -371,7 +376,7 @@ def pls(X, Y, aopt=2, scale='scores', mode='normal', center_axis=-1):
    qnorm = apply_along_axis(vnorm, 0, Q)
    tnorm = sqrt(tt)
    pp = (P**2).sum(0)
-    if mode=='detailed':
+    if mode == 'detailed':
        E = empty((aopt, m, n))
        F = empty((aopt, k, l))
        ssqx, ssqy = [], []
@ -401,7 +406,7 @@ def pls(X, Y, aopt=2, scale='scores', mode='normal', center_axis=-1):
    expvarx = r_[0, 100*tp/(X*X).sum()]
    expvary = r_[0, 100*tq/(Y*Y).sum()]
-    if scale=='loads':
+    if scale == 'loads':
        T = T/tnorm
        W = W*tnorm
        Q = Q*tnorm
@ -495,11 +500,11 @@ def nipals_lpls(X, Y, Z, a_max, alpha=.7, mean_ctr=[2, 0, 2], scale='scores', zo
    m, n = X.shape
    k, l = Y.shape
    u, o = Z.shape
-    max_rank = min(m, n)
+    max_rank = min(m, n) + 1
-    assert (a_max>0 and a_max<max_rank), "Number of comp error:\
+    assert (a_max > 0 and a_max < max_rank), "Number of comp error:\
-    tried:%d, max_rank:%d" %(a_max,max_rank)
+    tried: %d, max_rank: %d" %(a_max, max_rank)
-    if mean_ctr!=None:
+    if mean_ctr != None:
        xctr, yctr, zctr = mean_ctr
        X, mnX = center(X, xctr)
        Y, mnY = center(Y, yctr)
@ -537,7 +542,7 @@ def nipals_lpls(X, Y, Z, a_max, alpha=.7, mean_ctr=[2, 0, 2], scale='scores', zo
        l = G[:,:1]
        diff = 1
        niter = 0
-        while (diff>LIM and niter<MAX_ITER):
+        while (diff > LIM and niter < MAX_ITER):
            niter += 1
            u1 = u.copy()
            w1 = w.copy()
@ -562,7 +567,7 @@ def nipals_lpls(X, Y, Z, a_max, alpha=.7, mean_ctr=[2, 0, 2], scale='scores', zo
            u = dot(F, c)
            diff = dot((u - u1).T, (u - u1))
        if verbose:
-            if niter==MAX_ITER:
+            if niter == MAX_ITER:
                print "Maximum nunber of iterations reached!"
            print "Iterations: %d " %niter
            print "Error: %.2E" %diff
@ -606,7 +611,7 @@ def nipals_lpls(X, Y, Z, a_max, alpha=.7, mean_ctr=[2, 0, 2], scale='scores', zo
    evy = 100.*(1 - var_y/varY)
    evz = 100.*(1 - var_z/varZ)
-    if scale=='loads':
+    if scale == 'loads':
        tnorm = apply_along_axis(vnorm, 0, T)
        T = T/tnorm
        W = W*tnorm
@ -617,6 +622,20 @@ def nipals_lpls(X, Y, Z, a_max, alpha=.7, mean_ctr=[2, 0, 2], scale='scores', zo
    return {'T':T, 'W':W, 'P':P, 'Q':Q, 'U':U, 'L':L, 'K':K, 'B':B, 'E': E, 'F': F, 'G': G, 'evx':evx, 'evy':evy, 'evz':evz,'mnx': mnX, 'mny': mnY, 'mnz': mnZ}    
 def lpls_predict(model_dict, x, aopt):
    """Predict lpls reponses from existing model on new data.
    """
    try:
        m, n = x.shape
    except:
        x = atleast_2d(x.shape)
        m, n = x.shape
    if 'B0' in model_dict.keys():
        y = model_dict['B0'] + dot()
 def vnorm(a):
    """Returns the norm of a vector.
@ -654,28 +673,28 @@ def center(a, axis):
    """
    # check if we have a vector
-    is_vec = len(a.shape)==1
+    is_vec = len(a.shape) == 1
    if not is_vec:
-        is_vec = a.shape[0]==1 or a.shape[1]==1
+        is_vec = a.shape[0] == 1 or a.shape[1] == 1
    if is_vec:
-        if axis==2:
+        if axis == 2:
            warnings.warn("Double centering of vecor ignored, using ordinary centering")
-        if axis==-1:
+        if axis == -1:
            mn = 0
        else:
            mn = a.mean()
        return a - mn, mn
    # !!!fixme: use broadcasting
-    if axis==-1:
+    if axis == -1:
        mn = zeros((1,a.shape[1],))
        #mn = tile(mn, (a.shape[0], 1))
-    elif axis==0:
+    elif axis == 0:
        mn = a.mean(0)[newaxis]
        #mn = tile(mn, (a.shape[0], 1)) 
-    elif axis==1:
+    elif axis == 1:
        mn = a.mean(1)[:,newaxis]
        #mn = tile(mn, (1, a.shape[1]))
-    elif axis==2:
+    elif axis == 2:
        mn = a.mean(0)[newaxis] + a.mean(1)[:,newaxis] - a.mean()
        return a - mn , a.mean(0)[newaxis]
    else:
@ -702,11 +721,11 @@ def _scale(a, axis):
            Scaling vector/matrix
    """
-    if axis==-1:
+    if axis == -1:
        sc = zeros((a.shape[1],))
-    elif axis==0:
+    elif axis == 0:
        sc = a.std(0)
-    elif axis==1:
+    elif axis == 1:
        sc = a.std(1)[:,newaxis]
    else:
        raise IOError("input error: axis must be in [-1,0,1]")
@ -714,19 +733,19 @@ def _scale(a, axis):
    return a - sc, sc
 def esvd(data, a_max=None):
-    """ SVD with kernel calculation
+    """SVD with kernel calculation.
    Calculate subspaces of X'X or XX' depending on the shape
    of the matrix.
-    Parameters:
+    *Parameters*:
        data : {array}
            Data matrix
        a_max : {integer}
            Number of components to extract
-    Returns:
+    *Returns*:
        u : {array}
            Right hand eigenvectors
@ -735,20 +754,20 @@ def esvd(data, a_max=None):
        v : {array}
            Left hand eigenvectors
-    notes:
+    *Notes*:
-        Uses Anoldi iterations (ARPACK)
+        Uses Anoldi iterations for the symmetric eigendecomp (ARPACK)
    """
    m, n = data.shape
-    if m>=n:
+    if m >= n:
        kernel = dot(data.T, data)
-        if a_max==None:
+        if a_max == None:
            a_max = n - 1
-        s, v = arpack.eigen_symmetric(kernel,k=a_max, which='LM',
+        s, v = arpack.eigen_symmetric(kernel, k=a_max, which='LM',
-                                    maxiter=200,tol=1e-5)
+                                      maxiter=200, tol=1e-5)
        s = s[::-1]
        v = v[:,::-1]
        #u, s, vt = svd(kernel)
@ -757,10 +776,10 @@ def esvd(data, a_max=None):
        u = dot(data, v)/s
    else:
        kernel = dot(data, data.T)
-        if a_max==None:
+        if a_max == None:
            a_max = m -1
-        s, u = arpack.eigen_symmetric(kernel,k=a_max, which='LM',
+        s, u = arpack.eigen_symmetric(kernel, k=a_max, which='LM',
-                                      maxiter=200,tol=1e-5)
+                                      maxiter=200, tol=1e-5)
        s = s[::-1]
        u = u[:,::-1]
        #u, s, vt = svd(kernel)