removed unused workflows

2007-09-03 15:50:16 +00:00
parent 2fdd9aaf77
commit f8e0cfdb8b
5 changed files with 15 additions and 1969 deletions
--- a/workflows/geneontology.py
+++ b/workflows/geneontology.py
@@ -1,261 +0,0 @@
-import gobject
-import gtk
-import networkx
-import re
-
-class GOTerm:
-    def __init__(self):
-        self.d = {}
-
-        ## Create empty lists for all list values
-        for l in GOTerm.lists:
-            self.d[l] = []
-        for s in GOTerm.scalars:
-            self.d[l] = None
-        
-    def __getitem__(self, key):
-        if self.d.has_key(key):
-            return self.d[key]
-        return None
-
-    def __setitem__(self, key, value):
-        self.d[key] = value
-
-GOTerm.lists = ['is_a', 'alt_id', 'exact_synonym', 'broad_synonym',
-                'narrow_synonym', 'related_synonym', 'relationship',
-                'subset', 'synonym', 'xref_analog', 'xref_unknown']
-GOTerm.scalars = ['name', 'id', 'namespace', 'def', 'is_transitive',
-                  'comment', 'is_obsolete']
-
-
-class GeneOntology(networkx.XDiGraph):
-    def __init__(self):
-        networkx.XDiGraph.__init__(self)
-        self.by_id = {}
-        self.undirected = None
-
-    def add_term(self, term):
-        self.add_node(term)
-        self.by_id[term['id']] = term
-        
-    def link_ontology(self, linkattr, obsolete=False):
-        for node in self.nodes():
-            for link in node[linkattr]:
-                self.add_edge(self.by_id[link], node, linkattr)
-
-    def link_relationships(self):
-        for node in self.nodes():
-            for link in node['relationship']:
-                link_type, term = link.split(' ')
-                self.add_edge(self.by_id[term.strip()], node, link_type.strip())
-
-    def get_bp(self):
-        """Returns the root node of the biological_process tree"""
-        return self.by_id['GO:0008150']
-
-    def get_cc(self):
-        """Returns the root node of the cellular_component tree"""
-        return self.by_id['id: GO:0005575']
-
-    def get_mf(self):
-        """Returns the root node of the molecular_function tree"""
-        return self.by_id['GO:0003674']
-
-    def _subsumer(self, t1, t2, heap):
-        while heap != []:
-            t = heap[0]
-            heap = heap[1:]
-
-            p1 = networkx.shortest_path(self, t, t1)
-            p2 = networkx.shortest_path(self, t, t2)
-            if p1 and p2:
-                return t
-
-            heap += self.in_neighbors(t)
-        return None
-
-    def subsumer(self, t1, t2):
-        if t1 == t2:
-            return t1
-        if networkx.shortest_path(self, t1, t2):
-            return t1
-        elif networkx.shortest_path(self, t2, t1):
-            return t2
-        return self._subsumer(t1, t2, self.in_neighbors(t1))
-
-    def old_subsumer(self, t1, t2):
-        if t1 == t2:
-            return t1
-
-        if self.undirected == None:
-            self.undirected = self.to_undirected()
-
-        path = networkx.shortest_path(self.undirected, t1, t2)
-        if not path:
-            print "Woah, path not found."
-            return None
-
-        if path == [1]:
-            print "This shouldn't happen"
-            return t1
-
-        for t in path:
-            if networkx.shortest_path(self, t, t1) and \
-                networkx.shortest_path(self, t, t2): 
-                return t
-
-        print "GeneOntology.subsumer: should not reach this point"
-        print "path is now: %s" % path
-        print "ids are: %s " % [x['id'] for x in path]
-
-def _split_obo_line(line):
-    """Splits a line from an obo file in its three constituent parts.
-    
-    @param line: A string containing a line from an obo file. The line must
-        either be a section definition field with a section name in brackets
-        or a line of the form: keyword: value ! comment
-    @returns: A tuple of four strings conaining the section, key, value and 
-        description defined in the string. If the section part is None, all
-        the other fields are strings and if section is a string, all the other
-        fields are None.
-    """
-    attrib_re = re.compile(r'^\s*([\w-]+)\s*:\s*([^!]*)!?(.*$)')
-    s = line.strip()    
-    if s == "":
-        return (None, None, None, None)
-    elif s.startswith('[') and s.endswith(']'):
-        return (s[1:-1], None, None, None)
-    else:
-        m = attrib_re.match(s)
-        if m:
-            key, value, comment = [x.strip() for x in m.groups()]        
-            return (None, key, value, comment)
-        else:
-            raise Exception('Unparsable line: %s' % line)
-
-
-def _add_term_attribute(term, key, value, comment):
-    if key in GOTerm.scalars:
-        term[key] = value
-    elif key in GOTerm.lists:
-        term[key].append(value)
-    else:
-        raise Exception('Unknown key %s: %s' % (key, value))
-   
-
-def read_gene_ontology(fd):
-    """Reads the Gene Ontology from an obo file.
-
-    @param fd: An open file object to the obo file.
-    """
-    go = GeneOntology()
-    term = None
-    section = None
-
-    line = fd.readline()
-    while line:
-        s, k, v, c = _split_obo_line(line)
-        if s == None and k == None:
-            pass
-        elif s:
-            if term:
-                go.add_term(term)
-
-            section = s
-            if s == 'Term':
-                term = GOTerm()
-            else:
-                term = None
-                print "ignoring: %s" %s
-        else:
-            if term:
-                _add_term_attribute(term, k, v, c)
-        line = fd.readline()
-
-    if term:
-        go.add_term(term)
-
-    return go            
-
-
-def pickle_gene_ontology(go, fn):
-    fd = open(fn, 'wb')
-    pickle.dump(go, fd)
-    fd.close()
-
-def load_pickled_ontology(fn):
-    fd = open(fn, 'rb')
-    go = pickle.load(fd)
-    fd.close()
-    return go
-
-def read_default_go():
-    f = open("/usr/share/gene-ontology/gene_ontology.obo")
-    go = read_gene_ontology(f)
-    go.link_ontology('is_a')
-    go.link_relationships()
-    f.close()
-    return go
-
-def _add_subgraphs(treestore, ontology, parent, nodes):
-    for n in nodes:
-        i = treestore.insert(parent, 0, (n['id'], n['name'], False, n))
-        _add_subgraphs(treestore, ontology, i, ontology.successors(n))
-
-def get_go_treestore(ontology):
-    ts = gtk.TreeStore(gobject.TYPE_STRING,   ## ID
-                       gobject.TYPE_STRING,   ## Name
-                       gobject.TYPE_BOOLEAN,  ## Selected
-                       gobject.TYPE_PYOBJECT) ## Node
-    _add_subgraphs(ts, ontology, None, [ontology.get_bp()])
-    return ts
-
-class NetworkTreeModel(gtk.GenericTreeModel):
-        
-    def __init__(self, network, root):
-        gtk.GenericTreeModel.__init__(self) 
-        self._network = network
-        self._root = root
-
-    def on_get_flags(self):
-        return 0
-
-    def on_get_n_columns(self):
-        return 1
-
-    def on_get_column_type(self, index):
-        if index==0:
-            return gobject.TYPE_STRING
-
-    def on_get_iter(self, path):
-        node = self._root
-        for p in path[1:]:
-            children = self._network.predecessors(node)
-            node = children[p]
-        return node
-
-    def on_get_path(self, rowref):
-        pass
-
-    def on_get_value(self, rowref, column):
-        print 'get_value'
-        return rowref['id']
-
-    def on_iter_next(self, rowref):
-        pass
-
-    def on_iter_children(self, parent):
-        pass
-
-    def on_iter_has_child(self, rowref):
-        pass
-
-    def on_iter_n_children(self, rowref):
-        pass
-
-    def on_iter_nth_child(self, parent, n):
-        pass
-
-    def on_iter_parent(self, child):
-        pass
-    
--- a/workflows/go_workflow.py
+++ b/workflows/go_workflow.py
@@ -1,486 +0,0 @@
-import gtk
-from fluents import dataset, logger, plots, workflow, fluents, project
-from fluents.lib import blmfuncs
-import geneontology
-#import gostat
-from scipy import array, randn, log, ones, zeros
-import networkx
-import re
-
-EVIDENCE_CODES=[('IMP', 'Inferred from mutant phenotype'),
-                ('IGI', 'Inferred from genetic interaction'),
-                ('IPI', 'Inferred from physical interaction'),
-                ('ISS', 'Inferred from sequence or structure similarity'),
-                ('IDA', 'Inferred from direct assay'),
-                ('IEP', 'Inferred on expression pattern'),
-                ('IEA', 'Inferred from electronic annotation'),
-                ('TAS', 'Traceable author statement'),
-                ('NAS', 'Non-traceable author statement'),
-                ('ND', 'No biological data available'),
-                ('RCA', 'Inferred from reviewed computational analysis'),
-                ('IC', 'Inferred by curator')]
-            
-DISTANCE_METRICS = [('resnik', 'Resnik'), 
-                    ('jiang', 'Jiang & Conrath'),
-                    ('fussimeg', 'FuSSiMeG')]
-
-GO_DATA_DIR = '/home/einarr/data'
-
-evidence = None
-go = None
-
-class GoTermView (gtk.Frame):
-
-    def __init__(self):
-        gtk.Frame.__init__(self)
-        tab = gtk.Table(2, 2, False)
-        self._table = tab
-        
-        self._name = gtk.Label('')
-        self._name.set_line_wrap(True)
-        self._name.set_alignment(0, 0)
-        name_label = gtk.Label('Name:')
-        name_label.set_alignment(0, 0)
-        tab.attach(name_label, 0, 1, 0, 1, gtk.FILL, gtk.FILL, 5, 5)
-        tab.attach(self._name, 1, 2, 0, 1, gtk.FILL|gtk.EXPAND, gtk.FILL, 5, 5)
-        
-        self._def = gtk.TextBuffer()
-        textview = gtk.TextView(self._def)
-        textview.set_wrap_mode(gtk.WRAP_WORD)
-        scrolled_window = gtk.ScrolledWindow()
-        scrolled_window.add(textview)
-        def_label = gtk.Label('Def:')
-        def_label.set_alignment(0.0, 0.0)
-        tab.attach(def_label, 0, 1, 1, 2, gtk.FILL, gtk.FILL, 5, 5)
-        tab.attach(scrolled_window, 1, 2, 1, 2, gtk.FILL|gtk.EXPAND, gtk.FILL|gtk.EXPAND, 5, 5)
-        
-        self.add(tab)
-        self.set_go_term(None)
-
-    def set_go_term(self, term):
-        if term:
-            self.set_label(term['id'])
-            self._name.set_text(term['name'])
-            self._def.set_text(term['def'])
-        else:
-            self.set_label('GO Term')
-            self._name.set_text('')
-            self._def.set_text('')
-
-        
-class GeneOntologyTree (gtk.HPaned):
-    
-    def __init__(self, network):
-        gtk.HPaned.__init__(self)
-    
-        treemodel = geneontology.get_go_treestore(network)
-        self._treemodel = treemodel
-        self._tree_view = gtk.TreeView(treemodel)
-
-        self._selected_terms = set()
-
-        self._tree_view.set_fixed_height_mode(True)
-
-        # Set up context menu
-        self._context_menu = GoTermContextMenu(treemodel, self._tree_view)
-        self._tree_view.connect('popup_menu', self._popup_menu)
-        self._tree_view.connect('button_press_event', self._on_button_press)
-
-        renderer = gtk.CellRendererText()
-        go_column = gtk.TreeViewColumn('GO ID', renderer, text=0)
-        go_column.set_sizing(gtk.TREE_VIEW_COLUMN_FIXED)
-        go_column.set_fixed_width(200)
-        go_column.set_resizable(True)
-        self._tree_view.insert_column(go_column, 0)
-
-        renderer = gtk.CellRendererToggle()
-        renderer.set_property('activatable', True)
-        renderer.connect('toggled', self._toggle_selected)
-        renderer.set_active(True)
-        renderer.set_property('mode', gtk.CELL_RENDERER_MODE_ACTIVATABLE)
-        go_column = gtk.TreeViewColumn('T', renderer, active=2)
-        go_column.set_fixed_width(20)
-        go_column.set_sizing(gtk.TREE_VIEW_COLUMN_FIXED)
-        go_column.set_resizable(True)
-        self._tree_view.insert_column(go_column, 1)
-
-        renderer = gtk.CellRendererText()
-        go_column = gtk.TreeViewColumn('Name', renderer, text=1)
-        go_column.set_fixed_width(200)
-        go_column.set_sizing(gtk.TREE_VIEW_COLUMN_FIXED)
-        go_column.set_resizable(True)
-        self._tree_view.insert_column(go_column, 2)
-
-        self._desc_view = GoTermView()
-
-        self._tree_view.connect('cursor-changed', self._on_cursor_changed)
-
-        scrolled_window = gtk.ScrolledWindow()
-        scrolled_window.add(self._tree_view)
-        self.add1(scrolled_window)
-        self.add2(self._desc_view)
-        self.show_all()
-
-    def _on_cursor_changed(self, tree):
-        path, col = self._tree_view.get_cursor()
-        current = self._treemodel.get_iter(path)
-        term = self._treemodel.get_value(current, 3)
-        self._desc_view.set_go_term(term)        
-        
-
-    ##
-    ## GTK Callback functions
-    ##
-    def _popup_menu(self, *rest):
-        self.menu.popup(None, None, None, 0, 0)
-
-    def _on_button_press(self, widget, event):
-        path = widget.get_path_at_pos(int(event.x), int(event.y))
-        iter = None
-
-        if path:
-            iter = self._treemodel.get_iter(path[0])
-            obj = self._treemodel.get_value(iter, 3)
-        else:
-            obj = None
-
-        self._context_menu.set_current_term(obj, iter)
-
-        if event.button == 3:
-            self._context_menu.popup(None, None, None, event.button, event.time)
-
-    def _toggle_selected(self, renderer, path):
-        iter = self._treemodel.get_iter(path)
-        
-        selected = self._treemodel.get_value(iter, 2)
-        id = self._treemodel.get_value(iter, 0)
-
-        self._treemodel.set_value(iter, 2, not selected)
-
-        if selected:
-            self._selected_terms.remove(id)
-        else:
-            self._selected_terms.add(id)
-
-
-class GoTermContextMenu (gtk.Menu):
-    """Context menu for GO terms in the gene ontology browser"""
-
-    def __init__(self, treemodel, treeview):
-        self._treemodel = treemodel
-        self._treeview = treeview
-        self._current_term = None
-        self._current_iter = None
-
-        gtk.Menu.__init__(self)
-
-        # Popuplate tree
-        self._expand_item = i = gtk.MenuItem('Expand')
-        i.connect('activate', self._on_expand_subtree, treemodel, treeview)
-        self.append(i)
-        i.show()
-
-        self._collapse_item = i = gtk.MenuItem('Collapse')
-        i.connect('activate', self._on_collapse_subtree, treemodel, treeview)
-        self.append(i)
-        i.show()
-
-        self._select_subtree_item = i = gtk.MenuItem('Select subtree')
-        i.connect('activate', self._on_select_subtree, treemodel, treeview)
-        self.append(i)
-        i.show()
-
-    def set_current_term(self, term, it):
-        self._current_term = term
-        self._current_iter = it
-
-    def _on_expand_subtree(self, item, treemodel, treeview):
-        path = treemodel.get_path(self._current_iter)
-        treeview.expand_row(path, True)
-
-    def _on_collapse_subtree(self, item, treemodel, treeview):
-        treeview.collapse_row(treemodel.get_path(self._current_iter))
-
-    def _on_select_subtree(self, item, treemodel, treeview):
-        logger.log('notice', 'Selecting subtree from GO id: %s (%s)' %
-                   (self._current_term['id'], self._current_term['name']))
-        ids = [x['id'] for x in networkx.bfs(go, self._current_term)]
-        project.project.set_selection('go-terms', set(ids))
-
-
-class GoWorkflow (workflow.Workflow):
-
-    name = 'Gene Ontology'
-    ident = 'go'
-    description = 'Gene Ontology Workflow. For tree distance measures based '\
-                + 'on the GO tree.'
-
-    def __init__(self, app):
-        workflow.Workflow.__init__(self, app)
-
-        load = workflow.Stage('load', 'Load GO Annotations')
-        load.add_function(LoadGOFunction())
-        load.add_function(LoadAnnotationsFunction())
-        load.add_function(LoadTextDatasetFunction())
-        self.add_stage(load)
-        
-        go = workflow.Stage('go', 'Gene Ontology')
-        go.add_function(SelectGoTermsFunction(self))
-        go.add_function(GoDistanceFunction())
-        go.add_function(SaveDistancesFunction())
-        self.add_stage(go)
-
-        blm = workflow.Stage('blm', 'Bilinear Analysis')
-        blm.add_function(blmfuncs.PCA())
-        self.add_stage(blm)
-
-       
-class LoadGOFunction(workflow.Function): 
-    def __init__(self):
-        workflow.Function.__init__(self, 'load-go', 'Load Gene Ontology')
-
-    def run(self):
-        global go
-        go = geneontology.read_default_go()
-        browser = GeneOntologyTree(go)
-        label = gtk.Label('_Gene Ontology')
-        label.set_use_underline(True)
-        fluents.app['bottom_notebook'].append_page(browser, label)
-
-
-class LoadTextDatasetFunction(workflow.Function):
-
-    def __init__(self):
-        workflow.Function.__init__(self, 'load-text-ds', 'Load GO Evidence')
-
-    def run(self):
-        f = open('/home/einarr/data/goa-condensed.ftsv')
-        global evidence
-        evidence = dataset.read_ftsv(f)
-        return [evidence]
-
-
-class LoadAnnotationsFunction(workflow.Function):
-
-    def __init__(self):
-        workflow.Function.__init__(self, 'load-go-ann', 'Load Annotations')
-        self.annotations = None
-    
-    def run(self):
-        global evidence
-        f = open(GO_DATA_DIR + '/goa-condensed')
-        ev_codes = f.readline().split()
-        go_terms = []
-    
-        lines = f.readlines()
-        m = zeros((len(lines), len(ev_codes)))
-
-        for i, l in enumerate(lines):
-            values = l.split()
-            go_terms.append(values[0])
-            for j, v in enumerate(values[1:]):
-                m[i,j] = float(v.strip())
-        
-        d = dataset.Dataset(m, 
-                            [['go-terms', go_terms], ['evidence', ev_codes]],
-                            name='GO evidence')
-
-        evidence = d
-        return [d]
-            
-
-class EvidenceCodeFrame(gtk.Frame):
-    def __init__(self):
-        gtk.Frame.__init__(self, 'Evidence Codes')
-
-        self._ec_buttons = {}
-
-        vbox = gtk.VBox(len(EVIDENCE_CODES))
-        for code, desc in EVIDENCE_CODES:
-            btn = gtk.CheckButton('%s (%s)' % (code, desc))
-            self._ec_buttons[code] = btn
-            vbox.add(btn)
-        self.add(vbox)
-
-    def set_options(self, options):
-        for code, desc in EVIDENCE_CODES:
-            self._ec_buttons[code].set_active(options[code])
-
-    def update_options(self, options):
-        for code, desc in EVIDENCE_CODES:
-            options[code] = self._ec_buttons[code].get_active()
-        return options
-
-
-class DistanceMetricFrame(gtk.Frame):
-    def __init__(self):
-        gtk.Frame.__init__(self, 'Distance Metrics')
-
-        self._metric_buttons = {}
-
-        vbox = gtk.VBox()
-        prev = None
-        for code, text in DISTANCE_METRICS:
-            btn = gtk.RadioButton(prev, '%s' % text)
-            self._metric_buttons[code] = btn
-            vbox.add(btn)
-            prev = btn
-        self.add(vbox)
-
-    def set_options(self, options):
-        self._metric_buttons[options['metric']].set_active(True)
-
-    def update_options(self, options):
-        for code, text in DISTANCE_METRICS:
-            if self._metric_buttons[code].get_active():
-                options['metric'] = code
-                return options
-        return options
-
-
-class GoDistanceDialog(gtk.Dialog):
-
-    def __init__(self):
-        gtk.Dialog.__init__(self, 'GO term distance matrix',
-                            None,
-                            gtk.DIALOG_MODAL | gtk.DIALOG_DESTROY_WITH_PARENT,
-                            (gtk.STOCK_OK, gtk.RESPONSE_OK,
-                             gtk.STOCK_CANCEL, gtk.RESPONSE_CANCEL))
-
-        self._ec_frame = EvidenceCodeFrame()
-        self._metric_frame = DistanceMetricFrame()
-        self.vbox.add(self._ec_frame)
-        self.vbox.add(self._metric_frame)
-
-    def run(self):
-        self.vbox.show_all()
-        return gtk.Dialog.run(self)
- 
-    def set_options(self, options):
-        self._ec_frame.set_options(options)
-        self._metric_frame.set_options(options)
-
-    def update_options(self, options):
-        self._ec_frame.update_options(options)
-        self._metric_frame.update_options(options)
-        return options
-    
-    def set_editable(self, editable):
-        self._ec_frame.set_sensitive(editable)
-        self._metric_frame.set_sensitive(editable)
-
-
-class NumericDict(dict):
-    def __init__(self):
-        dict.__init__(self)
-
-    def __getitem__(self, key):
-        retval = 0
-        try:
-            retval = dict.__getitem__(self, key)
-        except:
-            retval = 0.0
-        return retval
-
-
-class SelectGoTermsFunction(workflow.Function):
-    def __init__(self, wf):
-        workflow.Function.__init__(self, 'go-select', 'Select GO Terms')
-        self.wf = wf
-
-    def run(self, ds):
-        terms = [x['id'] for x in networkx.paths.bfs(go, go.get_bp())]
-        
-        self.wf.project.set_selection('go-terms', set(terms[:100]))
-#        self.wf.project.set_selection('go-terms', set(['GO:0007582', 'GO:0008150', 'GO:0051704', 'GO:0044419']))
-
-
-class GoDistanceFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'go-dist', 'GO term distance matrix')
-        self.options = GoDistanceOptions()
-        
-    def resnik_distance_matrix(self, selection, ic):
-        size = len(selection['go-terms'])
-        m = zeros((size, size))
-        # Create resnik distance matrix
-        ids = list(selection['go-terms'])
-        for i, t1 in enumerate(ids):
-            for j, t2 in enumerate(ids):
-                term1 = go.by_id[t1]
-                term2 = go.by_id[t2]
-                subsumer = go.subsumer(term1, term2)
-                
-                if subsumer == None:
-                    m[i, j] = 1000
-                else:
-#                    print "%s - %s - %s" % (t1, subsumer['id'], t2)
-                    m[i, j] = ic[t1] + ic[t2] - 2.0 * ic[subsumer['id']]
-        ds = dataset.Dataset(m, (('go-terms', ids), ('_go-terms', ids)), 'Resnik')
-        return ds
-
-    def run(self, x, selection):
-        global evidence, go
-        self.options = self.show_gui(self.options)
-        if not selection.has_key('go-terms') or len(selection['go-terms']) == 0:
-            logger.log('warning', 'No GO terms selected. Cannot make distance matrix.')
-
-        codes = [c for c, d in EVIDENCE_CODES if self.options[c]]
-        ev_indices = evidence.get_indices('evidence', codes)
-        ann_count_matrix = evidence._array[:, ev_indices].sum(1)
-        total_ann = ann_count_matrix.sum(0)
-
-        annotations = NumericDict()
-        ic = NumericDict()
-
-        # Insert annotations into dict
-        for i, v in enumerate(evidence.get_identifiers('go-terms')):
-            annotations[v] = ann_count_matrix[i]
-
-        # Accumulate annotations
-        for term in reversed(networkx.topological_sort(go)):
-            for parent in go.in_neighbors(term):
-                annotations[parent['id']] += annotations[term['id']]
-
-        # Create information content dictionary
-        for term, count in annotations.items():
-            ic[term] = -log(count / total_ann)
-
-        return [self.resnik_distance_matrix(selection, ic)]
-        
-    def show_gui(self, options, edit=True):
-        dialog = GoDistanceDialog()
-        dialog.set_options(self.options)
-        dialog.show_all()
-        dialog.set_editable(edit)
-        response = dialog.run()
-        dialog.hide()
-        if response == gtk.RESPONSE_OK:
-            return dialog.update_options(self.options)
-        else:
-            return options
-
-
-class SaveDistancesFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'save-matrix', 'Save Matrix')
-    
-    def run(self, ds):
-        filename = '/home/einarr/data/output.ftsv'
-        fd = open(filename, 'w')
-        dataset.write_ftsv(fd, ds)
-        fd.close()
-
-
-class Options(dict):
-    def __init__(self):
-        dict.__init__(self)
-
-
-class GoDistanceOptions(Options):
-    def __init__(self):
-        Options.__init__(self)
-        for code, desc in EVIDENCE_CODES:
-            self[code] = True
-        self['metric'] = 'fussimeg'
-
--- a/workflows/gobrowser.py
+++ b/workflows/gobrowser.py
@@ -1,777 +0,0 @@
-
-import gtk
-from fluents import dataset, logger, plots, workflow, fluents, project, view, main
-import geneontology
-from matplotlib.nxutils import points_inside_poly
-import matplotlib
-#from scipy import array, randn, log, ones, zeros
-from scipy import *
-from numpy import matlib
-import networkx
-import re
-import rpy
-
-EVIDENCE_CODES=[('IMP', 'Inferred from mutant phenotype'),
-                ('IGI', 'Inferred from genetic interaction'),
-                ('IPI', 'Inferred from physical interaction'),
-                ('ISS', 'Inferred from sequence or structure similarity'),
-                ('IDA', 'Inferred from direct assay'),
-                ('IEP', 'Inferred on expression pattern'),
-                ('IEA', 'Inferred from electronic annotation'),
-                ('TAS', 'Traceable author statement'),
-                ('NAS', 'Non-traceable author statement'),
-                ('ND', 'No biological data available'),
-                ('RCA', 'Inferred from reviewed computational analysis'),
-                ('IC', 'Inferred by curator')]
-            
-DISTANCE_METRICS = [('resnik', 'Resnik'), 
-                    ('jiang', 'Jiang & Conrath'),
-                    ('fussimeg', 'FuSSiMeG')]
-
-GO_DATA_DIR = '/home/einarr/data'
-
-evidence = None
-go = None
-
-class GoTermView (gtk.Frame):
-
-    def __init__(self):
-        gtk.Frame.__init__(self)
-        tab = gtk.Table(2, 3, False)
-        self._table = tab
-        
-        self._name = gtk.Label('')
-        self._name.set_line_wrap(True)
-        self._name.set_alignment(0, 0)
-        name_label = gtk.Label('Name:')
-        name_label.set_alignment(0, 0)
-        tab.attach(name_label, 0, 1, 0, 1, gtk.FILL, gtk.FILL, 5, 5)
-        tab.attach(self._name, 1, 2, 0, 1, gtk.FILL|gtk.EXPAND, gtk.FILL, 5, 5)
-        
-        self._isa_parents = gtk.HBox()
-        isa_parents_label = gtk.Label('Is a:')
-        tab.attach(isa_parents_label, 0, 1, 1, 2, gtk.FILL, gtk.FILL, 5, 5)
-        tab.attach(self._isa_parents, 1, 2, 1, 2, gtk.FILL, gtk.FILL, 5, 5)
-        
-        self._def = gtk.TextBuffer()
-        textview = gtk.TextView(self._def)
-        textview.set_wrap_mode(gtk.WRAP_WORD)
-        scrolled_window = gtk.ScrolledWindow()
-        scrolled_window.add(textview)
-        def_label = gtk.Label('Def:')
-        def_label.set_alignment(0.0, 0.0)
-        tab.attach(def_label, 0, 1, 2, 3, gtk.FILL, gtk.FILL, 5, 5)
-        tab.attach(scrolled_window, 1, 2, 2, 3, gtk.FILL|gtk.EXPAND, gtk.FILL|gtk.EXPAND, 5, 5)
-        
-        self._tab = tab
-        self.add(tab)
-        self.set_go_term(None)
-
-    def set_go_term(self, term):
-        if term:
-            self.set_label(term['id'])
-            self._name.set_text(term['name'])
-            self._def.set_text(term['def'])
-            self._tab.remove(self._isa_parents)
-            self._isa_parents = gtk.HBox()
-            for p in term['is_a']:
-                btn = gtk.Button(p)
-                btn.show()
-                self._isa_parents.add(btn)
-            self._isa_parents.show()
-            self._tab.attach(self._isa_parents, 1, 2, 1, 2, gtk.FILL, gtk.FILL, 5, 5)
-        else:
-            self.set_label('GO Term')
-            self._name.set_text('')
-            self._def.set_text('')
-            self._tab.remove(self._isa_parents)
-            self._isa_parents = gtk.HBox()
-            self._tab.attach(self._isa_parents, 1, 2, 1, 2, gtk.FILL, gtk.FILL, 5, 5)
-        
-
-class GeneOntologyTree (gtk.HPaned):
-    
-    def __init__(self, network):
-        gtk.HPaned.__init__(self)
-        self.set_position(400)
-    
-        treemodel = geneontology.get_go_treestore(network)
-        self._treemodel = treemodel
-        self._tree_view = gtk.TreeView(treemodel)
-
-        self._selected_terms = set()
-
-        self._tree_view.set_fixed_height_mode(True)
-
-        # Set up context menu
-        self._context_menu = GoTermContextMenu(treemodel, self._tree_view)
-        self._tree_view.connect('popup_menu', self._popup_menu)
-        self._tree_view.connect('button_press_event', self._on_button_press)
-
-        renderer = gtk.CellRendererText()
-        go_column = gtk.TreeViewColumn('GO ID', renderer, text=0)
-        go_column.set_sizing(gtk.TREE_VIEW_COLUMN_FIXED)
-        go_column.set_fixed_width(200)
-        go_column.set_resizable(True)
-        self._tree_view.insert_column(go_column, 0)
-
-        renderer = gtk.CellRendererToggle()
-        renderer.set_property('activatable', True)
-        renderer.connect('toggled', self._toggle_selected)
-        renderer.set_active(True)
-        renderer.set_property('mode', gtk.CELL_RENDERER_MODE_ACTIVATABLE)
-        go_column = gtk.TreeViewColumn('T', renderer, active=2)
-        go_column.set_fixed_width(20)
-        go_column.set_sizing(gtk.TREE_VIEW_COLUMN_FIXED)
-        go_column.set_resizable(True)
-        self._tree_view.insert_column(go_column, 1)
-
-        renderer = gtk.CellRendererText()
-        go_column = gtk.TreeViewColumn('Name', renderer, text=1)
-        go_column.set_fixed_width(200)
-        go_column.set_sizing(gtk.TREE_VIEW_COLUMN_FIXED)
-        go_column.set_resizable(True)
-        self._tree_view.insert_column(go_column, 2)
-
-        self._desc_view = GoTermView()
-
-        self._tree_view.connect('cursor-changed', self._on_cursor_changed)
-
-        scrolled_window = gtk.ScrolledWindow()
-        scrolled_window.add(self._tree_view)
-        self.add1(scrolled_window)
-        self.add2(self._desc_view)
-        self.show_all()
-
-    def _on_cursor_changed(self, tree):
-        path, col = self._tree_view.get_cursor()
-        current = self._treemodel.get_iter(path)
-        term = self._treemodel.get_value(current, 3)
-        self._desc_view.set_go_term(term)        
-        
-
-    ##
-    ## GTK Callback functions
-    ##
-    def _popup_menu(self, *rest):
-        self.menu.popup(None, None, None, 0, 0)
-
-    def _on_button_press(self, widget, event):
-        path = widget.get_path_at_pos(int(event.x), int(event.y))
-        iter = None
-
-        if path:
-            iter = self._treemodel.get_iter(path[0])
-            obj = self._treemodel.get_value(iter, 3)
-        else:
-            obj = None
-
-        self._context_menu.set_current_term(obj, iter)
-
-        if event.button == 3:
-            self._context_menu.popup(None, None, None, event.button, event.time)
-
-    def _toggle_selected(self, renderer, path):
-        iter = self._treemodel.get_iter(path)
-        
-        selected = self._treemodel.get_value(iter, 2)
-        id = self._treemodel.get_value(iter, 0)
-
-        self._treemodel.set_value(iter, 2, not selected)
-
-        if selected:
-            self._selected_terms.remove(id)
-        else:
-            self._selected_terms.add(id)
-
-
-class GoTermContextMenu (gtk.Menu):
-    """Context menu for GO terms in the gene ontology browser"""
-
-    def __init__(self, treemodel, treeview):
-        self._treemodel = treemodel
-        self._treeview = treeview
-        self._current_term = None
-        self._current_iter = None
-
-        gtk.Menu.__init__(self)
-
-        # Popuplate tree
-        self._expand_item = i = gtk.MenuItem('Expand')
-        i.connect('activate', self._on_expand_subtree, treemodel, treeview)
-        self.append(i)
-        i.show()
-
-        self._collapse_item = i = gtk.MenuItem('Collapse')
-        i.connect('activate', self._on_collapse_subtree, treemodel, treeview)
-        self.append(i)
-        i.show()
-
-        self._select_subtree_item = i = gtk.MenuItem('Select subtree')
-        i.connect('activate', self._on_select_subtree, treemodel, treeview)
-        self.append(i)
-        i.show()
-
-    def set_current_term(self, term, it):
-        self._current_term = term
-        self._current_iter = it
-
-    def _on_expand_subtree(self, item, treemodel, treeview):
-        path = treemodel.get_path(self._current_iter)
-        treeview.expand_row(path, True)
-
-    def _on_collapse_subtree(self, item, treemodel, treeview):
-        treeview.collapse_row(treemodel.get_path(self._current_iter))
-
-    def _on_select_subtree(self, item, treemodel, treeview):
-        logger.log('notice', 'Selecting subtree from GO id: %s (%s)' %
-                   (self._current_term['id'], self._current_term['name']))
-        ids = [x['id'] for x in networkx.bfs(go, self._current_term)]
-        project.project.set_selection('go-terms', set(ids))
-
-
-class LoadGOFunction(workflow.Function): 
-    def __init__(self):
-        workflow.Function.__init__(self, 'load-go', 'Load Gene Ontology')
-
-    def run(self):
-        global go
-        if go:
-            return
-
-        go = geneontology.read_default_go()
-        browser = GeneOntologyTree(go)
-        label = gtk.Label('_Gene Ontology')
-        label.set_use_underline(True)
-        fluents.app['bottom_notebook'].append_page(browser, label)
-
-class LoadAnnotationsFunction(workflow.Function):
-
-    def __init__(self):
-        workflow.Function.__init__(self, 'load-go-ann', 'Load Annotations')
-        self.annotations = None
-    
-    def run(self):
-        global evidence
-        f = open(GO_DATA_DIR + '/goa-condensed')
-        ev_codes = f.readline().split()
-        go_terms = []
-    
-        lines = f.readlines()
-        m = zeros((len(lines), len(ev_codes)))
-
-        for i, l in enumerate(lines):
-            values = l.split()
-            go_terms.append(values[0])
-            for j, v in enumerate(values[1:]):
-                m[i,j] = float(v.strip())
-        
-        d = dataset.Dataset(m, 
-                            [['go-terms', go_terms], ['evidence', ev_codes]],
-                            name='GO evidence')
-
-        evidence = d
-        return [d]
-            
-
-class GOWeightDialog(gtk.Dialog):
-    def __init__(self):
-        gtk.Dialog.__init__(self, 'GO Gene List Influence',
-                            None,
-                            gtk.DIALOG_MODAL | gtk.DIALOG_DESTROY_WITH_PARENT,
-                            (gtk.STOCK_OK, gtk.RESPONSE_OK,
-                             gtk.STOCK_CANCEL, gtk.RESPONSE_CANCEL))
-
-        table = gtk.Table(2, 2)
-        
-        sim_lbl = gtk.Label('Similarity threshold: ')
-        table.attach(sim_lbl, 0, 1, 0, 1)
-        adjustment = gtk.Adjustment(0, 0, 10, 0.1, 1.0, 1.0)
-        sim_spin = gtk.SpinButton(adjustment, 0.0, 2)
-        table.attach(sim_spin, 1, 2, 0, 1)
-
-        rank_lbl = gtk.Label('Rank threshold: ')
-        table.attach(rank_lbl, 0, 1, 1, 2)
-        rank_adj = gtk.Adjustment(0, 0, 10, 0.1, 1.0, 1.0)
-        rank_spin = gtk.SpinButton(rank_adj, 0.0, 2)
-        table.attach(rank_spin, 1, 2, 1, 2)
-        
-        sim_lbl.show()
-        sim_spin.show()
-        rank_lbl.show()
-        rank_spin.show()
-        
-        table.show()
-        self.vbox.add(table)
-        self._sim_spin = sim_spin
-        self._rank_spin = rank_spin
-
-    def set_options(self, options):
-        self._sim_spin.set_value(options['similarity_threshold'])
-        self._rank_spin.set_value(options['rank_threshold'])
-
-    def set_editable(self, editable):
-        self._sim_spin.set_sensitive(editable)
-        self._rank_spin.set_sensitive(editable)
-
-    def update_options(self, options):
-        options['similarity_threshold'] = self._sim_spin.get_value()
-        options['rank_threshold'] = self._rank_spin.get_value()
-        
-
-class DistanceToSelectionFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'dist-to-sel', 'Dist. to Selection')
-        self.options = DistanceToSelectionOptions()
-
-    def run(self, similarities, selection):
-        self.show_gui(similarities, self.options)
-
-        retval = []
-
-        dims = similarities.get_dim_name()
-        if dims[0] != "_%s" %dims[1] and dims[1] != "_%s" %dims[0]:
-            logger.log('warning', 'Are you sure this is a similarity matrix?')
-
-        dim = dims[0]
-        print "dim", dim
-       
-        print "selection", selection[dim]
-        print "indices", similarities.get_indices(dim, selection[dim])
-        indices = similarities.get_indices(dim, selection[dim])
-        m = apply_along_axis(max, 1, similarities.asarray().take(indices, 1))
-        retval.append(dataset.Dataset(m, [(dim, similarities[dim]),
-                                          ("_dummy", '0')]))
-        
-        return retval
-
-    def show_gui(self, similarities, options, edit=True):
-        dialog = DistanceToSelectionOptionsDialog([similarities], self.options)
-        response = dialog.run()
-        dialog.hide()
-        if response == gtk.RESPONSE_OK:
-            dialog.set_output()
-            return dialog.get_options()
-        else:
-            return options
-
-class GOWeightFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'load-go-ann', 'GO Influence')
-        self.options = GOWeightOptions()
-    
-    def run(self, genelist, similarity):
-        ## Show dialog box
-        self.show_gui(self.options)
-
-        ## assure that data is "correct", i.e., that we can perform
-        ## the desired operations.
-        common_dims = genelist.common_dims(similarity)
-        if len(common_dims) == 0:
-            logger.log('error', 'No common dimension in the selected datasets.')
-        elif len(common_dims) > 1:
-            logger.log('error', "More than one common dimension in the " +
-                       "selected datasets. Don't know what to do.")
-        gene_dim = common_dims[0]
-        logger.log('debug', 'Assuming genes are in dimension: %s' % gene_dim)
-
-        ## Do the calculations.
-        d = {}
-        
-        
-    def show_gui(self, options, edit=True):
-        dialog = GOWeightDialog()
-        dialog.set_options(self.options)
-        dialog.show_all()
-        dialog.set_editable(edit)
-        response = dialog.run()
-        dialog.hide()
-        if response == gtk.RESPONSE_OK:
-            return dialog.update_options(self.options)
-        else:
-            return options
-
-
-class DistanceToSelectionOptionsDialog(workflow.OptionsDialog):
-    def __init__(self, data, options):
-        workflow.OptionsDialog.__init__(self, data, options, ['X'])
-
-                                        
-class TTestOptionsDialog(workflow.OptionsDialog):
-
-    def __init__(self, data, options):
-	workflow.OptionsDialog.__init__(self, data, options,
-                                        ['X', 'Categories'])
-
-        vb = gtk.VBox()
-        l = gtk.Label("Limit")
-        adj = gtk.Adjustment(0, 0.0, 1.0, 0.01, 1.0, 1.0)
-        sb = gtk.SpinButton(adj, 0.0, 2)
-        l.show()
-        sb.show()
-
-        vb.add(l)
-        vb.add(sb)
-        vb.show()
-        self.nb.insert_page(vb, gtk.Label("Limit"), -1)
-
-
-class TTestFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 't-test', 't-test')
-        self.options = TTestOptions()
-
-    def run(self, x, categories):
-        self.show_gui(x, categories)
-
-        retval = []
-        m = x.asarray()
-        c = categories.asarray()
-
-        # Nonsmokers and current smokers
-        ns = m.take(nonzero(c[:,0]), 0)[0]
-        cs = m.take(nonzero(c[:,2]), 0)[0]
-
-        tscores = stats.ttest_ind(ns, cs)
-
-        print "Out data:", self.options['out_data']
-        tds = dataset.Dataset(tscores[0], [('gene_id', x['gene_id']), 
-                                           ('_t', ['0'])],
-                              name='t-values')
-        if 't-value' in self.options['out_data']:
-            retval.append(tds)
-            
-        pds = dataset.Dataset(tscores[1], [('gene_id', x['gene_id']), 
-                                           ('_p', ['0'])],
-                              name='p-values')
-        if 'p-value' in self.options['out_data']:
-            retval.append(pds)
-            
-        if ProbabilityHistogramPlot in self.options['out_plots']:
-            retval.append(ProbabilityHistogramPlot(pds))
-
-        if VolcanoPlot in self.options['out_plots']:
-            fc = apply_along_axis(mean, 0, ns) / apply_along_axis(mean, 0, cs)
-            fcds = dataset.Dataset(fc, [('gene_id', x['gene_id']),
-                                        ('_dummy', ['0'])],
-                                   name="Fold change")
-
-            retval.append(VolcanoPlot(fcds, pds, 'gene_id'))
-
-        return retval
-
-    def show_gui(self, x, categories):
-        dialog = TTestOptionsDialog([x, categories], self.options)
-        response = dialog.run()
-        dialog.hide()
-        if response == gtk.RESPONSE_OK:
-            dialog.set_output()
-            return dialog.get_options()
-        else:
-            return options
-
-
-class SetICFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'set-ic', 'Set IC')
-
-    def run(self, ds):
-        if 'go-terms' in ds.get_dim_name():
-            main.workflow.current_ic = ds
-        else:
-            logger.log('warning', 'Cannot use this dataset as IC on the go-terms dimension')
-        return
-        
-class PlotDagFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'go-dag', 'Build DAG')
-
-    def run(self, selection):
-        g = self.get_network(list(selection['go-terms']))
-        ds = dataset.GraphDataset(networkx.adj_matrix(g),
-                                  [('go-terms', g.nodes()), ('_go-terms', g.nodes())],
-                                  name="DAG")
-        return [ThresholdDagPlot(g)]
-
-    def get_network(self, terms, subtree='bp'):
-        """Returns a DAG connecting the given terms by including their parents
-        up to the level needed to connect them. The subtree parameter is one of
-           mf - molecular function
-           bp - biological process
-           cc - cellular component"""
-
-        rpy.r.library("GOstats")
-    
-        if subtree == 'mf':
-            subtree_r = rpy.r.GOMFPARENTS
-        elif subtree == 'bp':
-            subtree_r = rpy.r.GOBPPARENTS
-        elif subtree == 'cc':
-            subtree_r = rpy.r.GOCCPARENTS
-        else:
-            raise Exception("Unknown subtree. Use mf, bp or cc.")
-        
-        g = rpy.r.GOGraph(terms, subtree_r)
-        edges = rpy.r.edges(g)
-    
-        nxgraph = networkx.DiGraph()
-        for child, d in edges.items():
-            for parent in d.keys():
-                nxgraph.add_edge(parent, child)
-
-        return nxgraph
-    
-
-class TTestOptions(workflow.Options):
-
-    def __init__(self):
-        workflow.Options.__init__(self)
-        self['all_plots'] = [(ProbabilityHistogramPlot, 'Histogram', True),
-                             (VolcanoPlot, 'Histogram', True)]
-        self['all_data'] = [('t-value', 't-values', True),
-                            ('p-value', 'Probabilities', True),
-                            ('categories', 'Categories', False)]
-        self['out_data'] = ['t-value', 'p-value']
-
-
-class DistanceToSelectionOptions(workflow.Options):
-    def __init__(self):
-        workflow.Options.__init__(self)
-        self['all_data'] = [('mindist', 'Minimum distance', True)]
-
-        
-class GOWeightOptions(workflow.Options):
-    def __init__(self):
-        workflow.Options.__init__(self)
-        self['similarity_threshold'] = 0.0
-        self['rank_threshold'] = 0.0
-
-class ProbabilityHistogramPlot(plots.HistogramPlot):
-    def __init__(self, ds):
-        plots.HistogramPlot.__init__(self, ds, name="Confidence", bins=50)
-
-
-class VolcanoPlot(plots.ScatterPlot):
-    def __init__(self, fold_ds, p_ds, dim, **kw):
-        plots.ScatterPlot.__init__(self, fold_ds, p_ds, 'gene_id', '_dummy', 
-                                   '0', '0',
-                                   name="Volcano plot", 
-                                   sel_dim_2='_p', **kw)
-
-
-class DagPlot(plots.Plot):
-    def __init__(self, graph, dim='go-terms', pos=None, nodecolor='b', nodesize=40,
-                 with_labels=False, name='DAG Plot'):
-
-        plots.Plot.__init__(self, name)
-        self.nodes = graph.nodes()
-        self._map_ids = self.nodes
-        self.graph = graph
-        self._pos = pos
-        self._cmap = matplotlib.cm.summer
-        self._nodesize = nodesize
-        self._nodecolor = nodecolor
-        self._with_labels = with_labels
-        self.visible = set()
-        
-        self.current_dim = dim
-
-        if not self._pos:
-            self._pos = self._calc_pos(graph)
-        self._xy = asarray([self._pos[node] for node in self.nodes])
-        self.xaxis_data = self._xy[:,0]
-        self.yaxis_data = self._xy[:,1]
-
-        # Initial draw
-        self.default_props = {'nodesize' : 50,
-                              'nodecolor' : 'blue',
-                              'edge_color' : 'gray',
-                              'edge_color_selected' : 'red'}
-        self.node_collection = None
-        self.edge_collection = None
-        self.node_labels = None
-        lw = zeros(self.xaxis_data.shape)
-        self.node_collection = self.axes.scatter(self.xaxis_data, self.yaxis_data,
-                                                 s=self._nodesize,
-                                                 c=self._nodecolor,
-                                                 linewidth=lw,
-                                                 zorder=3)
-        self._mappable = self.node_collection
-        self._mappable.set_cmap(self._cmap)
-
-        # selected nodes is a transparent graph that adjust node-edge visibility
-        # according to the current selection needed to get get the selected
-        # nodes 'on top' as zorder may not be defined individually
-        self.selected_nodes = self.axes.scatter(self.xaxis_data,
-                                                self.yaxis_data,
-                                                s=self._nodesize,
-                                                c=self._nodecolor,
-                                                edgecolor='r',
-                                                linewidth=lw,
-                                                zorder=4,
-                                                alpha=0)
-
-        edge_color = self.default_props['edge_color']
-        self.edge_collection = networkx.draw_networkx_edges(self.graph,
-                                                            self._pos,
-                                                            ax=self.axes,
-                                                            edge_color=edge_color)
-        # edge color rgba-arrays
-        self._edge_color_rgba = matlib.repmat(plots.ColorConverter().to_rgba(edge_color),
-                                       self.graph.number_of_edges(),1)
-        self._edge_color_selected = plots.ColorConverter().to_rgba(self.default_props['edge_color_selected'])
-        if self._with_labels:
-            self.node_labels = networkx.draw_networkx_labels(self.graph,
-                                                            self._pos,
-                                                            ax=self.axes)
-        
-        # remove axes, frame and grid
-        self.axes.set_xticks([])
-        self.axes.set_yticks([])
-        self.axes.grid(False)
-        self.axes.set_frame_on(False)
-        self.fig.subplots_adjust(left=0, right=1, bottom=0, top=1)
-
-    def _calc_pos(self, graph):
-        """Calculates position for graph nodes using 'dot' layout."""
-        gv_graph = networkx.DiGraph()
-        for start, end in graph.edges():
-            gv_graph.add_edge(start.replace('GO:', ''), end.replace('GO:', ''))
-
-        pos_gv = networkx.pygraphviz_layout(gv_graph, prog="dot")
-        pos = {}
-        for k, v in pos_gv.items():
-            if k != "all":
-                pos["GO:%s" % k] = v
-            else:
-                pos[k] = v
-        return pos
-
-    def points_in_rect(self, x1, y1, x2, y2, key):
-        ydata = self.yaxis_data
-        xdata = self.xaxis_data
-        
-        # find indices of selected area
-        if x1>x2:
-            x1, x2 = x2, x1
-        if y1>y2:
-            y1, y2 = y2, y1
-        assert x1<=x2
-        assert y1<=y2
-        
-        index = nonzero((xdata>x1) & (xdata<x2) & (ydata>y1) & (ydata<y2))[0]
-        if getattr(main.workflow, 'current_ic', None) != None:
-            ids = self.visible.intersection([self.nodes[i] for i in index])
-        else:
-            ids = set([self.nodes[i] for i in index])
-        return ids
-        
-    def rectangle_select_callback(self, x1, y1, x2, y2, key):
-        ids = self.points_in_rect(x1, y1, x2, y2, key)
-        ids = self.update_selection(ids, key)
-
-        self.selection_listener(self.current_dim, ids)
-
-    def lasso_select_callback(self, verts, key=None):
-        xys = c_[self.xaxis_data[:,newaxis], self.yaxis_data[:,newaxis]]
-        index = nonzero(points_inside_poly(xys, verts))[0]
-        ids = [self.nodes[i] for i in index]
-        ids = self.update_selection(ids, key)
-        self.selection_listener(self.current_dim, ids)
-        
-    def set_current_selection(self, selection):
-        linewidth = zeros(self.xaxis_data.shape)
-        edge_color_rgba = self._edge_color_rgba.copy()
-        index = [i for i in range(len(self.nodes)) if self.nodes[i] in selection[self.current_dim]]
-        if len(index) > 0:
-            linewidth[index] = 2
-            idents = selection[self.current_dim]
-            edge_index = [i for i,edge in enumerate(self.graph.edges()) if (edge[0] in idents and  edge[1] in idents)]
-            if len(edge_index)>0:
-                for i in edge_index:
-                    edge_color_rgba[i,:] = self._edge_color_selected
-                self._A = None
-        
-        self.edge_collection._colors = edge_color_rgba
-        self.selected_nodes.set_linewidth(linewidth)
-        self.canvas.draw()
-
-    def is_mappable_with(self, obj):
-        """Returns True if dataset/selection is mappable with this plot.
-        """
-        if isinstance(obj, fluents.dataset.Dataset):
-            if self.current_dim in obj.get_dim_name():
-                return True
-        return False
-
-    def _update_color_from_dataset(self, ds):
-        """Updates the facecolors from a dataset.
-        """
-
-        array = ds.asarray()
-
-        #only support for 2d-arrays:
-        try:
-            m, n = array.shape
-        except:
-            raise ValueError, "No support for more than 2 dimensions."
-        # is dataset a vector or matrix?
-        if not n==1:
-            # we have a category dataset
-            if isinstance(ds, fluents.dataset.CategoryDataset):
-                vec = dot(array, diag(arange(n))).sum(1)
-            else:
-                vec = array.sum(1)
-        else:
-            vec = array.ravel()
-
-        indices = ds.get_indices(self.current_dim, self.nodes)
-        nodes = ds.existing_identifiers(self.current_dim, self.nodes)
-
-        v = vec.take(indices, 0)
-        vec_min = min(vec[vec > -inf])
-        vec_max = max(vec[vec < inf])
-        v[v==inf] = vec_max
-        v[v==-inf] = vec_min
-
-        d = dict(zip(nodes, list(v))) 
-
-        map_vec = zeros(len(self.nodes))
-        for i, n in enumerate(self.nodes):
-            map_vec[i] = d.get(n, vec_min)
-
-        # update facecolors
-        self.node_collection.set_array(map_vec)
-        self.node_collection.set_clim(vec_min, vec_max)
-        self.node_collection.update_scalarmappable() #sets facecolors from array
-
-        self.canvas.draw()
-
-
-class ThresholdDagPlot(DagPlot, plots.PlotThresholder):
-    def __init__(self, graph, dim='go-terms', pos=None, nodecolor='b', nodesize=40,
-                 with_labels=False, name='DAG Plot'):
-        DagPlot.__init__(self, graph, dim='go-terms', pos=None,
-                         nodecolor='b', nodesize=40,
-                         with_labels=False, name='DAG Plot')
-        plots.PlotThresholder.__init__(self, "IC")
-
-    def rectangle_select_callback(self, x1, y1, x2, y2, key):
-        ids = self.points_in_rect(x1, y1, x2, y2, key)
-        ids = self.visible.intersection(ids)
-        ids = self.update_selection(ids, key)
-
-        self.selection_listener(self.current_dim, ids)
-        
-    def _update_color_from_dataset(self, ds):
-        DagPlot._update_color_from_dataset(self, ds)
-        self.set_threshold_dataset(ds)
-        a = ds.asarray()
-        a_max = max(a[a<inf])
-        a_min = min(a[a>-inf])
-        self._sb_min.set_range(a_min-0.1, a_max+0.1)
-        self._sb_min.set_value(a_min-0.1)
-        self._sb_max.set_range(a_min-0.1, a_max+0.1)
-        self._sb_max.set_value(a_max+0.1)
-
-
--- a/workflows/smokers.py
+++ b/workflows/smokers.py
@@ -1,445 +0,0 @@
-import sys,os
-import webbrowser
-
-from fluents import logger, plots,workflow,dataset,main
-from fluents.lib import blmfuncs,nx_utils,validation,engines,cx_stats,cx_utils
-import gobrowser, geneontology
-import scipy
-import networkx as nx
-
-
-class SmallTestWorkflow(workflow.Workflow):
-    name = 'Smokers'
-    ident = 'smokers'
-    description = 'A small test workflow for gene expression analysis.'
-
-    def __init__(self):
-        workflow.Workflow.__init__(self)        
-
-        # DATA IMPORT
-        load = workflow.Stage('load', 'Data')
-        load.add_function(DatasetLoadFunctionSmokerSmall())
-        load.add_function(DatasetLoadFunctionSmokerMedium())
-        load.add_function(DatasetLoadFunctionSmokerFull())
-        load.add_function(DatasetLoadFunctionSmokerGO())
-        #load.add_function(DatasetLoadFunctionCYCLE())
-        self.add_stage(load)
-        
-        # NETWORK PREPROCESSING
-        #net = workflow.Stage('net', 'Network integration')
-        #net.add_function(DiffKernelFunction())
-        #net.add_function(ModKernelFunction())
-        #net.add_function(RandDiffKernelFunction())
-        #self.add_stage(net)
-        
-        # BLM's
-        model = workflow.Stage('models', 'Models')
-        model.add_function(blmfuncs.PCA())
-        model.add_function(blmfuncs.PLS())
-        model.add_function(blmfuncs.LPLS())
-        model.add_function(SAM())
-        
-        #model.add_function(bioconFuncs.SAM(app))
-        self.add_stage(model)
-        
-        query = workflow.Stage('query', 'Gene Query')
-        query.add_function(NCBIQuery())
-        query.add_function(KEGGQuery())
-        self.add_stage(query)
-        
-        # Gene Ontology
-        go = workflow.Stage('go', 'Gene Ontology')
-        go.add_function(gobrowser.LoadGOFunction())
-        go.add_function(gobrowser.SetICFunction())
-        # go.add_function(gobrowser.GOWeightFunction())
-        # go.add_function(gobrowser.DistanceToSelectionFunction())
-        # go.add_function(gobrowser.TTestFunction())
-        go.add_function(gobrowser.PlotDagFunction())
-        go.add_function(GoEnrichment())
-        go.add_function(GoEnrichmentCond())
-        self.add_stage(go)
-
-        # EXTRA PLOTS
-        #plt = workflow.Stage('net', 'Network')
-        #plt.add_function(nx_analyser.KeggNetworkAnalyser())
-        #self.add_stage(plt)
-        
-        logger.log('debug', 'Small test workflow is now active')
-
-
-class DatasetLoadFunctionSmokerSmall(workflow.Function):
-    """Loader for all ftsv files of smokers small datasets."""
-    def __init__(self):
-        workflow.Function.__init__(self, 'load_small', 'Smoker (Small)')
-
-    def run(self):
-        path = 'data/smokers-small/'
-        files = os.listdir(path)
-        out = []
-        for fname in files:
-            if fname.endswith('.ftsv'):
-                input_file = open(os.path.join(path, fname))
-                out.append(dataset.read_ftsv(input_file))
-        return out
-
-
-class DatasetLoadFunctionSmokerMedium(workflow.Function):
-    """Loader for all ftsv files of smokers small datasets."""
-    def __init__(self):
-        workflow.Function.__init__(self, 'load_medium', 'Smoker (Medium)')
-
-    def run(self):
-        path = 'data/smokers-medium/'
-        files = os.listdir(path)
-        out = []
-        for fname in files:
-            if fname.endswith('.ftsv'):
-                input_file = open(os.path.join(path, fname))
-                out.append(dataset.read_ftsv(input_file))
-        return out
-
-
-class DatasetLoadFunctionSmokerFull(workflow.Function):
-    """Loader for all ftsv files of smokers small datasets."""
-    def __init__(self):
-        workflow.Function.__init__(self, 'load_full', 'Smoker (Full)')
-
-    def run(self):
-        path = 'data/smokers-full/'
-        files = os.listdir(path)
-        out = []
-        for fname in files:
-            if fname.endswith('.ftsv'):
-                input_file = open(os.path.join(path, fname))
-                out.append(dataset.read_ftsv(input_file))
-        return out
-
-class DatasetLoadFunctionSmokerGO(workflow.Function):
-    """Loader for all ftsv files of smokers small datasets."""
-    def __init__(self):
-        workflow.Function.__init__(self, 'load_go', 'Smoker (GO)')
-
-    def run(self):
-        path = 'data/smokers-go/'
-        files = os.listdir(path)
-        out = []
-        for fname in files:
-            if fname.endswith('.ftsv'):
-                input_file = open(os.path.join(path, fname))
-                out.append(dataset.read_ftsv(input_file))
-        return out
-
-class DatasetLoadFunctionCYCLE(workflow.Function):
-    """Loader for pickled CYCLE datasets."""
-    def __init__(self):
-        workflow.Function.__init__(self, 'load_data', 'Cycle')
-
-    def run(self):
-        filename='fluents/data/CYCLE'
-        if filename:
-            return dataset.from_file(filename)            
-
-
-##### WORKFLOW SPECIFIC FUNCTIONS ######
-class SAM(workflow.Function):
-    def __init__(self, id='sam', name='SAM'):
-        workflow.Function.__init__(self, id, name)
-        
-    def run(self, x, y):
-        
-        n_iter = 50 #B
-        alpha = 0.01 #cut off on qvals
-        
-        ###############
-
-        # Main function call
-
-        # setup prelimenaries
-        import rpy
-        rpy.r.library("siggenes")
-        rpy.r.library("multtest")
-        
-        cl = scipy.dot(y.asarray(), scipy.diag(scipy.arange(y.shape[1]))).sum(1)
-        data = x.asarray().T
-        sam = rpy.r.sam(data, cl=cl, B=n_iter, var_equal=False,med=False,s0=scipy.nan,rand=scipy.nan)
-        qvals = scipy.asarray(rpy.r.slot(sam, "p.value"))
-        pvals = scipy.asarray(rpy.r.slot(sam, "q.value"))
-        
-        sam_index = (qvals<alpha).nonzero()[0]
-
-        # Update selection object
-        dim_name = x.get_dim_name(1)
-        sam_selection = x.get_identifiers(dim_name, indices=sam_index)
-        main.project.set_selection(dim_name, sam_selection)
-        
-        sel = dataset.Selection('SAM selection')
-        sel.select(dim_name, sam_selection)
-        logger.log('notice','Number of significant varibles (SAM): %s' %len(sam_selection))
-
-        # ## OUTPUT ###
-        xcolname = x.get_dim_name(1) # genes
-        x_col_ids = [xcolname, x.get_identifiers(xcolname, sorted=True)]
-        sing_id = ['_john', ['0']] #singleton
-        D_qvals = dataset.Dataset(qvals, (x_col_ids, sing_id), name='q_vals')
-        D_pvals = dataset.Dataset(pvals, (x_col_ids, sing_id), name='p_vals')
-        
-        # plots
-        s_indx = qvals.flatten().argsort()
-        s_ids = [x_col_ids[0],[x_col_ids[1][i] for i in s_indx]]
-        xindex = scipy.arange(len(qvals))
-        qvals_s = qvals.take(s_indx)
-        D_qs = dataset.Dataset(qvals_s, (s_ids, sing_id), name="sorted qvals")
-        Dind = dataset.Dataset(xindex, (s_ids, sing_id), name="dum")
-        st = plots.ScatterPlot(D_qs, Dind, 'gene_ids', '_john', '0', '0', s=10, name='SAM qvals')
-        
-        return [D_qvals, D_pvals, D_qs, st, sel]
-        
-
-class DiffKernelFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'diffkernel', 'Diffusion')
-
-    def run(self, x, a):
-        """x is gene expression data, a is the network.
-        """
-        #sanity check:
-        g = a.asnetworkx()
-        genes = x.get_identifiers(x.get_dim_name(1), sorted=True)
-        W = nx.adj_matrix(g, nodelist=genes)
-        X = x.asarray()
-        Xc, mn_x = cx_utils.mat_center(X, ret_mn=True)
-        out = []
-        alpha=1.0
-        beta = 1.0
-        K = nx_utils.K_diffusion(W, alpha=alpha, beta=beta,normalised=True)
-        Xp = scipy.dot(Xc, K) + mn_x
-        # dataset
-        row_ids = (x.get_dim_name(0),
-                   x.get_identifiers(x.get_dim_name(0),
-                                     sorted=True))
-        col_ids = (x.get_dim_name(1),
-                   x.get_identifiers(x.get_dim_name(1),
-                                     sorted=True))
-        
-        xout = dataset.Dataset(Xp,
-                               (row_ids, col_ids),
-                               name=x.get_name()+'_diff'+str(alpha))
-        out.append(xout)
-        
-        return out
-
-
-class RandDiffKernelFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'diffkernel', 'Rand. Diff.')
-
-    def run(self, x, a):
-        """x is gene expression data, a is the network.
-        """
-        #sanity check:
-        g = a.asnetworkx()
-        genes = x.get_identifiers(x.get_dim_name(1))
-        # randomise nodelist
-        genes = [genes[i] for i in cx_utils.randperm(x.shape[1])]
-        W = nx.adj_matrix(g, nodelist=genes)
-        X = x.asarray()
-        Xc, mn_x = cx_utils.mat_center(X, ret_mn=True)
-        out = []
-        alpha=1.
-        beta = 1.0
-        K = nx_utils.K_diffusion(W, alpha=alpha, beta=beta,normalised=True)
-
-        Xp = scipy.dot(Xc, K) + mn_x
-        # dataset
-        row_ids = (x.get_dim_name(0),
-                   x.get_identifiers(x.get_dim_name(0),
-                                     sorted=True))
-        col_ids = (x.get_dim_name(1),
-                   x.get_identifiers(x.get_dim_name(1),
-                                     sorted=True))
-        
-        xout = dataset.Dataset(Xp,
-                               (row_ids, col_ids),
-                               name=x.get_name()+'_diff'+str(alpha))
-        out.append(xout)
-        
-        return out
-    
-
-class ModKernelFunction(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'mokernel', 'Modularity')
-
-    def run(self,x,a):
-        X = x.asarray()
-        g = a.asnetworkx()
-        genes = x.get_identifiers(x.get_dim_name(1), sorted=True)
-        W = nx.adj_matrix(g, nodelist=genes)
-        out=[]
-        alpha=.2
-        Xc,mn_x = cx_utils.mat_center(X, ret_mn=True)
-        K = nx_utils.K_modularity(W, alpha=alpha)
-        Xp = scipy.dot(Xc, K)
-        Xp = Xp + mn_x
-        
-        # dataset
-        row_ids = (x.get_dim_name(0),
-                   x.get_identifiers(x.get_dim_name(0),
-                                     sorted=True))
-        col_ids = (x.get_dim_name(1),
-                   x.get_identifiers(x.get_dim_name(1),
-                                     sorted=True))
-        xout = dataset.Dataset(Xp,
-                               (row_ids,col_ids),
-                               name=x.get_name()+'_mod'+str(alpha))
-        out.append(xout)
-        return out
-
-
-class NCBIQuery(workflow.Function):
-    def __init__(self, gene_id_name='gene_ids'):
-        self._gene_id_name = gene_id_name
-        workflow.Function.__init__(self, 'query', 'NCBI')
-
-    def run(self):
-        selection = main.project.get_selection()
-        if not selection.has_key(self._gene_id_name):
-            logger.log("notice", "Expected gene ids: %s, but got: %s" %(self._gene_id_name, selection.keys()))
-            return None
-        if len(selection[self._gene_id_name])==0:
-            logger.log("notice", "No selected genes to query")
-            return None
-        
-        base = 'http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?'
-        options = {r'&db=' : 'gene',
-                   r'&cmd=' : 'retrieve',
-                   r'&dopt=' : 'full_report'}
-        gene_str = ''.join([gene + "+" for gene in selection[self._gene_id_name]])
-        options[r'&list_uids='] = gene_str[:-1]
-        opt_str = ''.join([key+value for key,value in options.items()])
-        web_str = base + opt_str
-        webbrowser.open(web_str)
-
-
-class KEGGQuery(workflow.Function):
-    def __init__(self, org='hsa', gene_id_name='gene_ids'):
-        self._org=org
-        self._gene_id_name = gene_id_name
-        workflow.Function.__init__(self, 'query', 'KEGG')
-
-    def run(self, selection):
-        if not selection.has_key(self._gene_id_name):
-            logger.log("notice", "Expected gene ids: %s, but got. %s" %(self._gene_id_name, selection.keys()))
-            return None
-        if len(selection[self._gene_id_name])==0:
-            logger.log("notice", "No selected genes to query")
-            return None
-        
-        base = r'http://www.genome.jp/dbget-bin/www_bget?'
-        gene_str = ''.join([gene + "+" for gene in selection[self._gene_id_name]])
-        gene_str = gene_str[:-1]
-        gene_str = self._org + "+" + gene_str
-        web_str = base + gene_str
-        webbrowser.open(web_str)
-
-
-class GoEnrichment(workflow.Function):
-    def __init__(self):
-        workflow.Function.__init__(self, 'goenrich', 'Go Enrichment')
-
-    def run(self, data):
-        import rpy
-        rpy.r.library("GOstats")
-        
-        # Get universe
-        # Here, we are using a defined dataset to represent the universe
-        if not 'gene_ids' in data:
-            logger.log('notice', 'No dimension called [gene_ids] in dataset: %s', data.get_name())
-            return
-        universe = list(data.get_identifiers('gene_ids'))
-        logger.log('notice', 'Universe consists of %s gene ids from %s' %(len(universe), data.get_name()))
-        # Get current selection and validate
-        curr_sel = main.project.get_selection()
-        selected_genes = list(curr_sel['gene_ids'])
-        if len(selected_genes)==0:
-            logger.log('notice', 'This function needs a current selection!')
-            return
-        
-        # Hypergeometric parameter object
-        pval_cutoff = 0.9999
-        cond = False
-        test_direction = 'over'
-        params = rpy.r.new("GOHyperGParams",
-                           geneIds=selected_genes,
-                           annotation="hgu133a",
-                           ontology="BP",
-                           pvalueCutoff=pval_cutoff,
-                           conditional=cond,
-                           testDirection=test_direction
-                           )
-        # run test
-        # result.keys(): ['Count', 'Term', 'OddsRatio', 'Pvalue', 'ExpCount', 'GOBPID', 'Size']
-        result = rpy.r.summary(rpy.r.hyperGTest(params))
-        
-        # dataset
-        terms = result['GOBPID']
-        pvals = scipy.log(scipy.asarray(result['Pvalue']))
-        row_ids = ('go-terms', terms)
-        col_ids = ('_john', ['_doe'])
-        
-        xout = dataset.Dataset(pvals,
-                               (row_ids, col_ids),
-                               name='P values (enrichment)')
-        return [xout]
-
-
-class GoEnrichmentCond(workflow.Function):
-    """ Enrichment conditioned on dag structure."""
-    def __init__(self):
-        workflow.Function.__init__(self, 'goenrich', 'Go Cond. Enrich.')
-
-    def run(self, data):
-        import rpy
-        rpy.r.library("GOstats")
-        
-        # Get universe
-        # Here, we are using a defined dataset to represent the universe
-        if not 'gene_ids' in data:
-            logger.log('notice', 'No dimension called [gene_ids] in dataset: %s', data.get_name())
-            return
-        universe = list(data.get_identifiers('gene_ids'))
-        logger.log('notice', 'Universe consists of %s gene ids from %s' %(len(universe), data.get_name()))
-        # Get current selection and validate
-        curr_sel = main.project.get_selection()
-        selected_genes = list(curr_sel['gene_ids'])
-        if len(selected_genes)==0:
-            logger.log('notice', 'This function needs a current selection!')
-            return
-        
-        # Hypergeometric parameter object
-        pval_cutoff = 0.9999
-        cond = True
-        test_direction = 'over'
-        params = rpy.r.new("GOHyperGParams",
-                           geneIds=selected_genes,
-                           annotation="hgu133a",
-                           ontology="BP",
-                           pvalueCutoff=pval_cutoff,
-                           conditional=cond,
-                           testDirection=test_direction
-                           )
-        # run test
-        # result.keys(): ['Count', 'Term', 'OddsRatio', 'Pvalue', 'ExpCount', 'GOBPID', 'Size']
-        result = rpy.r.summary(rpy.r.hyperGTest(params))
-        
-        # dataset
-        terms = result['GOBPID']
-        pvals = scipy.log(scipy.asarray(result['Pvalue']))
-        row_ids = ('go-terms', terms)
-        col_ids = ('_john', ['_doe'])
-        
-        xout = dataset.Dataset(pvals,
-                               (row_ids, col_ids),
-                               name='P values (enrichment)')
-        return [xout]
-
--- a/workflows/test_workflow.py
+++ b/workflows/test_workflow.py
@@ -17,6 +17,7 @@ class TestWorkflow (workflow.Workflow):

        load = workflow.Stage('load', 'Test Data')
        load.add_task(TestDataTask)
+        load.add_task(TestPlot)
        self.add_stage(load)

        
@@ -48,3 +49,17 @@ class TestDataTask(workflow.Task):
        self.datasets = [p]
        return [X, ds, p, ds_plot, ds_scatter, p2, cds, lp, vp]

+
+class TestPlot(workflow.Task):  
+    name = "Test plot data"
+
+    def __init__(self, input):
+        workflow.Task.__init__(self, input)
+
+    def run(self):
+        logger.log('notice', 'Injecting foo test data')
+        x = randn(500,15)
+        X = dataset.Dataset(x)
+        p = plots.ScatterPlot(X, X, 'rows', 'rows', '0_1', '0_2',name='scatter')
+        
+        return [p]