Open Source Data Pipelining für Interaktive Datenexploration

2007 
Der Konstanz Information Miner KNIME ist eine modulare Daten-Analyse Umgebung, die ein einfaches interaktives Erstellen und Ausfuhren datenflussorientierter Pipelines erlaubt. KNIME bietet als Lern-, Forschungsund Kollaborations-Software eine ideale Plattform zur Anwendung von DatenTransformations-, Visualisierungsund Data-Mining Knoten. Durch seine erweiterbaren Schnittstellen ist es leicht moglich neue Algorithmen, aber auch bestehende Tools zu integrieren u.a. sind Weka, das R-Project und CDK (Chemistry Development Kit) in KNIME verfugbar. 1 Uberblick und Einleitung Modulare Daten-Analyse-Plattformen kommen in den letzten Jahren immer mehr zur Anwendung. Um die grose Auswahl von Analyse-Methoden nutzbar zu machen, ist es wichtig, dass solche Umgebungen einfach und intuitiv anzuwenden sind, schnelle und interaktive Anderungen im Analyse-Prozess erlauben und dem Benutzer ermoglichen, die Ergebnisse visuell zu explorieren. Diese Moglichkeiten fuhrten dazu, dass Data Pipelines stark an Bedeutung gewonnen haben. Werkzeuge dieser Art ermoglichen es dem Benutzer Analyseablaufe aus standardisierten Verarbeitungseinheiten, die miteinander verbunden sind und durch die Daten oder Modelle fliesen, visuell zusammenzusetzen und zu verandern. Ein weiterer Vorteil dieser Systeme ist die intuitive und graphische Art die einzelnen Analyseschritte nachzuvollziehen. KNIME, der Konstanz Information Miner, bietet eine solche Pipeline Umgebung. Abbildung 1 zeigt den Screenshot eines Analyseablaufs. In der Mitte des Bildes ist ein Ablaufdiagramm zu erkennen: Es werden Daten von zwei Quellen eingelesen und in verschiedenen parallelen Zweigen, bestehend aus Daten-Vorverarbeitung, Modellbildung und Visualisierung verarbeitet. Eine Auswahl an Datenund Modellverarbeitungsknoten sowie Visualisierungen ist auf der linken Seite zu sehen. Diese verschiedenen Module zum Einlesen von Daten-/Modellen, Vorverarbeitung, Modellbildung, DataMining-Algorithmen, sowie Visualisierung konnen leicht per Maus-Interaktion auf die Arbeitsflache gezogen werden, wo sie mit anderen Knoten verbunden werden konnen. Open-Source Data Pipelining fur Interaktive Datenexploration 2 Abb. 1.: Ein Beispiel eines Analyseablaufs in KNIME. Durch das visuelle Brushing (das graphische interagieren aller Visualisierungen) wird KNIME zu einer leistungsstarken und interaktiven Plattform um vorhandene Daten zu explorieren. KNIME ist in Java [Java07] geschrieben und seine graphische Arbeitsumgebung ist als Eclipse [EF07] Plug-in realisiert. Diese lasst sich durch offene Schnittstellen leicht mit neuen Knoten erganzen. Dieses Paper beschreibt die Architektur und die Besonderheiten von KNIME genauer. Fur weitergehende Information sowie Downloads siehe http://www.knime.org.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    3
    References
    0
    Citations
    NaN
    KQI
    []