mobirise.com

DataShark.Features

Erfahren Sie mehr über die Funktionen von DataShark.

DataShark ist ein generischer Web-Crawler/Web-Scraper, der speziell für das Erfassen oder Extrahieren von Daten aus Internetseiten entwickelt wurde.


Die Daten einer Internetseite werden zunächst über Suchmuster eingegrenzt, erfasst und auf Korrektheit geprüft. Dieses Konzept macht DataShark frei von sämtlichen Einschränkungen durch die Seitenstruktur und ermöglicht es ihm außerdem, sich automatisiert auf Veränderungen der Internetseite einzustellen.


Mit dem integrierten DataShark.Designer entwerfen Sie Module, die Ihnen die gesuchten Daten aus einer bestimmten Internetseite extrahieren. Dabei stehen Ihnen zahlreiche, nützliche Werkzeuge und Komponenten zur Verfügung, sowie Möglichkeiten, die Ausführung zu überwachen.

DataShark.Designer

Erstellen Sie mit dem DataShark.Designer eigene Module, um automatisiert Daten aus dem World Wide Web zu extrahieren. Dazu werden Ihnen eine Vielzahl von Kontroll-Elementen zur Verfügung gestellt, wie z.B. der Extraktor (Web-Inhalt abrufen) oder der Content-Selektor (Inhalt auswerten und auf Datenfelder verteilen).

DataShark.Runtime

Sind Sie der Meinung, dass Ihr Modul funktionieren müsste, starten Sie die DataShark.Runtime. Die Laufzeit kann mit Zeiteinheiten versehen oder nach jeder Ausführung eines Kontroll-Elements automatisch angehalten werden. Außerdem können Haltepunkte gesetzt oder die Laufzeit automatisch bei einem Fehlverhalten unterbrochen werden.

DataShark.ToolBox

DataShark verfügt über eine Sammlung von Templates für Reguläre Ausdrücke (Inhalte auswerten mit RegularExpressions) oder SQL, um Daten beispielsweise in eine bestehende Datenbank einzulesen.

DataShark.Generators

Generatoren werden dazu verwendet, Suchmuster-Kombinationen zu den gesuchten Ziel-Informationen automatisch zu ermitteln. Bei jedem Start des Web-Crawlers werden diese Suchmuster-Kombinationen auf Gültigkeit überpüft. Ist ein Suchmuster ungülitg, wird es automatisch neu generiert.

Das DataShark Extraktionsmodell

Extraktion, Selektion, Ausgabe.

Definieren Sie eine Eingabetabelle, um beispielsweise eine Suchfunktion auf einer Website mit Daten zu befüllen.

Definieren Sie Extraktoren, um den Web-Inhalt zu der Suche abzurufen und Content-Selektoren, um die Inhalte in Felder zu speichern und an eine Ausgabetabelle zu übergeben.

Laufzeitüberwachung

Kontrolle über Ihre Daten.

Mit Hilfe der Laufzeitüberwachung haben Sie ständig alle Vorgänge im Blick. Führen Sie zum Testen die Schrittweise-Ausführung durch und schauen sich an, wie die Daten Schritt für Schritt zusammengestellt werden.

Alle Templates in einer Box

Immer das richtige Statement zur Hand.

Die Templates aus der Toolbox stammen aus Projekten von anderen Benutzern, die sich als sehr nützlich und wiederverwendbar erwiesen haben. Die Toolbox wird ständig erweitert und kann kostenlos aktualisiert werden.

Die Generatoren

Wenn sich die Internetseite ändert...

Ein Generator benötigt mindestens zwei Informationen: Den gesuchten Wert auf der Internetseite, sowie die Anzahl der Ergebnisse. Leistungsstarke Algorithmen ermitteln dann die optimalen Suchmuster, mit denen sich wiederum von der Internetseite die Ziel-Informationen selektieren lassen.