

links, hints & tips // 2011.03.25 08:37:15 [hh]

"Data Science Toolkit": Geolocation- und Text-Mining in "Ruby"

Das Open Source Projekt "Data Sciene Toolkit" von Pete Warden bietet einen Satz von hilfreichen Tools, um etwa Text aus PDFs oder Bildern zu extrahieren, oder Koordinaten un Ortsbeschreibungen umzuwandeln. Die gesamte Web-Site (d.h. alle Scripte und Daten) kann auch als VMware-Festplattendatei herunter geladen werden.

Pete Warden über sein Toolkit: "A collection of the best open data sets and open-source tools for data science, wrapped in an easy-to-use REST/JSON API with command line, Python and Javascript interfaces. Available as a self-contained VM or EC2 AMI that you can deploy yourself.
It's essentially a specialized Linux distribution, with a lot of useful data software pre-installed and exposing a simple interface. For full documentation, see"

Direkter Link:

