Screen2.0

 
 
 

hints & tips, links // 2011.03.22 08:41:17 [hh]

"Article text extraction from HTML documents"

Tomaz Kovacics "My tech blog" bietet einen guten Überblick über Techniken, wie man den Artikel-Text aus Web-Siten extrahieren kann, also Werbung, Navigation und andere Elemente einfach ausblenden kann. Auch eine ganze Reihe von Open Source Projekten werden hier vorgestellt.

Direkter Link: Artikel: tomazkovacic.com/ blog/ 14/ extracting- article- text- from- html- documents, Quellen: tomazkovacic.com/ blog/ 56/ list- of- resources- article- text- extraction- from- html- documents

 

Werbung