Data extraction with bots
I vostri bot dovranno:
- riconoscere (piu' o meno) automaticamente gli schemi nelle pagine Web
- trovare i dati che volete che estraggano
- estrarre i contenuti dalle pagine
Tecniche:
- regular expression
HTML::TreeBuilder
HTML::TokeParser
- wrapper "intelligenti"
Una volta recuperata la semantica, l'oggetto potra' essere collegato ad altre fonti di dati.
Slideshow ^ |< << Slide 23 of 31 >> >| |