"We are back" « oc.at

Website auslesen/parsen

ica 09.08.2010 - 21:03 1204 11
Posts

ica

hmm
Avatar
Registered: Jul 2002
Location: Graz
Posts: 9822
Ich würd gern von diversen Websites Informationen/Daten automatisiert auslesen und in ein für mich brauchbares Format (xml) bringen.

Weiss jemand obs dazu brauchbare Libraries gibt? Programmiersprache ist mir eigentlich ziemlich egal. Non-Gui only - soll auf einem Server laufen.

Hat jemand Ahnung wie das ganze eigentlich rechtlich aussieht? Konkret würd ich gern Kinoprogramme von diversen Seiten (zb. Cineplexx) holen und in einer Android App darstellen. Die App wäre kostenlos, aber zb. mit Werbeeinblendungen.

jives

And the science gets done
Avatar
Registered: Sep 2001
Location: Baden
Posts: 3548
Bei konformen Seiten sollte eigentlich jede XML-Library können was du brauchst - da ist der Inhalt ja eigentlich sowieso schon in XML dargestellt. Wie es bei nicht standardkonformen Seiten aussieht weiß ich nicht genau, könnte mir aber vorstellen dass das abenteuerlich werden kann...

muene

Addicted
Avatar
Registered: Jan 2004
Location: @Home
Posts: 430
Hab so etwas einmal unter Linux gemacht.
Mit wget (Link) die Webseite geholt und anschließend mit einem Perl Script die relevanten Daten rausgefischt.

ica

hmm
Avatar
Registered: Jul 2002
Location: Graz
Posts: 9822
Schön wäre halt auch wenn das Teil von selbst das paging berücksichtigt Usw. Das es manuell geht ist schon klar - dachte nur es gibt da vielleicht schon was.

COLOSSUS

Administrator
GNUltra
Avatar
Registered: Dec 2000
Location: ~
Posts: 12143

fatmike182

Agnotologe
Registered: Oct 2005
Location: VIE
Posts: 4223
allerdings glaube ich fast, dass sie darauf bestehen können, dass du die App zurücknimmst (da ihre Daten)

Nico

former person of interest
Registered: Sep 2006
Location: -
Posts: 4082
naja, auch andere seiten fassen kinoprogramme zusammen.

ica

hmm
Avatar
Registered: Jul 2002
Location: Graz
Posts: 9822
Zitat von COLOSSUS
Auch: http://www.crummy.com/software/BeautifulSoup/

schaut schonmal gut aus. thx!

nochmals: das es html/xml parser gibt ist mir schon klar, aber ich will das nicht "händisch" machen. ich will sagen node x mit class y unter node z ist ein item, gib mir alle und am besten wenns ein paging gibt auch alle der darauffolgenden seiten.

Nico

former person of interest
Registered: Sep 2006
Location: -
Posts: 4082
wie würde ein paging erkannt werden?

ica

hmm
Avatar
Registered: Jul 2002
Location: Graz
Posts: 9822
Zitat von Nico
wie würde ein paging erkannt werden?

keine ahnung ob es das gibt. aber schätzungsweise via angabe des form tags bzw. a tags.
Bearbeitet von ica am 09.08.2010, 22:00

watchout

Legend
undead
Avatar
Registered: Nov 2000
Location: Off the grid.
Posts: 6845
Hast du schon mal überlegt bei cineplexx, etc. zu fragen ob sie nicht eh die Daten auch "freiwillig" hergeben würden?

Rektal

Here to stay
Registered: Dec 2002
Location: Inside
Posts: 4477
Fürs HTML-Parsen in welch noch so unschöner Form kann ich http://nokogiri.org/ (Ruby) empfehlen. Unterstützt CSS und XPATH expressions, kann den Baum auch manipulieren, etc. Hab ich in der Firma verwendet um mehrere tausend statische HTML-Dokument mit unterschiedlichsten Formen zu bereinigen und nach XML zu konvertieren.
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz