Website auslesen/parsen

ica

hmm

Registered: Jul 2002
Location: Graz
Posts: 9831

09.08.2010 - 21:03

Ich würd gern von diversen Websites Informationen/Daten automatisiert auslesen und in ein für mich brauchbares Format (xml) bringen.

Weiss jemand obs dazu brauchbare Libraries gibt? Programmiersprache ist mir eigentlich ziemlich egal. Non-Gui only - soll auf einem Server laufen.

Hat jemand Ahnung wie das ganze eigentlich rechtlich aussieht? Konkret würd ich gern Kinoprogramme von diversen Seiten (zb. Cineplexx) holen und in einer Android App darstellen. Die App wäre kostenlos, aber zb. mit Werbeeinblendungen.

jives

And the science gets done

Registered: Sep 2001
Location: Baden
Posts: 3548

09.08.2010 - 21:19

Bei konformen Seiten sollte eigentlich jede XML-Library können was du brauchst - da ist der Inhalt ja eigentlich sowieso schon in XML dargestellt. Wie es bei nicht standardkonformen Seiten aussieht weiß ich nicht genau, könnte mir aber vorstellen dass das abenteuerlich werden kann...

muene

Addicted

Registered: Jan 2004
Location: @Home
Posts: 430

09.08.2010 - 21:20

Hab so etwas einmal unter Linux gemacht.
Mit wget (Link) die Webseite geholt und anschließend mit einem Perl Script die relevanten Daten rausgefischt.

ica

hmm

Registered: Jul 2002
Location: Graz
Posts: 9831

09.08.2010 - 21:23

Schön wäre halt auch wenn das Teil von selbst das paging berücksichtigt Usw. Das es manuell geht ist schon klar - dachte nur es gibt da vielleicht schon was.

COLOSSUS

Administrator
GNUltra

Registered: Dec 2000
Location: ~
Posts: 12171

09.08.2010 - 21:33

http://docs.python.org/library/htmlparser.html - hf!

Auch: http://www.crummy.com/software/BeautifulSoup/

fatmike182

Agnotologe

Registered: Oct 2005
Location: VIE
Posts: 4223

09.08.2010 - 21:35

allerdings glaube ich fast, dass sie darauf bestehen können, dass du die App zurücknimmst (da ihre Daten)

Nico

former person of interest

Registered: Sep 2006
Location: -
Posts: 4082

09.08.2010 - 21:37

naja, auch andere seiten fassen kinoprogramme zusammen.

ica

hmm

Registered: Jul 2002
Location: Graz
Posts: 9831

09.08.2010 - 21:44

Zitat von COLOSSUS
Auch: http://www.crummy.com/software/BeautifulSoup/

schaut schonmal gut aus. thx!

nochmals: das es html/xml parser gibt ist mir schon klar, aber ich will das nicht "händisch" machen. ich will sagen node x mit class y unter node z ist ein item, gib mir alle und am besten wenns ein paging gibt auch alle der darauffolgenden seiten.

Nico

former person of interest

Registered: Sep 2006
Location: -
Posts: 4082

09.08.2010 - 21:52

wie würde ein paging erkannt werden?

ica

hmm

Registered: Jul 2002
Location: Graz
Posts: 9831

09.08.2010 - 21:56

Zitat von Nico
wie würde ein paging erkannt werden?

keine ahnung ob es das gibt. aber schätzungsweise via angabe des form tags bzw. a tags.

Bearbeitet von ica am 09.08.2010, 22:00

watchout

Legend
undead

Registered: Nov 2000
Location: Off the grid.
Posts: 6845

10.08.2010 - 03:16

Hast du schon mal überlegt bei cineplexx, etc. zu fragen ob sie nicht eh die Daten auch "freiwillig" hergeben würden?

Rektal

Here to stay

Registered: Dec 2002
Location: Inside
Posts: 4491

11.08.2010 - 12:59

Fürs HTML-Parsen in welch noch so unschöner Form kann ich http://nokogiri.org/ (Ruby) empfehlen. Unterstützt CSS und XPATH expressions, kann den Baum auch manipulieren, etc. Hab ich in der Firma verwendet um mehrere tausend statische HTML-Dokument mit unterschiedlichsten Formen zu bereinigen und nach XML zu konvertieren.

ica hmm Registered: Jul 2002 Location: Graz Posts: 9831	09.08.2010 - 21:03 Ich würd gern von diversen Websites Informationen/Daten automatisiert auslesen und in ein für mich brauchbares Format (xml) bringen. Weiss jemand obs dazu brauchbare Libraries gibt? Programmiersprache ist mir eigentlich ziemlich egal. Non-Gui only - soll auf einem Server laufen. Hat jemand Ahnung wie das ganze eigentlich rechtlich aussieht? Konkret würd ich gern Kinoprogramme von diversen Seiten (zb. Cineplexx) holen und in einer Android App darstellen. Die App wäre kostenlos, aber zb. mit Werbeeinblendungen.
jives And the science gets done Registered: Sep 2001 Location: Baden Posts: 3548	09.08.2010 - 21:19 Bei konformen Seiten sollte eigentlich jede XML-Library können was du brauchst - da ist der Inhalt ja eigentlich sowieso schon in XML dargestellt. Wie es bei nicht standardkonformen Seiten aussieht weiß ich nicht genau, könnte mir aber vorstellen dass das abenteuerlich werden kann...
muene Addicted Registered: Jan 2004 Location: @Home Posts: 430	09.08.2010 - 21:20 Hab so etwas einmal unter Linux gemacht. Mit wget (Link) die Webseite geholt und anschließend mit einem Perl Script die relevanten Daten rausgefischt.
ica hmm Registered: Jul 2002 Location: Graz Posts: 9831	09.08.2010 - 21:23 Schön wäre halt auch wenn das Teil von selbst das paging berücksichtigt Usw. Das es manuell geht ist schon klar - dachte nur es gibt da vielleicht schon was.
COLOSSUS Administrator GNUltra Registered: Dec 2000 Location: ~ Posts: 12171	09.08.2010 - 21:33 http://docs.python.org/library/htmlparser.html - hf! Auch: http://www.crummy.com/software/BeautifulSoup/
fatmike182 Agnotologe Registered: Oct 2005 Location: VIE Posts: 4223	09.08.2010 - 21:35 allerdings glaube ich fast, dass sie darauf bestehen können, dass du die App zurücknimmst (da ihre Daten)
Nico former person of interest Registered: Sep 2006 Location: - Posts: 4082	09.08.2010 - 21:37 naja, auch andere seiten fassen kinoprogramme zusammen.
ica hmm Registered: Jul 2002 Location: Graz Posts: 9831	09.08.2010 - 21:44 Zitat von COLOSSUS Auch: http://www.crummy.com/software/BeautifulSoup/ schaut schonmal gut aus. thx! nochmals: das es html/xml parser gibt ist mir schon klar, aber ich will das nicht "händisch" machen. ich will sagen node x mit class y unter node z ist ein item, gib mir alle und am besten wenns ein paging gibt auch alle der darauffolgenden seiten.
Nico former person of interest Registered: Sep 2006 Location: - Posts: 4082	09.08.2010 - 21:52 wie würde ein paging erkannt werden?
ica hmm Registered: Jul 2002 Location: Graz Posts: 9831	09.08.2010 - 21:56 Zitat von Nico wie würde ein paging erkannt werden? keine ahnung ob es das gibt. aber schätzungsweise via angabe des form tags bzw. a tags. Bearbeitet von ica am 09.08.2010, 22:00
watchout Legend undead Registered: Nov 2000 Location: Off the grid. Posts: 6845	10.08.2010 - 03:16 Hast du schon mal überlegt bei cineplexx, etc. zu fragen ob sie nicht eh die Daten auch "freiwillig" hergeben würden?
Rektal Here to stay Registered: Dec 2002 Location: Inside Posts: 4491	11.08.2010 - 12:59 Fürs HTML-Parsen in welch noch so unschöner Form kann ich http://nokogiri.org/ (Ruby) empfehlen. Unterstützt CSS und XPATH expressions, kann den Baum auch manipulieren, etc. Hab ich in der Firma verwendet um mehrere tausend statische HTML-Dokument mit unterschiedlichsten Formen zu bereinigen und nach XML zu konvertieren.

Website auslesen/parsen

Forum Index > Software > Coding Stuff

ica

jives

muene

ica

COLOSSUS

fatmike182

Nico

ica

Nico

ica

watchout

Rektal