"We are back" « oc.at

Hilfe: Brauche aktuelle mwdumper.jar

Chrissicom 17.11.2012 - 01:43 2323 3
Posts

Chrissicom

Rise of the Ryzen
Avatar
Registered: Jul 2006
Location: Falkensee
Posts: 1942
Hallo,

leider scheint die importDump.php von Media 1.20.0 mit den aktuellen XML Dumps von Wikipedia nicht zu funktionieren. Die .jar von mwdumper die man herunterladen kann ist hoffnungslos veraltet. Mit dem git und dem compilieren der aktuellen Version komme ich leider auf keinen grünen Zweig. Ant unter Windows ist halt doch reichlich dürftig.

Wäre jemand so freundlich und könnte mir die mwdumper.jar (http://www.mediawiki.org/wiki/MWDumper) mit der aktuellen Version kompilieren? :) Wäre sehr nett!

DKCH

Administrator
...
Registered: Aug 2002
Location: #
Posts: 3297
was genau ist an ant "dürftig"?

Rektal

Here to stay
Registered: Dec 2002
Location: Inside
Posts: 4473
http://my-serve.rs/tmp/mwdumper-1.16.jar

MD5: 8824849d0b73b5cf8f5a2352527d08bb

Auf eigene Gefahr, habs nur geklont und das jar gebaut.

Btw, ant? Ist eh (auch) ein maven project, builden war easy as pie. Aber result ist untested :)

Chrissicom

Rise of the Ryzen
Avatar
Registered: Jul 2006
Location: Falkensee
Posts: 1942
An Ant oder Maven ist nichts dürftig, aber wie viele der Tools in diese Richtung, sind sie unter Windows schlecht implementiert. Bei den GNU32 Tools z.B. gibt es ein paar die gute Windows Implementierungen haben, andere wieder funktionieren nicht vernünftig.

Danke Rektal :) werde das gleich mal testen, wenn das aktuelle Query fertig ist (dauert ein paar Stunden)!

Edit:
Leider bekomme ich bei der von dir kompilierten Version einen ClassNotFoundException in der main-Klasse.

org/apache/commons/compressors/bzip2/BZip2CompressorOutputStream

Ist das ein Problem meiner Java/XAMPP Installation oder der kompilierten .jar Datei? Im Grunde brauche ich diese Klasse auch gar nicht wenn sie nicht in "main" irgendwie aufgerufen werden würde, da ich die XML-Files schon entpackt habe und direkt im .xml Format vorliegen habe (ca. 100 GB RAW-Daten).

Edit 2:
Habe die Klassen jetzt manuell hinzugefügt und nun "funktioniert" mwdumper.jar

Allerdings nur mit dem pages-articles Dump. Alle anderen XML Dumps kann er nicht verarbeiten, wie z.B. die Logging-Tabelle (die aber genau das ist, was ich brauche). Ich frage mich wie man diese XML Dumps verarbeiten soll :( ... die importDump.php von MediaWiki kommt auch nur mit dem Artikel-Dump klar, nicht aber mit der Logging-Tabelle oder anderen.
Bearbeitet von Chrissicom am 17.11.2012, 16:22
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz