Hilfe: Brauche aktuelle mwdumper.jar
Chrissicom 17.11.2012 - 01:43 2323 3
Chrissicom
Rise of the Ryzen
|
Hallo, leider scheint die importDump.php von Media 1.20.0 mit den aktuellen XML Dumps von Wikipedia nicht zu funktionieren. Die .jar von mwdumper die man herunterladen kann ist hoffnungslos veraltet. Mit dem git und dem compilieren der aktuellen Version komme ich leider auf keinen grünen Zweig. Ant unter Windows ist halt doch reichlich dürftig. Wäre jemand so freundlich und könnte mir die mwdumper.jar ( http://www.mediawiki.org/wiki/MWDumper) mit der aktuellen Version kompilieren? Wäre sehr nett!
|
DKCH
Administrator ...
|
was genau ist an ant "dürftig"?
|
Rektal
Here to stay
|
http://my-serve.rs/tmp/mwdumper-1.16.jarMD5: 8824849d0b73b5cf8f5a2352527d08bb Auf eigene Gefahr, habs nur geklont und das jar gebaut. Btw, ant? Ist eh (auch) ein maven project, builden war easy as pie. Aber result ist untested
|
Chrissicom
Rise of the Ryzen
|
An Ant oder Maven ist nichts dürftig, aber wie viele der Tools in diese Richtung, sind sie unter Windows schlecht implementiert. Bei den GNU32 Tools z.B. gibt es ein paar die gute Windows Implementierungen haben, andere wieder funktionieren nicht vernünftig. Danke Rektal werde das gleich mal testen, wenn das aktuelle Query fertig ist (dauert ein paar Stunden)! Edit: Leider bekomme ich bei der von dir kompilierten Version einen ClassNotFoundException in der main-Klasse. org/apache/commons/compressors/bzip2/BZip2CompressorOutputStream Ist das ein Problem meiner Java/XAMPP Installation oder der kompilierten .jar Datei? Im Grunde brauche ich diese Klasse auch gar nicht wenn sie nicht in "main" irgendwie aufgerufen werden würde, da ich die XML-Files schon entpackt habe und direkt im .xml Format vorliegen habe (ca. 100 GB RAW-Daten). Edit 2: Habe die Klassen jetzt manuell hinzugefügt und nun "funktioniert" mwdumper.jar Allerdings nur mit dem pages-articles Dump. Alle anderen XML Dumps kann er nicht verarbeiten, wie z.B. die Logging-Tabelle (die aber genau das ist, was ich brauche). Ich frage mich wie man diese XML Dumps verarbeiten soll ... die importDump.php von MediaWiki kommt auch nur mit dem Artikel-Dump klar, nicht aber mit der Logging-Tabelle oder anderen.
Bearbeitet von Chrissicom am 17.11.2012, 16:22
|