Hilfe: Brauche aktuelle mwdumper.jar

Seite 1 von 1 - Forum: Coding Stuff auf overclockers.at

URL: https://www.overclockers.at/coding-stuff/hilfe-brauche-aktuelle-mwdumper-jar_232495/page_1 - zur Vollversion wechseln!


Chrissicom schrieb am 17.11.2012 um 01:43

Hallo,

leider scheint die importDump.php von Media 1.20.0 mit den aktuellen XML Dumps von Wikipedia nicht zu funktionieren. Die .jar von mwdumper die man herunterladen kann ist hoffnungslos veraltet. Mit dem git und dem compilieren der aktuellen Version komme ich leider auf keinen grünen Zweig. Ant unter Windows ist halt doch reichlich dürftig.

Wäre jemand so freundlich und könnte mir die mwdumper.jar (http://www.mediawiki.org/wiki/MWDumper) mit der aktuellen Version kompilieren? :) Wäre sehr nett!


DKCH schrieb am 17.11.2012 um 12:28

was genau ist an ant "dürftig"?


Rektal schrieb am 17.11.2012 um 12:41

http://my-serve.rs/tmp/mwdumper-1.16.jar

MD5: 8824849d0b73b5cf8f5a2352527d08bb

Auf eigene Gefahr, habs nur geklont und das jar gebaut.

Btw, ant? Ist eh (auch) ein maven project, builden war easy as pie. Aber result ist untested :)


Chrissicom schrieb am 17.11.2012 um 12:54

An Ant oder Maven ist nichts dürftig, aber wie viele der Tools in diese Richtung, sind sie unter Windows schlecht implementiert. Bei den GNU32 Tools z.B. gibt es ein paar die gute Windows Implementierungen haben, andere wieder funktionieren nicht vernünftig.

Danke Rektal :) werde das gleich mal testen, wenn das aktuelle Query fertig ist (dauert ein paar Stunden)!

Edit:
Leider bekomme ich bei der von dir kompilierten Version einen ClassNotFoundException in der main-Klasse.

org/apache/commons/compressors/bzip2/BZip2CompressorOutputStream

Ist das ein Problem meiner Java/XAMPP Installation oder der kompilierten .jar Datei? Im Grunde brauche ich diese Klasse auch gar nicht wenn sie nicht in "main" irgendwie aufgerufen werden würde, da ich die XML-Files schon entpackt habe und direkt im .xml Format vorliegen habe (ca. 100 GB RAW-Daten).

Edit 2:
Habe die Klassen jetzt manuell hinzugefügt und nun "funktioniert" mwdumper.jar

Allerdings nur mit dem pages-articles Dump. Alle anderen XML Dumps kann er nicht verarbeiten, wie z.B. die Logging-Tabelle (die aber genau das ist, was ich brauche). Ich frage mich wie man diese XML Dumps verarbeiten soll :( ... die importDump.php von MediaWiki kommt auch nur mit dem Artikel-Dump klar, nicht aber mit der Logging-Tabelle oder anderen.




overclockers.at v4.thecommunity
© all rights reserved by overclockers.at 2000-2025