automatisches klassifizieren von texten
sensei 04.11.2002 - 17:03 531 4
sensei
die Küstenwache?
|
i muss als projekt für die uni ein prog. schreibn (in java) das Zeitungsartikel klassifiziert.
das programmiern selbst ist eigentlich nicht mein problem, sondern das finden von literaur mit diveresen ansätzen wie man das am besten angeht.
also meine frage: hat wer schon mal mit dieser thematik was am hut gehabt? wenn ja was ist bzw. woher bekommt man gute literatur
(in der unibibliothek(linz) habn mir leider nix drüber)
|
atrox
in fairy dust... I trust!
|
in was für gruppen soll klassifiziert werden ?
|
Ringding
Pilot
|
In gescheite und dumme ![:)](/images/smilies/smile.gif) Das könnte man dann auch gleich für's Forum verwenden.
|
sensei
die Küstenwache?
|
es sollen div. einteilungwn gemacht werden. wie.: Sport, Kultur.... und noch andere klassifizierungen je nach ermessen (d.h. liegt teilweise in meinem ermessen wie ichs klassifizier)
|
watchout
Legendundead
|
also, das kannst du imho nur etwa so machen: db mit sparten + wörterdb zu den jeweiligen sparten (dh. oft benutzte worte in dem jeweiligen bereich - auch doppelte möglich) jetzt vergleichst du einen artikel mit deiner db, schaust wieviele worte in der jeweiligen sparte vorkommen, suchst dir die mit der mehrheit raus - zusätzlich kannst dann noch überprüfungen machen wie: - wie gross ist der prozentuelle unterschied zu einer anderen sparte? -> wenn zu niedrig dem admin vorlegen zb. - kommt der spartenname im text vor? kommt der name einer anderen sparte im text vor? du kannst das proggie auch lernfähig machen: -> worte ab einer bestimmten länge, die in einem artikel mit einer gerade zugeordneten sparte vorkommen werden in einer separaten tabelle abgelegt, wenn ein wort zb. 20mal in 100 artikeln vorkommt, wird er als mögliches identifizierungsmerkmal eingestuft und wieder dem admin vorgelegt warum immer dem admin vorlegen? logo, es gibt einisges dass kann ein computa einfach nicht entscheiden/auseinanderhalten, und gerade kriterien nach denen er später entscheidet sollten 100% richtig zugeordnet sein, nicht dass zu fussball "John Woo" und zum Film "Tabellenführer" kommt
|