"We are back" « oc.at

automatisches klassifizieren von texten

sensei 04.11.2002 - 17:03 531 4
Posts

sensei

die Küstenwache?
Avatar
Registered: Dec 2000
Location: Bad Schlotterbac..
Posts: 709
i muss als projekt für die uni ein prog. schreibn (in java) das Zeitungsartikel klassifiziert.

das programmiern selbst ist eigentlich nicht mein problem, sondern das finden von literaur mit diveresen ansätzen wie man das am besten angeht.

also meine frage: hat wer schon mal mit dieser thematik was am hut gehabt? wenn ja was ist bzw. woher bekommt man gute literatur

(in der unibibliothek(linz) habn mir leider nix drüber)

atrox

in fairy dust... I trust!
Avatar
Registered: Sep 2002
Location: HTTP/1.1 404
Posts: 2782
in was für gruppen soll klassifiziert werden ?

Ringding

Pilot
Avatar
Registered: Jan 2002
Location: Perchtoldsdorf/W..
Posts: 4300
In gescheite und dumme :)

Das könnte man dann auch gleich für's Forum verwenden.

sensei

die Küstenwache?
Avatar
Registered: Dec 2000
Location: Bad Schlotterbac..
Posts: 709
:D

es sollen div. einteilungwn gemacht werden.

wie.: Sport, Kultur.... und noch andere klassifizierungen je nach ermessen (d.h. liegt teilweise in meinem ermessen wie ichs klassifizier)

watchout

Legend
undead
Avatar
Registered: Nov 2000
Location: Off the grid.
Posts: 6845
also, das kannst du imho nur etwa so machen:
db mit sparten + wörterdb zu den jeweiligen sparten (dh. oft benutzte worte in dem jeweiligen bereich - auch doppelte möglich)

jetzt vergleichst du einen artikel mit deiner db, schaust wieviele worte in der jeweiligen sparte vorkommen, suchst dir die mit der mehrheit raus -
zusätzlich kannst dann noch überprüfungen machen wie:
- wie gross ist der prozentuelle unterschied zu einer anderen sparte? -> wenn zu niedrig dem admin vorlegen zb.
- kommt der spartenname im text vor? kommt der name einer anderen sparte im text vor?

du kannst das proggie auch lernfähig machen:
-> worte ab einer bestimmten länge, die in einem artikel mit einer gerade zugeordneten sparte vorkommen werden in einer separaten tabelle abgelegt, wenn ein wort zb. 20mal in 100 artikeln vorkommt, wird er als mögliches identifizierungsmerkmal eingestuft und wieder dem admin vorgelegt

warum immer dem admin vorlegen? logo, es gibt einisges dass kann ein computa einfach nicht entscheiden/auseinanderhalten, und gerade kriterien nach denen er später entscheidet sollten 100% richtig zugeordnet sein, nicht dass zu fussball "John Woo" und zum Film "Tabellenführer" kommt ;)
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz