Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor
enjoy 08.08.2023 - 16:32 2398 4
enjoy
Addicted
|
Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vorFür das Training von KI-Chatbots wie ChatGPT wird das Internet durchpflügt. Wer Inhalte davon ausschließen will, kann das nun über Code in der robots.txt tun. Link: www.heise.de Wer seine Webseite nicht für das Training von GPT von OpenAI zur Verfügung stellen möchte, kann den Crawler über die robots.txt ausschließen
|
Hansmaulwurf
u wot m8?
|
Das Zeug sollte halt opt-in sein in Wirklichkeit und nicht opt-out
|
wergor
connoisseur de mimi
|
Das Zeug sollte halt opt-in sein in Wirklichkeit und nicht opt-out in wahrheit funkioniert so halt nix, so sehr ich auch für opt-in statt opt-out bin, ich versteh warum niemand freiwillig opt-in macht.
|
MightyMaz
hat nun auch einen Titel
|
Was robots.txt bringt hat man beim Internet Archive gesehen. Offiziell kommt der Bot wohl von folgenden Adressen: https://openai.com/gptbot-ranges.txtund die sollte man dann zumindest erden.
|
Hansmaulwurf
u wot m8?
|
in wahrheit funkioniert so halt nix, so sehr ich auch für opt-in statt opt-out bin, ich versteh warum niemand freiwillig opt-in macht. Natürlich will ich das aus Unternehmenssicht nicht, aber so funktioniert halt Copyright an sich. Ich muss den Ersteller fragen ob er einverstanden ist das ich seine Inhalte verarbeite, nicht umgekehrt, außer er hat es explizit dafür freigegeben zB via Creative Commons. Wenn ich vier aufeinander folgende Noten einer Melodie von Disney verwende, dann hab ich ein Problem, aber wenn ich nicht will das Google meine Musik massenhaft verarbeitet muss ich explizit ablehnen, das ist doch ein schlechter Scherz. Und bezüglich freiwillig, deswegen gehört das reguliert weil natürlich machen’s das freiwillig nicht
Bearbeitet von Hansmaulwurf am 09.08.2023, 11:00
|