Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Seite 1 von 1 - Forum: Internet & Provider auf overclockers.at

URL: https://www.overclockers.at/internet-provider/crawler-fuer-training-von-gpt-ausschlieszen-openai-stellt-code-fuer-robots-txt-vor_262280/page_1 - zur Vollversion wechseln!

enjoy schrieb am 08.08.2023 um 16:32

Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Für das Training von KI-Chatbots wie ChatGPT wird das Internet durchpflügt. Wer Inhalte davon ausschließen will, kann das nun über Code in der robots.txt tun.

Link: www.heise.de

Wer seine Webseite nicht für das Training von GPT von OpenAI zur Verfügung stellen möchte, kann den Crawler über die robots.txt ausschließen

Hansmaulwurf schrieb am 08.08.2023 um 19:43

Das Zeug sollte halt opt-in sein in Wirklichkeit und nicht opt-out

wergor schrieb am 09.08.2023 um 10:29

Zitat aus einem Post von Hansmaulwurf
Das Zeug sollte halt opt-in sein in Wirklichkeit und nicht opt-out

in wahrheit funkioniert so halt nix, so sehr ich auch für opt-in statt opt-out bin, ich versteh warum niemand freiwillig opt-in macht.

MightyMaz schrieb am 09.08.2023 um 10:46

Was robots.txt bringt hat man beim Internet Archive gesehen.
Offiziell kommt der Bot wohl von folgenden Adressen:

https://openai.com/gptbot-ranges.txt

und die sollte man dann zumindest erden.

Hansmaulwurf schrieb am 09.08.2023 um 10:58

Zitat aus einem Post von wergor
in wahrheit funkioniert so halt nix, so sehr ich auch für opt-in statt opt-out bin, ich versteh warum niemand freiwillig opt-in macht.

Natürlich will ich das aus Unternehmenssicht nicht, aber so funktioniert halt Copyright an sich. Ich muss den Ersteller fragen ob er einverstanden ist das ich seine Inhalte verarbeite, nicht umgekehrt, außer er hat es explizit dafür freigegeben zB via Creative Commons.

Wenn ich vier aufeinander folgende Noten einer Melodie von Disney verwende, dann hab ich ein Problem, aber wenn ich nicht will das Google meine Musik massenhaft verarbeitet muss ich explizit ablehnen, das ist doch ein schlechter Scherz.

Und bezüglich freiwillig, deswegen gehört das reguliert weil natürlich machen’s das freiwillig nicht