"We are back" « oc.at

KI-Modelle: GPT, xLSTM, Stable Diffusion, etc

phono 27.01.2023 - 13:10 240447 793 Thread rating
Posts

MightyMaz

hat nun auch einen Titel
Registered: Feb 2003
Location: .de
Posts: 646
Für "5*9+2" bekomme ich mit den üblichen Parametern das richtige Ergebnis inklusive Herleitung. Allerdings war das bis vor kurzem zumindest bei dem kleinen llama Meta Modell noch nicht immer der Fall. Da hat wohl ein Update von ollama etwas verbessert.

Daeda

Here to stay
Registered: Aug 2007
Location: Graz
Posts: 1566
Zitat aus einem Post von Longbow
Ich behaupte auch, dass es an snake liegt. Ein ähnlicher Versuch mit 2er Schnapsen landet beim üblichen „technically not wrong“. Er verhaspelt sich aber ständig mit Atout/Farbzwang, 20/40 etc… und ich hab absichtlich ein einfaches Spiel gewählt.

Wollte es dann noch einfacher: „Hosn owi“ und auch da mühsam.

Habe gpt4 und claude probiert.

was die spielregeln und mechanik angeht, ist snake einfach sehr bekannt und es gibt auch sicher einige open source code beispiele. schnapsen ist dagegen ein extrem regional beschränktes kartenspiel. außerhalb von bayern und österreich kennt das kaum jemand. open source beispiele gibts wohl kaum welche.

in meinem ersten versuch mit bolt.new wurde das bei mir auch nur ein "karte x schlägt y" spiel ohne wirklicher verbindung zu schnapsen. dann hab ich die regeln von wiki übergeben, und siehe da - man erkennt zumindest, dass es schnapsen sein soll: https://cheerful-gelato-5ca4a5.netlify.app/

Longbow

Here to stay
Avatar
Registered: Feb 2003
Location: Homeoffice
Posts: 5422
ich hab ihm dann tlw. selber feedback gegeben und auch wiki verlinkt, mir schien aber (beim gpt4) dass er sich irgendwann im context wieder angespieben hat - weil er tlw. alte infos wieder vergessen hatte und mit den bugfixes dann immer wieder verschlimmbessert.

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 50483
Zitat aus einem Post von Dune
Wie funktioniert das eigentlich technisch genau, mit APIs? Wolfram kann ja nicht sämtliche Ergebnisse auf jede beliebige Rechnung cachen. Wenn reasoning wieder nur verweis auf VektorDB Ergebnis bedeutet, ist es ja kein reasoning. Verstehe die Architektur da noch nicht so ganz.
Wie es genau rennt weiß ich auch nicht, nicht mal ob überhaupt wirklich Wolfram dahinter steht.
Aber die Integration von Agenten in die Modelle ist genau dafür da.

Spezielle Anforderungen an Spezialisten abzugeben. Ich vermute dass die Rechnung dann eine Arithmetik Engine gegeben wird, diese dann rechnet und das Ergebnis von der ursprünglichen KI interpretiert wird.

Reasoning sehe ich in so einem Ansatz aktuell nicht, das kann in wenigen Generationen anders aussehen. Aber wirklich rechnen scheinen auch bessere Modelle mit reasoning noch nicht zu können (und auch nicht erklären wenn man die Rechenschritte rein gibt)

Zitat aus einem Post von Dune
Wolfram ist extrem geil, habe ich damals im Studium auch viel verwendet.
Absolut!

Dune

Dark mode
Registered: Jan 2002
Location: Wien
Posts: 10289
Muss ich noch recherchieren, ich kann's selber grad gar nicht beurteilen, wie die in dem Bereich arbeiten. Die schwierigen analytischen Aufgaben sind ja viel anspruchsvoller als numerische Fließkoma Berechnungen... Wenn da nicht-homogene nicht-lineare Differentialgleichungen usw. gelöst werden können... Da hilft es ja auch nicht nur auf bestehende Ergebnisse zu verweisen.

Interessantes Thema :)

TOM

Elder
Oldschool OC.at'ler
Avatar
Registered: Nov 2000
Location: Vienna
Posts: 7431
Für alle die nicht nachvollziehen können warum LLM's schlecht in simpler Arithmetik und simpler Rechtschreibung ("How many r are in Strawberry") sind, dem kann ich Andrej Karpathy's letztes Youtube Video an's Herz legen.

Quintessenz: Es ist ein Problem der aktuellen Tokenisierung. Das LLM sind keine Buchstaben oder Zahlen, es sieht nur Token. Wenn du einem LLM sagst es soll Code verwenden um etwas zu berechnen, dann ist es meistens korrekt. Es quasi dazu zu bringen für gewisse Aufgaben, spezialisierte Tools zu verwenden (Use code, Use calc, ...) ist eben eine Schwachstelle der aktuellen Architektur (meine Worte)

Aber siehe Beispiel reasoning, sehe ich das als keine lang anhaltende Hürde

imho sind Wachstumsschmerzen und es ist genügend biologische Brainpower drann, dem Silicone weiter zum Denken zu verhelfen

btw. was mich grad viel mehr fasziniert, laut Deepseak analyse ist reasoning ein emerging property von LLMs.
Keiner sagt den Dingern dass sie hinterfragen sollen ob das stimmt, was ihnen spontan "einfällt".
Aber sie kommen "von alleine" drauf, dass ein gewisses "step-by-step" reasoning gut wäre.... spooky :eek:

Daeda

Here to stay
Registered: Aug 2007
Location: Graz
Posts: 1566
Zitat aus einem Post von Longbow
ich hab ihm dann tlw. selber feedback gegeben und auch wiki verlinkt, mir schien aber (beim gpt4) dass er sich irgendwann im context wieder angespieben hat - weil er tlw. alte infos wieder vergessen hatte und mit den bugfixes dann immer wieder verschlimmbessert.

durchaus möglich. gpt4 ist halt zum coden auch nicht gerade das beste. danach kamen noch 4o und die verschiedenen o1's und jetzt gibt es schon o3 (zumindest mini).

@mathematik diskussion: habt ihr euch die ergebnisse zB vom AIME test angesehen? da hat sich in den letzten monaten extrem viel getan.

- gpt4o: 13,4%
- o1: 83,3%
- deepseek r1: 79,8%
- o3: 96,7%
- grok 3: 93%

dieses und mehr gibts unter: https://llm-stats.com/

Dune

Dark mode
Registered: Jan 2002
Location: Wien
Posts: 10289
Spannend! Wär total interessant wie gut ein 0815 human im Vergleich zu den LLMs abschneidet. Werd spaßeshalber mal einen Test machen, wenn ich Zeit hab und schauen wie viel ich schaffen würde.Hat man bei den AIMEs ein beschränktes Zeitfenster? (:

Topic, das schlechte Abschneiden von 4o wundert mich persönlich nicht ganz. Gefühlt veroascht man das am meisten mit Halluzinationen beim Coden oder bei Assistenzaufgaben.

Hat hier schon jemand Deepseek lokal laufen?

MightyMaz

hat nun auch einen Titel
Registered: Feb 2003
Location: .de
Posts: 646
Ich hab deepseek-r1:32b installiert
https://ollama.com/library/deepseek-r1

Aber wenn ich es richtig verstehe basieren die kleineren Modelle auf unterschiedlichen Basismodellen, sind also nicht direkt vergleichbar bzw. sind nur ressourcenschonender/schneller als die Modelle aus denen sie abgeleitet wurden(?)

Ich teste ganz gerne mit Magic the Gathering Regelfragen weil ich da am meisten Kompetenz habe. ;)
In den meisten Fällen kommt in dem Bereich BS raus, wobei zwar teilweise das Ergebnis stimmt aber die Herleitung dann kompletter Unfug ist. Das deepseek-qwen-Modell füllt im Gegensatz zu meta-llama meist ganze Seiten und führt ellenlange "Selbstgespräche" und am Ende ist es dann trotzdem falsch.
Bearbeitet von MightyMaz am 24.02.2025, 14:40

charmin

Elder
0_o
Avatar
Registered: Dec 2002
Location: aut_sbg
Posts: 15401
Sie sind vom grossen Modell destilliert.
Hast du das 32b von ollama oder?

MightyMaz

hat nun auch einen Titel
Registered: Feb 2003
Location: .de
Posts: 646
Ja genau und das basiert wohl auf Qwen (kannte ich nicht). Ansonsten hab ich noch die "normalen" llama 3-1 8B und 3-3 70B Modelle von Meta installiert. Letzteres ist dann vermutlich Oberkannte was auf meinem System noch (sehr langsam) läuft.

Wenn man wissen will was technisch wirklich schon möglich ist wird man wohl immer auf die besten Modelle zurückgreifen müssen, ich hab aber keine Bezahlaccounts.

sk/\r

i never asked for this
Avatar
Registered: Dec 2002
Location: oö
Posts: 11059
Zitat aus einem Post von böhmi
Kann man ChatGPT nicht einfach nach einem Export der Konversation als .txt fragen?

Also irgendwie so:
Code:
export our conversation in a .txt-file from 23rd of february 2025 at 08:15am on

ich hab sogar gpt gefragt und das war die antwort:

Right now, there’s no direct “copy all” button, but you can try these options:

1. Manual Copying:

Scroll up to the start of our conversation.

Highlight everything with your finger (press and hold, then drag).

Tap “Copy” and paste it into a note app, email, or document.

2. Using a Note-Taking App:

If you’re on a phone, you can share the chat with a note app like Google Keep, Notion, or Evernote (some chat apps allow sharing text).

3. Screenshots:

If you just need a quick reference, you can take screenshots and store them in a folder.

If you’re trying to save it for a specific reason (reflection, sharing, etc.), I can also summarize key points for you. Let me know what works best!

Dune

Dark mode
Registered: Jan 2002
Location: Wien
Posts: 10289
Zitat aus einem Post von MightyMaz
Ich teste ganz gerne mit Magic the Gathering Regelfragen weil ich da am meisten Kompetenz habe.

Geilster LLM Use Case, den ich je gehört habe :D Ich habe auch das Star Wars Rebellion Brettspiel, jedes mal wenn ich es spiele, diskutieren wir Stunden über die Regeln, weil es wir uns es einfach nicht über Monate merken können. Wie Anwälte, die sich nicht auskennen...

Weiß jemand konkret wie DeepSeek es schafft mit einem Bruchteil im Vergleich bessere Ergebnisse zu erzielen?

charmin

Elder
0_o
Avatar
Registered: Dec 2002
Location: aut_sbg
Posts: 15401
Bruchteil von was?

Aktiven Parametern? Es is ein mixture of Experts Modell. Bei dem werden die fully connected layer durch spezielle trainierte Experten layer ersetzt und es dürfen maximal 2 aktiv sein bei der inferenz. Dadurch um einiges günstigere / schnellere inferenz und weniger aktive gewichte bei inferenz.
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz