XAI - Grok 3

DaFreak · 18 februari 2025

Musk liet eerst uitschijnen dat het een model ging zijn dat extreem rechtse propaganda en desinformatie zou uitkramen

Maar zoals we ondertussen van hem gewoon zijn blijkt dat, gelukkig, weer allemaal fake en misinformatief te zijn;

Ook als je het model bevraagt over onderwerpen zoals bijvoorbeeld global warming, vaccins of transgender lijkt het vrij "woke" te zijn en zich gewoon aan feiten en de realiteit te houden waardoor het op vele punten lijnrecht ingaat tegen de zogezegde "woke mindvirus" onzin die Musk zelf regelmatig uitkraamt.

Moet nog een beetje onderdoen voor o3 die ze gemakkelijkheidshalve in deze vergelijking achterwege hebben gelaten.

Maar best indrukwekkend als je ziet op hoe een korte tijd ze aan het bijbenen zijn. Ze hebben natuurlijk ook een gigantische compute cluster ter beschikking maar blijft mooi om te zien dat met dit model xAI echt concurrentieel gaat worden en zo dus ook de andere nog meer gaat pushen om aan sneltempo te blijven innoveren.

Bjorn · 19 februari 2025

Iedereen zou al die Amerikaanse rommel links moeten laten liggen.

Koonut · 19 februari 2025

Bjorn zei:
Iedereen zou al die Amerikaanse rommel links moeten laten liggen.

In hoeverre is dat zelfs mogelijk? Volledig mee met het sentiment, maar geen idee waar de EU al staat qua AI.

DaFreak · 19 juli 2025

Hoe minder er over Grok gezegd wordt hoe beter peinzek maar kan het niet laten;

2025 headline. #NottheOnion
This timeline just keeps getting weirder.

zwarten · 19 juli 2025

DaFreak zei:
Hoe minder er over Grok gezegd wordt hoe beter peinzek maar kan het niet laten;

2025 headline. #NottheOnion
This timeline just keeps getting weirder.

https://www.allsides.com/news-source/rolling-stone
redelijk links leunende bron.

Ik zie daarentegen op youtube passeren dat Grok 4 momenteel het beste doet op de benchmarks?
Nu ja in hoeverre youtube filmpjes met rare gezichten op de thumbnails betrouwbare bronnen zijn?

DaFreak · 19 juli 2025

zwarten zei:
https://www.allsides.com/news-source/rolling-stone
redelijk links leunende bron.

Ik koos voor deze titel omdat zij het het meest ludiek verwoorden. Doet echter niets af aan de feitelijkheid. Je kan gerust rechtse bronnen checken ter corroboratie.

zwarten zei:
Ik zie daarentegen op youtube passeren dat Grok 4 momenteel het beste doet op de benchmarks?
Nu ja in hoeverre youtube filmpjes met rare gezichten op de thumbnails betrouwbare bronnen zijn?

Ondertussen al voorbijgestreefd door de nieuwste modellen van OpenAI en Deepmind maar Grok4 was ook geminmaxed specifiek om benchmarks te halen. De meest geavanceerde betalende versie van Grok dacht tot begin vorige week nog steeds dat ie Hitler was. Real world scoort Grok ook een stuk minder dan andere SOTA modellen zoals je kan zien op lmsys arena. In de meeste taken haalt die de top 10 niet.

Reken daar nog bij dat Elon Grok heeft omgetoverd tot zijn eigen propaganda kanaal in die mate dat Grok over controversiele onderwerpen zelfs Elon's persoonlijke tweets checkt om dan diens mening te kopieren en als waarheid te brengen en het ziet er momenteel niet zo goed uit voor Grok. Jammer want ze hebben echt wel serieus wat talent en compute in huis en zouden een gerespecteerd model kunnen worden moesten ze niet gedwarsboomd worden door Elons vele capriolen.

zwarten · 19 juli 2025

DaFreak zei:
Ik koos voor deze titel omdat zij het het meest ludiek verwoorden. Doet echter niets af aan de feitelijkheid. Je kan gerust rechtse bronnen checken ter corroboratie.

Ondertussen al voorbijgestreefd door de nieuwste modellen van OpenAI en Deepmind maar Grok4 was ook geminmaxed specifiek om benchmarks te halen. De meest geavanceerde betalende versie van Grok dacht tot begin vorige week nog steeds dat ie Hitler was. Real world scoort Grok ook een stuk minder dan andere SOTA modellen zoals je kan zien op lmsys arena. In de meeste taken haalt die de top 10 niet.

Reken daar nog bij dat Elon Grok heeft omgetoverd tot zijn eigen propaganda kanaal in die mate dat Grok over controversiele onderwerpen zelfs Elon's persoonlijke tweets checkt om dan diens mening te kopieren en als waarheid te brengen en het ziet er momenteel niet zo goed uit voor Grok. Jammer want ze hebben echt wel serieus wat talent en compute in huis en zouden een gerespecteerd model kunnen worden moesten ze niet gedwarsboomd worden door Elons vele capriolen.

De vraag is hoe betrouwbaar die LMsys is. Aangezien dit community votes zijn kan dit bij wijze van spreke IMDB gewijs kapot gebombardeerd worden.
Hoe worden die benchmarks feitelijk gedaan?

DaFreak · 19 juli 2025

Je weet niet welk model je voorgeschoteld krijgt. Je typt je prompt en krijgt dan 2 geanonimiseerde outputs waarna je de beste van de 2 kiest zonder te weten welk model ervoor verantwoordelijk is.

zwarten · 19 juli 2025

Dan vraag je toch gewoon welk model je hebt? :unsure:

Voor mij lijkt dit toch geen goede benchmark. Worden langere antwoorden bevoordeeld tov van kortere antwoorden, ondanks die eerste mogelijks een hallucinatie heeft? Het lijkt wel leuk maar volgens mij net iets te veel variabelen aan de user side om echt een correcte metric te hebben.
Best wel raar dat hier echt geen 'officiele' benchmarks vanuit overheden, universiteiten of andere instituten voor bestaan dan?

JanusDR · 19 juli 2025

zwarten zei:
redelijk links leunende bron.

zwarten zei:
Ik zie daarentegen op youtube passeren dat Grok 4 momenteel het beste doet op de benchmarks?
Nu ja in hoeverre youtube filmpjes met rare gezichten op de thumbnails betrouwbare bronnen zijn?

Dit is gewoon tenenkrommend.

'uw bron lijkt mij niet objectief'.
Om dan zelf een compleet random YouTube filmpje te posten waarbij je je *terwijl je post* luidop afvraagt 'of gekke gezichten te betrouwen zijn' en je blijkbaar van toeten nog blazen weet wie de auteur is.

Het zal er met AI niet beter op worden, aangezien dat de generatie van bullshit nogmaals vereenvoudigt en accelereert, terwijl gebruikers blijkbaar absolutely-totally-don't-care.
De totale enshittification van internet.

DaFreak · 19 juli 2025

zwarten zei:
Dan vraag je toch gewoon welk model je hebt?

Voor mij lijkt dit toch geen goede benchmark. Worden langere antwoorden bevoordeeld tov van kortere antwoorden, ondanks die eerste mogelijks een hallucinatie heeft? Het lijkt wel leuk maar volgens mij net iets te veel variabelen aan de user side om echt een correcte metric te hebben.
Best wel raar dat hier echt geen 'officiele' benchmarks vanuit overheden, universiteiten of andere instituten voor bestaan dan?

Is nochtans wel degene die het dichtste bij praktische real use cases aanleunt en minder gemakkelijk te gamen als de meeste benchmarks uitgebracht door universiteiten of andere officiele instanties. Het is ook gewoon heel moeilijk benchmarks te maken omdat ze direct sneuvelen.

Er is niet 1 benchmark dat het hele plaatje geeft, net zoals dat voor een mens ook niet bestaat. Grok kan bijvoorbeeld wel veel groffer zijn dan de meeste modellen maar is het slechtste in coden van alle modellen.

XAI - Grok 3

DaFreak

Well-known member

Bjorn

Well-known member

Koonut

Well-known member

DaFreak

Well-known member

zwarten

Well-known member

DaFreak

Well-known member

zwarten

Well-known member

DaFreak

Well-known member

zwarten

Well-known member

JanusDR

Well-known member

DaFreak

Well-known member