XAI - Grok 3

DaFreak

Well-known member
Crowdfunder FE
Musk liet eerst uitschijnen dat het een model ging zijn dat extreem rechtse propaganda en desinformatie zou uitkramen
uva5q67t3jje1.jpeg


Maar zoals we ondertussen van hem gewoon zijn blijkt dat, gelukkig, weer allemaal fake en misinformatief te zijn;
qkgue76nztje1.png


Ook als je het model bevraagt over onderwerpen zoals bijvoorbeeld global warming, vaccins of transgender lijkt het vrij "woke" te zijn en zich gewoon aan feiten en de realiteit te houden waardoor het op vele punten lijnrecht ingaat tegen de zogezegde "woke mindvirus" onzin die Musk zelf regelmatig uitkraamt.


zxul6b37utje1.jpeg


s9cv5bcxstje1.png


Moet nog een beetje onderdoen voor o3 die ze gemakkelijkheidshalve in deze vergelijking achterwege hebben gelaten. 😅 Maar best indrukwekkend als je ziet op hoe een korte tijd ze aan het bijbenen zijn. Ze hebben natuurlijk ook een gigantische compute cluster ter beschikking maar blijft mooi om te zien dat met dit model xAI echt concurrentieel gaat worden en zo dus ook de andere nog meer gaat pushen om aan sneltempo te blijven innoveren.
 
Hoe minder er over Grok gezegd wordt hoe beter peinzek maar kan het niet laten;

a47v8ialkycf1.jpeg



2025 headline. #NottheOnion
This timeline just keeps getting weirder.
 
Hoe minder er over Grok gezegd wordt hoe beter peinzek maar kan het niet laten;

a47v8ialkycf1.jpeg



2025 headline. #NottheOnion
This timeline just keeps getting weirder.
https://www.allsides.com/news-source/rolling-stone
redelijk links leunende bron.

Ik zie daarentegen op youtube passeren dat Grok 4 momenteel het beste doet op de benchmarks?
Nu ja in hoeverre youtube filmpjes met rare gezichten op de thumbnails betrouwbare bronnen zijn?
 
Ik koos voor deze titel omdat zij het het meest ludiek verwoorden. Doet echter niets af aan de feitelijkheid. Je kan gerust rechtse bronnen checken ter corroboratie.

Ik zie daarentegen op youtube passeren dat Grok 4 momenteel het beste doet op de benchmarks?
Nu ja in hoeverre youtube filmpjes met rare gezichten op de thumbnails betrouwbare bronnen zijn?
Ondertussen al voorbijgestreefd door de nieuwste modellen van OpenAI en Deepmind maar Grok4 was ook geminmaxed specifiek om benchmarks te halen. De meest geavanceerde betalende versie van Grok dacht tot begin vorige week nog steeds dat ie Hitler was. Real world scoort Grok ook een stuk minder dan andere SOTA modellen zoals je kan zien op lmsys arena. In de meeste taken haalt die de top 10 niet.

Reken daar nog bij dat Elon Grok heeft omgetoverd tot zijn eigen propaganda kanaal in die mate dat Grok over controversiele onderwerpen zelfs Elon's persoonlijke tweets checkt om dan diens mening te kopieren en als waarheid te brengen en het ziet er momenteel niet zo goed uit voor Grok. Jammer want ze hebben echt wel serieus wat talent en compute in huis en zouden een gerespecteerd model kunnen worden moesten ze niet gedwarsboomd worden door Elons vele capriolen.
 
Ik koos voor deze titel omdat zij het het meest ludiek verwoorden. Doet echter niets af aan de feitelijkheid. Je kan gerust rechtse bronnen checken ter corroboratie.


Ondertussen al voorbijgestreefd door de nieuwste modellen van OpenAI en Deepmind maar Grok4 was ook geminmaxed specifiek om benchmarks te halen. De meest geavanceerde betalende versie van Grok dacht tot begin vorige week nog steeds dat ie Hitler was. Real world scoort Grok ook een stuk minder dan andere SOTA modellen zoals je kan zien op lmsys arena. In de meeste taken haalt die de top 10 niet.

Reken daar nog bij dat Elon Grok heeft omgetoverd tot zijn eigen propaganda kanaal in die mate dat Grok over controversiele onderwerpen zelfs Elon's persoonlijke tweets checkt om dan diens mening te kopieren en als waarheid te brengen en het ziet er momenteel niet zo goed uit voor Grok. Jammer want ze hebben echt wel serieus wat talent en compute in huis en zouden een gerespecteerd model kunnen worden moesten ze niet gedwarsboomd worden door Elons vele capriolen.
De vraag is hoe betrouwbaar die LMsys is. Aangezien dit community votes zijn kan dit bij wijze van spreke IMDB gewijs kapot gebombardeerd worden.
Hoe worden die benchmarks feitelijk gedaan?
 
Je weet niet welk model je voorgeschoteld krijgt. Je typt je prompt en krijgt dan 2 geanonimiseerde outputs waarna je de beste van de 2 kiest zonder te weten welk model ervoor verantwoordelijk is.
 
Dan vraag je toch gewoon welk model je hebt? :unsure:
Schermafbeelding-2025-07-19-194812.png


Voor mij lijkt dit toch geen goede benchmark. Worden langere antwoorden bevoordeeld tov van kortere antwoorden, ondanks die eerste mogelijks een hallucinatie heeft? Het lijkt wel leuk maar volgens mij net iets te veel variabelen aan de user side om echt een correcte metric te hebben.
Best wel raar dat hier echt geen 'officiele' benchmarks vanuit overheden, universiteiten of andere instituten voor bestaan dan?
 
redelijk links leunende bron.
Ik zie daarentegen op youtube passeren dat Grok 4 momenteel het beste doet op de benchmarks?
Nu ja in hoeverre youtube filmpjes met rare gezichten op de thumbnails betrouwbare bronnen zijn?
Dit is gewoon tenenkrommend.

'uw bron lijkt mij niet objectief'.
Om dan zelf een compleet random YouTube filmpje te posten waarbij je je *terwijl je post* luidop afvraagt 'of gekke gezichten te betrouwen zijn' en je blijkbaar van toeten nog blazen weet wie de auteur is.

Het zal er met AI niet beter op worden, aangezien dat de generatie van bullshit nogmaals vereenvoudigt en accelereert, terwijl gebruikers blijkbaar absolutely-totally-don't-care.
De totale enshittification van internet.
 
Dan vraag je toch gewoon welk model je hebt? :unsure:
Schermafbeelding-2025-07-19-194812.png


Voor mij lijkt dit toch geen goede benchmark. Worden langere antwoorden bevoordeeld tov van kortere antwoorden, ondanks die eerste mogelijks een hallucinatie heeft? Het lijkt wel leuk maar volgens mij net iets te veel variabelen aan de user side om echt een correcte metric te hebben.
Best wel raar dat hier echt geen 'officiele' benchmarks vanuit overheden, universiteiten of andere instituten voor bestaan dan?

Is nochtans wel degene die het dichtste bij praktische real use cases aanleunt en minder gemakkelijk te gamen als de meeste benchmarks uitgebracht door universiteiten of andere officiele instanties. Het is ook gewoon heel moeilijk benchmarks te maken omdat ze direct sneuvelen.

Er is niet 1 benchmark dat het hele plaatje geeft, net zoals dat voor een mens ook niet bestaat. Grok kan bijvoorbeeld wel veel groffer zijn dan de meeste modellen maar is het slechtste in coden van alle modellen.
 
Terug
Bovenaan