Chinese Deepseek doet techaandelen kelderen

Toch wel, denk ik. Ik heb het hier zelf eens geinstalleerd met het 1.5B model (hoger zal mijn PC niet aankunnen, vrees ik). Maar, doordat dit model zo beperkt is, is het werkelijk hallucinant (pun intended) wat voor compleet verzonnen resultaten je krijgt.

what can you tell me about Hercules Poirot ?

Hercules Poirot is an eccentric character played by Laurent Jacob in the French film La Voleibelle. His peculiar traits and unique charm make him stand out from his peers. Hercules exhibits behaviors such as eating bananas, which are uncommon for a person his age, and he tends to hide his true self, leading to unexpected interactions with other characters.

His motivations appear both personal and dark, potentially driven by an desire to escape reality or explore something beyond societal expectations. Additionally, his role within the dysfunctional family dynamics of the film highlights his chaotic nature, adding drama and tension.

Hercules Poirot's unique character development likely revolves around how he interacts with others and stands out in his community. His interactions with characters like Boris Poizot show significant tension, potentially indicating a close bond or specific relationship that underscores his charm. This exploration of his relationships would provide deeper insights into why Hercules Poirot is recognized for his impact within the film.

Overall, Hercules Poirot offers a fascinating look at eccentricity and personal traits in character development, making him an intriguing subject for analysis despite his unusual nature.
Maar kunt ge dan zelf data feeden in dat model zodanig dat die antwoorden beter worden? Ik neem aan dat het niet kan dat daar al gens Wikipedia Reddit enz in verwerkt zit als ge dat gewoon kunt downloaden, dus dat moet je dan zelf doen?
 
Maar kunt ge dan zelf data feeden in dat model zodanig dat die antwoorden beter worden? Ik neem aan dat het niet kan dat daar al gens Wikipedia Reddit enz in verwerkt zit als ge dat gewoon kunt downloaden, dus dat moet je dan zelf doen?

Neen, dat zit allemaal in het model dat je downloadt. Wat jij wil is zelf je eigen model gaan leren met een hoop inputdata. Ik zeg maar iets: stel je hebt een archief van alle wetenschappelijke papers gepubliceerd door de KULeuven, dan zou je dus een AI Model kunnen leren daarop die dan bvb zeer goed zal zijn in wetenschappelijke content, maar bvb niets zal weten over de laatste Marvel films.
 
Neen, dat zit allemaal in het model dat je downloadt. Wat jij wil is zelf je eigen model gaan leren met een hoop inputdata. Ik zeg maar iets: stel je hebt een archief van alle wetenschappelijke papers gepubliceerd door de KULeuven, dan zou je dus een AI Model kunnen leren daarop die dan bvb zeer goed zal zijn in wetenschappelijke content, maar bvb niets zal weten over de laatste Marvel films.
Maar hoe doe je dat dan? Is die code om een AI te trainen die deepseek gebruikt heeft ook publiek gemaakt? Want ja eigenlijk is alles wat zij doen toch een hoop data door een hoop geheugen en GPUs sturen? Ik weet dat ik er niks van ken 🤠
 
Is die code om een AI te trainen die deepseek gebruikt heeft ook publiek gemaakt?

Ja, da's ook de reden voor de topic-titel hier. Niet enkel claimt Deepseek enorm veel sneller en energie-efficiënter te zijn, maar bovendien is de code gereleased als open source, wat wil zeggen dat iedereen de code gratis kan downloaden, bekijken, gebruiken, aanpassen, enz... wat dus enorme concurrentiële druk zet op OpenAI, xAI, enz... die puur commercieel zijn en geld vragen voor het gebruik van hun modellen.

Ik ben overigens zelf geen specialist, maar ga er nu wel eens in duiken want het is me ook niet altijd even duidelijk wat juist 'model' en wat juist 'dataset' is zeker als je online dingen gaat downloaden.
 
Maar hoe doe je dat dan? Is die code om een AI te trainen die deepseek gebruikt heeft ook publiek gemaakt? Want ja eigenlijk is alles wat zij doen toch een hoop data door een hoop geheugen en GPUs sturen? Ik weet dat ik er niks van ken 🤠
Één van de manieren om het lokaal uit te voeren is via Docker. Je download dan bijvoorbeeld de Ollama docker image en dan kan je via de CLI een getraind AI model downloaden en inladen.

Voor DeepSeek R1 is dat dan https://ollama.com/library/deepseek-r1 , je hebt daar de keuze uit een hele hoop models. Enerzijds het volledige model met 617B parameters en dan ook wat kleinere models die een bepaalde fine-tuning gehad hebben.

Enkele maanden geleden heb ik wat gespeeld met models van 1B tot 8B van Meta en wat andere bedrijven (er zijn massa's models in te laden via Ollama). Maar mijn goesting was al snel over want op een gewone laptop zonder GPU acceleratie duurt het al snel 2min om antwoord te krijgen van zo'n 4B model en dubbel zo lang bij een 8B model.

Je kan dan nog eigen data ter beschikking stellen via technieken zoals Retrieval-augmented generation (RAG). Zo kan je bv als bedrijf een chatbot maken die specifieke bedrijfsinformatie kan beantwoorden of de openingsuren van je winkels weet. Dat zijn dan al meer de end-user toepassingen waar gewone software developers met weg kunnen, effectief AI trainen lijkt mij meer iets voor specialisten.
 
Laatst bewerkt:
Je hebt geen Docker nodig. Er is gewoon een Windows (welliswaar CLI) versie van Ollama. ik gebruik dan Chatbox om ermee te interfacen. Op HF kan je van een model ook gewoon de Ollama instructies copy-pasten.
 
Je hebt geen Docker nodig. Er is gewoon een Windows (welliswaar CLI) versie van Ollama. ik gebruik dan Chatbox om ermee te interfacen. Op HF kan je van een model ook gewoon de Ollama instructies copy-pasten.
Mja het was op de werklaptop, daar kan ik niet vrij programma's installeren want geen adminrechten 😛
 
De waarheid achter DeepSeek begint stilaan naar boven te komen. Niet alleen hebben ze waarschijnlijk veel meer en snellere GPU's hebben gebruikt dan gerapporteerd, NVIDIA heeft namelijk belachelijke hoeveelheden GPU's geleverd aan klanten die zogenaamd in Singapore opereren.
DeepSeek heeft ook veel meer menselijke annoteerders gebruikt dan de 32 eigen werknemers die ze er krediet voor geven in hun paper:
Behind closed doors, however, DeepSeek's executives candidly admit the truth: despite public claims of advanced reinforcement learning techniques, their AI relies heavily on data annotation, with supervised learning — involving numerous human labelers — underpinning their models' performance. Every sophisticated reasoning task, at its core, still depends on human-guided learning.
The Human Cost of DeepSeek

Serieuze kanttekening toch weer bij de geclaimde technologische doorbraak.
 
De waarheid achter DeepSeek begint stilaan naar boven te komen. Niet alleen hebben ze waarschijnlijk veel meer en snellere GPU's hebben gebruikt dan gerapporteerd, NVIDIA heeft namelijk belachelijke hoeveelheden GPU's geleverd aan klanten die zogenaamd in Singapore opereren.
DeepSeek heeft ook veel meer menselijke annoteerders gebruikt dan de 32 eigen werknemers die ze er krediet voor geven in hun paper:

The Human Cost of DeepSeek

Serieuze kanttekening toch weer bij de geclaimde technologische doorbraak.
Er zit sowieso een stuk verfraaiing bij, maar vooral ook omdat ze de data uit GPT 4 gebruiken en distilleren. Er zit gewoon een gigantisch stuk politiek bij.
 
Terug
Bovenaan