BeyondGaming werkt mee aan taalonderzoek!

Enkele dagen geleden kregen we de vraag van het Instituut voor de Nederlandse Taal (ivdnt.org) of ze voor een lopend onderzoek data mogen gebruiken van BeyondGaming. Het taalgebruik vanop het forum zal deel uitmaken van het onderzoek. Het Instituut van de Nederlandse Taal gebruikt daarnaast ook data van Twitter en verschillende kranten waaronder Het Nieuwsblad en de Standaard. Wij zijn dus verheugd dat ook wij hiervan deel kunnen uitmaken.

In het onderzoek worden bepaalde elementen bekeken, waaronder: Hoe vaak gebruiken mensen eigenlijk ‘hun hebben’ of ‘ik besef me’? Zeggen ze vaker ‘...dat ik het gedaan heb’ of ‘...dat ik het heb gedaan’? Welke nieuwe woorden vinden we in 2021?

Om even verdere duiding te geven over wat er met de verzamelde informatie wordt gedaan, geeft het Instituut voor de Nederlandse Taal voorbeelden van hoe alles wordt bijgehouden. Ze zijn alleen geïnteresseerd in taal. Ze slaan van elke post dan ook alléén de zinnen (en de datum) op en geen enkele andere informatie. De anonimiteit van jullie is dus gewaarborgd. Ze zullen de data niet verder verspreiden en enkel intern gebruiken voor taalkundig wetenschappelijk onderzoek.

Als voorbeeld halen ze dus zinnen op zoals hieronder:
"Zit je plaatje dan los ofzo?"

Die zinnen worden vervolgens syntactisch geanalyseerd:
1 Zit zitten [zit] WW(pv,tgw,ev) 0.993151 O B-VP 0 ROOT
2 je je [je] VNW(pers,pron,nomin,red,2v,ev) 0.500000 O B-NP 1 su
3 plaatje plaat [plaat][je] N(soort,ev,dim,onz,stan) 0.999323 O I-NP 1 mod
4 dan dan [dan] BW() 0.925278 O B-PP 3 mod
5 los los [los] ADJ(vrij,basis,zonder) 0.991903 O O 3 mod
6 ofzo ofzo [ofzo] BW() 0.996130 O B-NP 5 mod
7 ? ? [?] LET() 0.999956 O O 6 punct

taalonderzoek.jpg
 
Laatst bewerkt:
ik kan me niet herinneren wanneer de laatste keer was dat ik het gedaan heb :unsure: yep, klinkt stukken beter dan dat ik het heb gedaan.

Anyway, hopelijk laten ze zwam buiten beschouwing want dat gaat hun onderzoek serieus verknoeien.
 
Om welke manier gaan jullie de data die ter beschikking wordt gesteld aan dat instituut filteren?

Er wordt volledige anonimiteit gegarandeerd; maar ik begrijp niet goed hoe dat wordt bewerkstelligd. De inhoud van posts kunnen allerhande identificeerbare informatie bevatten.

Edit; het is niet de bedoeling contraire te doen. Maar die garantie op volledige anonimiteit in combinatie met een automatisch verwerkingsalgoritme waarvan de implementatie ons niet is gekend vind ik interessant
 
Redactie
Om welke manier gaan jullie de data die ter beschikking wordt gesteld aan dat instituut filteren?

Er wordt volledige anonimiteit gegarandeerd; maar ik begrijp niet goed hoe dat wordt bewerkstelligd. De inhoud van posts kunnen allerhande identificeerbare informatie bevatten.

Edit; het is niet de bedoeling contraire te doen. Maar die garantie op volledige anonimiteit in combinatie met een automatisch verwerkingsalgoritme waarvan de implementatie ons niet is gekend vind ik interessant
Ik heb het zelf niet helemaal in detail bekeken (linguistiek is de fetish van andere (crew) members) maar de software die ze gebruik is open source. Alle data scrapen zij van de publiek beschikbare teksten, net zoals een Google zou doen.

Naar aanleiding van een vraag van ons, gaan ze ook nakijken om een publieke pagina te maken bij welke andere (bekende) partners ze dit ook doen/deden.
 
Ah wat fein nieuws, ik kan zinnen goed schrijven zonder foudten, ook geen typpfouten, alle maal geen probleem voor ik. Leesteekens zijn. ook geen probleem?

Zo flauw, mijn excuses! ☺️
 
Terug
Bovenaan