brughagedis.nl

Deze blog gaat over mezelf en mijn bezigheden



Stopwoordenlijsten

8 April, 2008 (21:01) | Bibliotheek, Onderwijs | By: brughagedis

Net als Laika ben ik bezig met een stopwoordenlijst, nl. die van Web of Science. Voor de bibliotheekinstructie probeer ik daarmee een opdracht te maken met voor de hand liggende zoektermen, waar dan gek genoeg niets uitkomt. Daar ben ik op gekomen tijdens een bijeenkomst met de vertegenwoordiger van ISI Thompson vorig jaar toen hij uitleg kwam geven over de nieuwe versie. We wilden toen de publicaties zoeken van een bekende sterrenkundige aan de UvA die heel veel gepubliceerd heeft en die van der Heuvel heet, maar we  vonden niks. Tot Derrick (of hoe hij ook alweer heette)  zich realiseerde dat der een stopwoord is. Je kunt op van der heuvel zoeken met van * heuvel in het author-veld. Toen kregen we meer treffers, en bleek hij van den Heuvel te heten. Lag dus niet aan de stopwoordenlijst, maar aan een foutieve zoekterm. Toch moet er iets te verzinnen zijn wat leuk is om aan studenten te demonstreren. Helaas zit er niet zoiets moois in als abortion in het POPLINE van Laika, whatever that me be? Maar ik zou bijvoorbeeld als zoektermen studies about discussion making kunnen nemen. Dan vind je geen treffers. Als je in het adres-veld Amsterdam erbij zet krijg je meer dan 5000 treffers. Hoe kan dat? Worden dat soort studies allen in Amsterdam gemaakt? Nee alle termen in de zoekstring zijn stopwoorden. Door Amsterdam erbij te zetten krijg je alle treffers van titels uit Amsterdam, maakt niet uit over welk onderwerp. De stopwoordenlijst van Web of Science is heel omvangrijk en zit een beetje verscholen in de Help-functie. De meeste andere databases hebben ook stopwoordenlijsten en in blogs kunnen stopwoorden van de tagcloud uitgesloten worden. Ook zoekmachines negeren bepaalde veel voorkomende woorden vaak omdat ze de zoekopdracht vertragen, terwijl ze niets bijdragen aan een beter zoekresultaat. Via de Wikipedia-bladzijde over stopwords kwam ik ook op de website van het Snowball-project met een demo-applicatie waarmee je Engelse woorden kunt inkorten tot hun stamvorm. Bestaat kennelijk al heel lang, maar nooit eerder gezien. Met dit soort lijsten optimaliseren zoekmachines hun zoekresultaten doordat ze automatisch ook varianten van een term meenemen.

Comments

Comment from laika
Time: April 10, 2008, 2:56 pm

Even de puntjes op de i. Ik ben niet bezig met een trefwoordenlijst. Wat gebeurde in POPLINE (dat ik zelf niet gebruik) is dat mensen van de database zelf ABORTION tot een stopwoord maakten zodat de gebruikers van die database artikelen over abortus (en trouwens ook miskramen) niet meer konden vinden. Dat kwam nl. politiek beter uit. Een erg afkeurenswaardige zaak.

Verder ben ik ook wel vaker tegen stopwoordproblemen aangelopen, onlangs nog. Net wat je zegt die stopwoordenlijsten zijn nogal verdekt opgesteld, en je wordt er pas mee geconfronteerd als een zoekactie niet lukt. Ik heb nog wel een paar mooie voorbeelden. Als ik tijd heb schrijf ik er wel wat over.

Wat betreft stopwoorden in Web of Science, daar heb ik geen ervaring mee. Ik zoek er eigenlijk te weinig in (alleen om citaties te vinden). Ik vraag me wel af of die stopwoorden ook gelden voor het auteursveld, het source/publicatieveld en het adresveld.
Aan de zijkant van je lijstje staat in ieder geval dat het niet voor Publication Name en
Address Searches geldt. Ik weet van andere databases ook dat het per veld kan verschillen OF er stopwoorden zijn en zo ja welke. ‘The’ and ‘of’ kunnen bijvoorbeeld (vrijwel de enige stopwoorden in het Journal Name veld zijn.

Eigenlijk vind ik het meestal storend dat er stopwoorden zijn. Je moet er op zijn minst op kunnen zoeken zeker in combinatie met andere woorden.
Dat voorbeeld van jou is leuk, alleen zou ik zelf nooit ‘studies about’ erbij zetten, als ik zocht, maar studenten doen dat misschien juist wel. Vitamin A is ook een leuk voorbeeld.

Kun je wel op een string zoeken als je het tussen ” ” zet?

p.s. waar kan ik reacties over de poll kwijt? Je geeft veel mogelijkheden, maar bij mij zijn er wel een paar van toepassing. Ik zou zelf tijdelijk minder bloggen, meer werken, het andere werk iets minder prioriteit geven in mijn vrije tijd, iedereen de schuld geven en ook mijzelf en af en toe denk ik: ik stop er maar helemaal mee en ik meld me maar ziek!

Groetjes, Laika.

Comment from brughagedis
Time: April 10, 2008, 7:03 pm

Hoi Laika,
Bedankt voor je uitvoerige reaktie. Die stopwoorden gelden inderdaad niet voor het auteursveld, maar wel voor het topic en adresveld. Ik weetn iet meer hoe we precies gezocht hebben, in ieder geval werd ik zo wel op het bestaan van zo’n stopwoordenlijst geattendeerd. Daarvoor had ik daar geen idee van. Het voorbeeld met vitamine A lijkt me ook leuk. Ik heb het nog niet definitef ingevuld, dus dat kan ik wel doen. Abortion is natuurlijk nog spectaculairder, maar het moet over WoS gaan en daar is dat geen stopwoord. Het is wel een leuke anekdote.
Wat ze met placeholder bedoelen bij het zoeken in een string is mij ook geheel onduidelijk. Ik interpreteer het zo dat er dan een willekeurig woord kan staan. Maar dat zou dan wel leiden tot de meest vreemde resultaten. Dus dat moet ik nog even nazoeken.
Die poll moet je niet al te serieus nemen. Het is helaas niet mogelijk om het zo te maken dat je meerdere antwoorden kunt aankruisen. Misschien is dat ook wel de bedoeling van polls? Kort snel en de mensen dwingen om een bepaald antwoord te geven. Het is me tot nu toe enigszins gelukt om het een en ander met elkaar te combineren en wat harder te werken, waardoor ik en kan blijven bloggen en de andere taken niet verzaak. Dus dat is mooi.
Groet, Brughagedis.

Comment from laika
Time: April 10, 2008, 10:37 pm

Dat van die poll nam ik niet serieus. Jij mijn antwoord dus wel. 🙂
Eigenlijk moet een poll juist niet te veel keuzemogelijkheden hebben, zeker niet als er maar zo weinig mensen hem invullen.(dit is wel serieus)

Vitamin A was een voorbeeld in de help-functie van WoS. Wat was er mis met je eigen voorbeeld?

Groetjes, maar weer.

p.s. Saai hoor nu ons avontuur afgelopen is, vind ik er niet veel meer aan 😉


View Stats