brughagedis.nl

Deze blog gaat over mezelf en mijn bezigheden



Date: April 8th, 2008

Stopwoordenlijsten

8 April, 2008 (21:01) | Bibliotheek, Onderwijs | By: brughagedis

Net als Laika ben ik bezig met een stopwoordenlijst, nl. die van Web of Science. Voor de bibliotheekinstructie probeer ik daarmee een opdracht te maken met voor de hand liggende zoektermen, waar dan gek genoeg niets uitkomt. Daar ben ik op gekomen tijdens een bijeenkomst met de vertegenwoordiger van ISI Thompson vorig jaar toen hij uitleg kwam geven over de nieuwe versie. We wilden toen de publicaties zoeken van een bekende sterrenkundige aan de UvA die heel veel gepubliceerd heeft en die van der Heuvel heet, maar we  vonden niks. Tot Derrick (of hoe hij ook alweer heette)  zich realiseerde dat der een stopwoord is. Je kunt op van der heuvel zoeken met van * heuvel in het author-veld. Toen kregen we meer treffers, en bleek hij van den Heuvel te heten. Lag dus niet aan de stopwoordenlijst, maar aan een foutieve zoekterm. Toch moet er iets te verzinnen zijn wat leuk is om aan studenten te demonstreren. Helaas zit er niet zoiets moois in als abortion in het POPLINE van Laika, whatever that me be? Maar ik zou bijvoorbeeld als zoektermen studies about discussion making kunnen nemen. Dan vind je geen treffers. Als je in het adres-veld Amsterdam erbij zet krijg je meer dan 5000 treffers. Hoe kan dat? Worden dat soort studies allen in Amsterdam gemaakt? Nee alle termen in de zoekstring zijn stopwoorden. Door Amsterdam erbij te zetten krijg je alle treffers van titels uit Amsterdam, maakt niet uit over welk onderwerp. De stopwoordenlijst van Web of Science is heel omvangrijk en zit een beetje verscholen in de Help-functie. De meeste andere databases hebben ook stopwoordenlijsten en in blogs kunnen stopwoorden van de tagcloud uitgesloten worden. Ook zoekmachines negeren bepaalde veel voorkomende woorden vaak omdat ze de zoekopdracht vertragen, terwijl ze niets bijdragen aan een beter zoekresultaat. Via de Wikipedia-bladzijde over stopwords kwam ik ook op de website van het Snowball-project met een demo-applicatie waarmee je Engelse woorden kunt inkorten tot hun stamvorm. Bestaat kennelijk al heel lang, maar nooit eerder gezien. Met dit soort lijsten optimaliseren zoekmachines hun zoekresultaten doordat ze automatisch ook varianten van een term meenemen.



View Stats