Browsing Tag

stoppord

webbutveckling

Textanalys för nybörjare

Inspirerad av framför allt chir.ag, där man enkelt kan jämföra teman mellan alla större tal av alla amerikanska presidenter, gjorde jag en egen liten applikation för att ta fram tag clouds (nyckelordsmoln på svenska?). Webbsidan genererar html och css som bara är att klippa och klistra in, så använd den gärna för att ta fram egna tag clouds.

Nyckelordsmolnen populariserades först av webb 2.0 applikationer som Flickr och Technorati där de användes för att underlätta navigering i gigantiska folksonomier. De har dock visat sig vara enkla medel för att snabbt se teman i långa texter och för att snabbt kunna jämföra olika texters teman med varandra. Jag är fascinerad över den enkla grafiska överblick över stora textmassor som de ger. De är kanske mest användbara vid jämförelser mellan olika texter när det finns en övergripande metod bakom jämförelserna, exempelvis jämförelser över tid, mellan branscher, olika grafiska områden eller politisk tillhörighet. Man skulle kunna jämföra bifallna bidragsansökningar eller affärsplaner med avslagna för att se vilka ämnen eller buzzwords som är mest framgångsrika. Ett annat exempel skulle kunna vara jämförelser mellan olika partiers miljöprogram för att se vad de lägger tonvikten på.

Jag testade skriptet med några olika typer av texter – evig ära och berömmelse till den som kan gissa vilka texterna är…

Resultatet blev i vilket fall hyfsat, men det märks att stoppordslistan behövs byggas ut och nästa projekt blir att implementera stemming (att slå ihop ord i olika böjning under ordets grundform). Om någon sitter på en php-implementation av någon stemmingsalgoritm för svenska så får ni gärna höra er. Det mest lovande jag hittat hittills är en beskrivning av en algoritm för svenska (med ett exempel i det ganska exotiska programmeringsspråket Snowball…) och en php-implementation av en algoritm för engelska. Det går ju att anpassa dessa, men eftersom jag varken är någon lysande lingvist eller någon expert på reguljära uttryck krävs det nog lite mer jobb innan den biten är klar.