Browsing Category

blandat

blandat

Skatteverkets nya indexeringstjänst

Både DN och Aftonbladet skriver om Skatteverkets anslutning till ett nytt internationellt samarbetsprogram (via Code Odyssey). Tydligen kommer Skatteverket att använda en indexeringstjänst för att gå igenom öppna webbplatser i hopp om att hitta oredovisad näringsverksamhet. Nyheten är intressant av flera orsaker.

Då det verkar som om Skatteverket kommer att lagra informationen som samlas in undrar jag vad det är som gör den här verksamheten laglig och oproblematisk medan Kungliga Bibliotekets indexering och lagring av den svenska webben var möjlig först efter en lagändring speciellt utformad för ändamålet?

Så vitt jag förstår så bryter även skatteverket mot upphovsrättslagens paragraf 11:
"Tillfälliga former av exemplar av verk får framställas, om framställningen utgör en integrerad och väsentlig del i en teknisk process och om exemplaren är flyktiga eller har underordnad betydelse i processen. Exemplaren får inte ha självständig ekonomisk betydelse."
Paragrafen kom till för att undanta webbläsarnas cache-minne från upphovsrättslagstiftningen och därmed göra det möjligt för besökare till exempelvis dn.se att lagligen läsa det som tillgänggligörs på webbplatsen. I de diskussioner om indexeringstjänster och upphovsrätt som tidigare förts (åtminstone utomlands) hänvisas ofta till att ägaren av den indexerade webbplatsen alltid har en möjlighet att förbjuda indexering genom att använda robots.txt – men då skattebotten inte kommer att följa robots-standarden så saknas denna möjlighet.

Jag tror dessutom att Skatteverket drastiskt underskattar de motmedel som kan sättas in för att undvika granskning av deras indexeringstjänst. Även om skattebotten maskerar sig med falsk user agent och genom långsam indexering så borde det inte vara alltför svårt att få reda på vilka ip-nummer som används. Det finns gott om folk som kartlägger indexeringstjänster och om inte de hittar den så kan man lätt bygga en egen robot-fälla.

För att undvika missförstånd kan jag tillägga att jag inte har något emot att skatteverket jagar skattesmitare, däremot tycker jag att man ska fundera på hur man gör det – både på de etiska och praktiska aspekterna.

blandat

Enkelt sätt att kolla hur snårigt du skriver

Sigge på Bloggvärldsbloggen tipsar om LIX-räknaren, en liten webbapplikation som bland annat räknar ut läsbarhetsindex för valfri text. Förutom att visa själva indexresultatet visas en hela beräkningen bakom siffran på ett tydligt och pedagogiskt sätt – dessutom finns det en enkel skala för att ge siffran ett sammanhang. Utvecklaren bakom LIX-räknaren är Gustav Öquist, doktorand inom datorlingvistik på Uppsala Universiet.

I en av kommentarerna tipsas om att LIX-indexet finns inbyggt i MS Word och eftersom jag inte kunde minnas att jag sett funktionen där var jag tvungen att öppna Word för att se hur den fungerar. Den är lite trasslig att hitta till men finns mycket riktigt (åtminstone i Word 2003):

  1. Gå till verktyg > Stavning och grammatik.
  2. Välj Alternativ och bocka för visa läsbarhetsstatistik.
  3. För att läsbarhetsindex ska visas måste du göra en fullständig stavnings- och grammatikkontroll så kommer siffran samt lite annan info upp i en ruta när kontrollen är klar.

Underligt nog visar LIX-räknaren och MS Word lite olika siffror – något som verkar bero på att Word känner igen webbadresser och inte räknar punkterna i dem som slutet på en mening.

Efter att ha testat ganska många inlägg här från bloggen har jag kommit fram till att jag inte skriver lika trassligt som jag trodde jag gjorde. Snittet hamnar mellan 45 och 50, vilket enligt LIX-räknaren är i övre intervallet för medelsvår svenska eller normal tidningstext.

blandat

Teleadress.se och offentliga uppgifter

Code Odyssey skriver om uppmärksamheten som teleadress har fått den senaste tiden. Jag håller med om att gratistjänsten där man skriver in en adress och får upp en profil över de boende i området inte är så givande. Bland annat så är det svårt att veta hur stora områden varje stad är uppdelad på. Dessutom saknar informationen som visas ett sammanhang – jag kan till exempel se att i min grupp (A02 Storstadspuls) är 16 procent intresserade av segling och tydligen konsumerar vi klockor, vin och restaurangbesök – jag får dock inte veta något om motsvarande siffror för snittbefolkningen.

För den som är intresserad av områdesspecifik information för Stockholm finns det en fantastisk källa som är helt gratis. Utrednings- och statistikkontoret vid Stockholms Stad sammanställer enorma mängder information som till stora delar går att ta del av på deras webbplats. Där finns information om bland annat folkmängd, migration, bostadstyper, inkomstfördelning och utbildningsnivåer. Dessutom kan man hitta lite ovanligare poster som betygsfördelning, antal parklekar, äldreboenden, bollplaner, socialbidragstagare och ohälsotal. Informationen går att visa för hela staden, enskillda stadsdelsområden eller till och med delar av stadsdelsområden eller församlingar. Olika delar av staden kan enkelt jämföras med varandra eller över tidsperioder. För aggregerad statistik om hela staden finns Statistiks årsbok för Stockhom 2007, en nätt liten volym på 400 sidor tabeller, tillgänglig i sin helhet på webbplatsen. Där finns bland mycket annat detaljerad branschstatistik, uppgifter om besök på individuella scener, bibliotek och museum och uppgifter om vattenkvalitet och luftföroreningar i olika delar av staden.

blandat

Bibliotikarier och kategorisering

Kritiker av folksonomier (system av etiketter som sätts fritt av besökare/allmänheten) brukar framhålla att bedömning och kategorisering av information är en konst som kräver lång utbildning och något som inte borde släppas utanför bibliotekariernas upphöjda krets. Men när man ser Stockholms stadsbiblioteks kategorilista för facklitteratur som e-böcker så börjar man undra om det kan bli så mycket värre. 

Listan börjar helt normalt med biologi och fortsätter helt normalt till språk och ordböcker. Här verkar listan börja om på A med arbetsmiljö följt av arkitektur för att sedan spåra ur helt med brand, broar och drift och underhåll. Jag kanske är lite petig, men är inte tanken med kategorisystem som detta att alla kategorier ska vara på ungefär samma herarkiska nivå? Kategorin samhälle & politik verkar här vara minst sagt mer allmän än kategorin grund, tomt, stomme. Att få av de smalare kategorierna har några böcker alls gör det hela än mer förvirrande. 

blandat, webbutveckling

Stockholms stadsbiblioteks nya webbplats i öppen beta

När Stockholms stadsbiblioteks nya webbplats smygstartar på allvar (den har tidigare varit tillgänglig i skissform) blir det den mest intressanta offentliga webbplatsen i Sverige, åtminstone i ett webb 2.0 perspektiv. Den erbjuder RSS-flöden för det mesta (exempelvis sökningar, kommentarer på enskilda böcker, fysiska evenemang), möjlighet att skriva recensioner och sätta betyg, diskutera med andra besökare och givetvis sköta alla vanliga biblioteksärenden. Än så länge har webbplatsen begränsad funktionalitet (och ganska många brister) men jag har stora förhoppningar om version 1.0. Jag har redan ansökt om att bli betatestare (d.v.s. få ett konto för att kunna använda personaliseringsfunktioner, recensioner med mera). och min plan är att göra utvärderingen av den nya webbplatsen till en liten följetong här. Första delen lägger jag ut i morgon och den kommer att handla om biblioteket.se och bloggvärlden.