@Maria-Söderlind och @Maria-Söderlind, jag förstår att @Magnus-Sälgö inlägg kan kännas svåra att ta till sig eftersom de alltid är lite spretiga med okompletta meningar och har många bilder och punktlistor och upplevs vara för fokuserade på annat (andra myndigheter som gör fel, wikipedia och wikidata). Jag har läst och fattat vad han skriver och jag tänker att jag ska försöka mig på ett annat grepp för att förklara andemeningen.
De 2 stora poängerna som jag ser kan förklaras på detta sätt:
- Alla grepp ni tar för att inkrementellt förbättra anser Magnus är bortkastade eftersom ni inte tänker om arkitekturen.
- Magnus menar inte att ni ska lägga tiden på att länka till wikipedia själva utan vara smarta med hur ni specar datan och hur den publiceras så att rättningar kan införas enkelt istället för svårt.
Sättet att ta sig dit kan vara t.ex. dessa:
- Läsa på om 5-star open data
- Ta en genväg genom att använda er av wikidatas stora register av "samma som" istället för att börja från scratch.
- Se till att ha beständiga unika identifierar för allting.
- Bygg en ny data-plattform som bygger på triplett-idén och definiera upp lämpliga tripletter. Det är otroligt kraftfullt!
Visionen
Det @Magnus-Sälgö försöker påskina är inte att hacka ned på er eller vara en klagans person. Utan visa på att visionen är fel. Han älskar att ni publicerar data men önskar att ni 2022 har kommit så mycket längre i att länka samman data och behandla data som data.
Visionen bör alltså vara att istället för att prata om enskilda funktioner som tar lång tid att bygga och som ni kanske inte prioriterar, bygga ett system som låter alla engagerade användare med lätthet förbättra datakvaliteten till höger och vänster.
Om ni är fast i att förbättra portalen istället för att bygga om
Tips: Fundera på hur ni löser länkningen och visualisering av länkning. Låt forumet vara sitt egna system. Skapa inte en till diskussionsplats i form av kommentarer där man ska uppfinna trådning, formatering med mera igen, det är ju redan gjort i communityt.
Ni kanske kan börja och ta er till 4-stjärnig data genom att:
- publicera alla datamängder, datamängdsgrupper, organisationer och organisationsgrupper i dataportalen i listor(i JSON såklart) på dataportalen.
- lägg till ett fält i forumets trådskapande del som är "Handlar om" som gör uppslag i datamängder, organisationer och grupper av datamängder eller organisationer från dataportalen. Detta fält ska naturligtvis referera till id't som objektet har i dataportalen.
- Länka från forumet till dataportalen i varje tråd med "HANDLAR OM [datapublikation]" och exponera listor per datamängd och organisation ifrån forumet så att ni i dataportalen kan fråga efter trådar som:
- handlar om datamängden
- handlar om organisationen
- handlar om datamängdsgruppen
- handlar om organisationsgruppen
Då kan ni länka från datamängdens sida till relevanta trådar på forumet — i de olika grupper av inlägg som är intressanta och relevanta för datamängden
Ni bör kunna skapa en knapp som säger diskutera datamängden på communityt som länkar användaren vidare till en trådskapande del med datamängden förvald i det nya fältet
Om ni kan tänka er att bygga om dataportalen
Då skulle jag föreslå något i denna stil. Där man drar nytta av triplett-tänket som wikidata pionjärat
Använd dessa tekniker som backend:
- En Wikidata som metadata-lagring i dess SparQL
- En självhostad gitlab där grunddatan publiceras. Varje organisation eller organisationsgrupp publicerar sina fasta data i ett repo, när datan uppdateras så blir det en commit och ändringarna är spårbara,
- Har man strömmande data så behöver den i sig såklart inte publiceras på gitlab utan accessvägarna beskrivas i repot's README istället.
- Samma frontend som idag, men som ställer frågor mot SparQL istället
- Låt frontenden få ett publikt "redigera"-läge som länkar små redigera-knappar till data entiteten i wikidatan istället.
- Låt SparQL-fråge-systemet vara publikt tillgängligt
Modellmässigt så borde t.ex. dessa entiteter skapas som items (Q-värden)
Modellmässigt så borde t.ex. dessa entiteter skapas som egenskaper (P-värden)
Då kan vi t.ex. utrycka tripletten:
- Q"Sysselsatta efter utbildningstidens längd och näringsgren. År 1999 - 2003" är P"Publicerad av" Q"SCB"
- Q"Sysselsatta efter utbildningstidens längd och näringsgren. År 1999 - 2003" är en (is_a) Q"Datamängd"
- Q"SCB" är en (is_a) Q"Organisation"
Helt plötsligt kan vi då ställa SparQL-frågor som:
? P"Publicerad av" Q"SCB"
? is_a Q"Datamängd"
Och få tillbaka alla entiteter som är datamängder och publicerade av SCB.
Här sätter bara fantasin gränserna!
Effekterna
- Vi kan ställa godtyckliga frågor om datamängden som är sveriges dataportals datamängdsmetadata.
- Vi kan definiera godtycklig metadata om datamängderna och snabbt bygga ut funktionaliteten
- Vi får beständiga identifierare till datamängderna (Q-värden och commit-hashar på gitlab)
- Vi får beständiga identifierare till den transparenta helpdesk-funktionaliteten på gitlab.
- Varje datamängd har en egen helpdesk på gitlab
- Alla kan skapa en PR/CR(pull request/change request/ändringsbegäran) och peka på exakt vad som är fel i en fast datamängd direkt på gitlabben. Rättningen är då en knapptryckning bort.
- Och många många fler.
Slutligen:
- Har jag tolkat dig rätt @Magnus-Sälgö?
- Vart det begripligt @Maria-Söderlind och @Maria_Dalhage?
- Om ni inte klarar av det, speca gärna "Förlsag till hur en '5-star open data-länkad dataportal baserad på öppen källkod och byggd öppet med öppen källkod, som är användarvänlig och tillåter en öppen diskussion och beständiga identifierare' kan byggas" i en DIS så kommer det komma bolag till er undsättning.