Linked Spatial Data
Ik bezocht de SDI Next-bijeenkomst over gelinkte ruimtelijke data. Een verslag met uitgelicht wat ik leuk vind.
Linked data is niet alleen in de geesteswetenschappen hot topic, ook voor geografische toepassingen bieden gelinkte gegevens voordelen. Afgelopen 12 maart bezocht ik in Amersfoort het SDI Next-evenement “Linked Spatial Data in Europe”. Het doel van de bijeenkomst is een overzicht van implementaties van linkende ruimtelijke gegevens in Europa. Ik vond de bijeenkomst leerzaam, met een paar trends: daarom dit verslag, waarbij ik alleen onderwerpen uitlicht waar ik meer over weet. Locatie was het kantoor van de Rijksdienst voor Cultureel Erfgoed, met zo’n 100 aanwezigen. Alle presentaties zijn ook beschikbaar gesteld. Handig voor als je interesse is gewekt.
Natuurlijke taalverwerking
De openingskeynote werd verzorgd door Simon Scheider (van Universiteit Utrecht). Zijn onderzoeksproject, “Question-based analysis of geographic information with semantic queries”, stelt een theoretisch en computationeel kader vast voor een GIS-infrastructuur gebaseerd op semantischewebtechnologieën. Populairder gezegd, hoe kun je Alexa vragen, “hoe fiets ik de groenste route naar werk?”. De antwoorden op zulke analytische vragen staan niet in één database, waarvoor semantische (en dus koppelbare*) bronnen dus een uitkomst zijn. Scheider stelde een serie koppelconcepten voor die de grondslagen moeten vormen voor een geautomatische analyse. Interessant, naast de onderliggendste concepten, vond ik de integratie van NLP om een kennisgraaf op te bouwen. Dat doet me denken aan een presentatie die ik heb gezien over NLP-technieken om een kennisbank op te bouwen van GraphAware (dat product heet Hume, maar de bijbehorende website is – bij schrijven – al een week uit de lucht).
Raf Buyle (van Informatie Vlaanderen) vertelde over de implementatie van Linked Open Data in Vlaanderen. Zo kun je informatie over gebouwen en adressen heel eenvoudig opvragen (zie hieronder). Dat het meteen werkte in de console vond ik erg prettig aan deze API. Bijzonder interessant vond ik de supervised entiteitsherkenning die gebruikt wordt in een notuleer-webapp voor gemeentes. Dit project, “Lokale besluiten als Gelinkte Open Data”, koppelt bijvoorbeeld wetgevingsreferenties aan de identifiets van die wetgevingssecties. Ik heb een voorbeeld gevonden van de notulen van de gemeenteraad van Alken waarin wetscitaten gekoppeld worden aan de daadwerkelijke wetstekst. Erg leuk.
$ curl -H "Accept: application/json" http://data.vlaanderen.be/id/adres/3706808
Standaardisatie
Gelinkte gegevens worden vaak als RDF in XML of JSON-LD ter beschikking gesteld, maar het RDF-model (of semantische model) is niet het enige type graafdatabank. Er zijn ook eigenschapsgraafdatabanken (labeled-property graph databases) zoals Neo4j, die naast relaties tussen gegevens, ook eigenschappen kunnen toevoegen aan de knopen in de graaf én aan de zijden tussen die knopen. Het eerste model valt onder de auspiciën van de W3C, maar het laatste model is niet gestandaardiseerd over leveranciers heen. De W3C zag kansen voor standaardisering en organiseerde een vergadering, die wonderwel uitliepen op een voorstel voor convergentie: er zouden eigenschappen kunnen worden toegevoegd gaan aan één predicaat in een RDF-graaf. Er was een kort verslag van deze bijeenkomst door Ivan Herman. Dit moet nog uitgewerkt worden, want betekent dat dan een compacte syntax voor reïficatie of betekent het een toevoeging op het datamodel. Ik ben erg benieuwd naar hoe snel dit opgepakt gaat worden in databanksystemen: eigenschappen op relaties zijn een handig voor veel modellen.
Standaardisatie kwam ook langs in de ‘pitch’ van Frans Knibbe (van Geodan), die om één ontologie voor ruimte vroeg. Er is al een ontologie voor tijd (verrassed genoeg Time geheten), maar voor ruimtelijke concepten zijn er concurrerende uitgangspunten. Computerbeelden werken met polygonen, BIM werkt met uitgetrokken 2D-vlakken, terwijl GIS voornamelijk met punten werkt. Dan zijn er nog geografen, bodemwetenschappers, seismologen, astronomen: allemaal wetenschappers met geografische data, waarvan ook van andere planeten: denk maar eens na hoeveel aannames in jouw code gebaseerd zijn op de eigenschappen van planeet Aarde. Ook op microniveau wordt er met ruimtelijke data gewerkt, noemde Knibbe, denk aan microbiologen en structuurscheikundigen. Wie weet of er bij de volgende SDI Next-bijeenkomst over 3 jaar stappen zijn gezet.
Koppelen van databronnen
Onderstaande schermfoto is van een toepassing van Triply in samenwerking met het Kadaster, gepresenteerd door Wouter Beek (van Triply). De LOD van het Kadaster hebben zij uitgebreid met automatisch gegenereerde polygonen (het grondoppervlak × de geregistreerde hoogte van het object) en dat met Sparql doorzoekbaar gemaakt. Dankzij een uitbereiding op Yasgui konden deze gegevens (denk ook GeoSparql) ingelezen worden in een interactieve 3d-demonstratie. Dit lijkt een praktijkvoorbeeld te zijn dat het voorgenoemde verhaal van Knibbe ondersteunt.
Ter afsluiting presenteerde Bill Roberts (van Swirrl), de best practices voor ruimtelijke data op het web. Die heb ik hieronder herhaald (en vertaald), opdat we ze ter harte nemen:
- Wijs unieke, blijvende HTTP URIs toe voor je ruimtelijke gegevens.
- Maak je gegevens vindbaar voor zoekmachines.
- Link gegevensbronnen met elkaar om je eigen dataweb te maken.
- Maak gebruik van gegevensformaten die jouw doelgroep nodig heeft.
- Stel geometrieën op een bruikbare manier beschikbaar.
- Stel geometrieën beschikbaar met het juiste niveau van correctheid, nauwkeurigheid en grootte.
- Kies een coördinatenstelsel dat op jouw doelgroep aansluit.
- Beschrijf duidelijk hoe coördinaten zijn genoteerd.
- Maak relatieve aanduidingen eenduidig interpreteerbaar.
- Gebruik geschikte relatie-types om ruimtelijke gegevens te linken.
- Maak duidelijk hoe ruimtelijke zaken kunnen veranderen.
- Maak ruimtelijke gegevens eenvoudig beschikbaar via ‘gemaks-APIs’.
- Geef ruimtelijke eigenschappen mee in de datasetmetadata.
- Beschrijf de positienauwkeurigheid van de ruimtelijke gegevens.
Er waren ook nog veel presentaties die de status van gelinkte geodata of van dataplatforms in Slowakijke, Oostenrijk, Frankrijk, Noorwegen, Nederland (PDOK), Finland, Spanje en Zwitserland behandelden. De staat van implementatie blijkt erg te wisselen tussen landen, waarbij Frankrijk opviel door de lage prioriteit die er aan LOD werd gegeven.
Afsluiting
Deze bijeenkomst gaf een overzicht van de ontwikkelingen en kansen bij gelinkte ruimtelijke gegevens. Vanuit een Digital-Humanities-oogpunt ben ik erg benieuwd naar de geautomatiseerde mogelijkheden om natuurlijke taalverwerking teksten te laten annoteren en tegelijkertijd een kennisbank op te laten stellen. Zie jij andere trends in de geowereld of komen er nieuwe ontwikkelingen aan in de Linked Data-wereld? Laat het me weten via Twitter of per mail.