Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Harvestácia LKODu DataCube Štatistického úradu #7

Open
miroslavliska opened this issue Dec 13, 2023 · 4 comments
Open

Harvestácia LKODu DataCube Štatistického úradu #7

miroslavliska opened this issue Dec 13, 2023 · 4 comments
Assignees

Comments

@miroslavliska
Copy link
Member

miroslavliska commented Dec 13, 2023

Adresa SPARQL Endpointu, kde sa nachádza LKOD je
https://datacubet.statistics.sk/rdf4j-workbench/repositories/NONE/server

Tu je jeho definícia v portáli:
https://data.slovensko.sk/lokalne-katalogy/7024d4ba-c2e5-4276-8b82-1fc134b28450

Pri kontrole pipelines, to vyzerá, že problém nastáva v loaderi SPARQL Endpoint List To Graph
image

Vstup je tento súbor, kde je možné vidieť dva SPARQL Endpointy, v tomto prípade je dôležitý ten druhý, tj. https://data.gov.sk/set/lkod/7024d4ba-c2e5-4276-8b82-1fc134b28450

<https://data.gov.sk/set/catalog/knowledgegraph> a <http://plugins.linkedpipes.com/ontology/e-sparqlEndpointList#Task>;
  <http://plugins.linkedpipes.com/ontology/e-sparqlEndpointList#query> """PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

CONSTRUCT {
<https://data.gov.sk/set/catalog/knowledgegraph> dcat:endpointURL \"https://znalosti.gov.sk/sparql\"^^xsd:anyURI ;
dcat:dataset ?dataset .
} WHERE {
?dataset a dcat:Dataset .
}""";
  <http://plugins.linkedpipes.com/ontology/e-sparqlEndpointList#group> "https://znalosti.gov.sk/sparql";
  <http://plugins.linkedpipes.com/ontology/e-sparqlEndpointList#endpoint> "https://znalosti.gov.sk/sparql" .

<https://data.gov.sk/set/lkod/7024d4ba-c2e5-4276-8b82-1fc134b28450> a <http://plugins.linkedpipes.com/ontology/e-sparqlEndpointList#Task>;
  <http://plugins.linkedpipes.com/ontology/e-sparqlEndpointList#query> """PREFIX dcat: <http://www.w3.org/ns/dcat#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>

CONSTRUCT {
<https://data.gov.sk/set/lkod/7024d4ba-c2e5-4276-8b82-1fc134b28450> dcat:endpointURL \"https://statdatatest.statistics.sk/rdf4j-server/repositories/SUSR\"^^xsd:anyURI ;
dcat:dataset ?dataset .
} WHERE {
?dataset a dcat:Dataset .
}""";
  <http://plugins.linkedpipes.com/ontology/e-sparqlEndpointList#group> "https://statdatatest.statistics.sk/rdf4j-server/repositories/SUSR";
  <http://plugins.linkedpipes.com/ontology/e-sparqlEndpointList#endpoint> "https://statdatatest.statistics.sk/rdf4j-server/repositories/SUSR" .

Výstup je už prázdny.

@miroslavliska miroslavliska self-assigned this Dec 13, 2023
@miroslavliska miroslavliska added the bug Something isn't working label Dec 13, 2023
@miroslavliska miroslavliska changed the title Nejde harvestovať LKOD DataCube Štatistického úradu Harvestácia LKODu DataCube Štatistického úradu Jan 3, 2024
@miroslavliska miroslavliska transferred this issue from datova-kancelaria/nkod-sk Jan 21, 2024
@miroslavliska miroslavliska removed the bug Something isn't working label Jan 21, 2024
@jakubklimek
Copy link
Collaborator

Na tom linku se SPARQLem nedá ptát, viz https://api.triplydb.com/s/IsCxUmFr4 - Unknown repository: SUSR. Proto je výstup prázdný. Je to také jiný link než https://datacubet.statistics.sk/rdf4j-workbench/repositories/NONE/server, na který se ovšem také nedá ptát. Je tedy třeba zaregistrovat takový endpoint, na který se dá ptát SPARQLem.

@miroslavliska
Copy link
Member Author

Na tom linku se SPARQLem nedá ptát, viz https://api.triplydb.com/s/IsCxUmFr4 - Unknown repository: SUSR. Proto je výstup prázdný. Je to také jiný link než https://datacubet.statistics.sk/rdf4j-workbench/repositories/NONE/server, na který se ovšem také nedá ptát. Je tedy třeba zaregistrovat takový endpoint, na který se dá ptát SPARQLem.

Ďakujem za info, máš pravdu. Z uvedeného RDF4J Servra (Workbenchu) zmizla uvedená databáza. Je potrebné to setupnúť tak, aby to nemôhol urobiť hocikto (mazanie).

@miroslavliska
Copy link
Member Author

Na tom linku se SPARQLem nedá ptát, viz https://api.triplydb.com/s/IsCxUmFr4 - Unknown repository: SUSR. Proto je výstup prázdný. Je to také jiný link než https://datacubet.statistics.sk/rdf4j-workbench/repositories/NONE/server, na který se ovšem také nedá ptát. Je tedy třeba zaregistrovat takový endpoint, na který se dá ptát SPARQLem.

OK, vidím posun. LKOD na SPARQL Endpointe som aktualizoval na správny URL odkaz.
Má to byť: https://statdatatest.statistics.sk/rdf4j-server/repositories/SUSR

Keď sa pozriem do pipelines, vidím tam testovacích 10 datasetov:
image

Druhá vec je, že metadáta týchto datasetov sú chybné, a je ich potrebné opraviť. Urobím ich analýzu, a prepošlem to na dodávateľa.

@miroslavliska
Copy link
Member Author

miroslavliska commented May 24, 2024

Po analýze dát v LKODe, na testovaciom datasete boli nájdené tieto chyby:
Testovací dataset:
https://statdatatest.statistics.sk/api/dc/opendata/cube/dataset/00000001-0000-0000-0000-000000000010
a jeho vlastnosti:
image

Čo sa týka správnosti údajov distribúcie horeuvedeného datasetu,
image
tu sú niektoré chyby:

Uvedený zoznam chýb je len prvotný. Tu je presne ako má vyzerať dataset ktorý nie je HVD
https://htmlpreview.github.io/?https://github.com/slovak-egov/centralny-model-udajov/blob/develop/tbox/national/dcat-ap-sk/index.html#rozhranie-dcat-ap-dataset

a tu zas ktorý HVD je:
https://htmlpreview.github.io/?https://github.com/slovak-egov/centralny-model-udajov/blob/develop/tbox/national/dcat-ap-sk/index.html#rozhranie-dcat-ap-dataset-hvd

Prosíme o zapracovanie uvedených zmien.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants