Skip to content

Commit

Permalink
Merge pull request #26 from statisticsnorway/remove-landing-pages
Browse files Browse the repository at this point in the history
Removed landing pages
  • Loading branch information
skars82 authored Jan 7, 2024
2 parents 218381c + ff7863e commit 30c42c6
Show file tree
Hide file tree
Showing 16 changed files with 192 additions and 100 deletions.
29 changes: 16 additions & 13 deletions dapla-manual/_quarto.yml
Original file line number Diff line number Diff line change
Expand Up @@ -66,7 +66,7 @@ website:
href: https://console.cloud.google.com/
icon: google
- icon: github
href: https://github.com/statisticsnorway/dapla-manual
href: https://github.com/statisticsnorway/dapla-manual-internal
aria-label: Dapla-manual GitHub repository

sidebar:
Expand All @@ -75,46 +75,49 @@ website:
contents:
- href: statistikkere/index.qmd
- href: statistikkere/hurtigstart.qmd
- section: statistikkere/dapla-team-overview.qmd
- section: "Dapla-team"
href: statistikkere/hva-er-dapla-team.ipynb
contents:
- statistikkere/hva-er-dapla-team.ipynb
- statistikkere/tilgangsstyring.ipynb
- statistikkere/administrasjon-av-team.qmd
- statistikkere/features.qmd
- section: statistikkere/datalagring-overview.qmd
- section: "Data"
href: statistikkere/jobbe-med-data.qmd
contents:
- statistikkere/jobbe-med-data.qmd
- statistikkere/hva-er-botter.qmd
- section: statistikkere/kode-overview.qmd
- section: "Programmering"
href: statistikkere/jobbe-med-kode.qmd
contents:
- statistikkere/jobbe-med-kode.qmd
- statistikkere/git-og-github.qmd
- section: statistikkere/standardisering.qmd
- section: "Standarder"
href: "statistikkere/datatilstander.qmd"
contents:
- statistikkere/datatilstander.qmd
- statistikkere/navnestandard-datalagring.qmd
- statistikkere/versjonering-av-datasett.qmd
- section: statistikkere/metadata-overview.qmd
- section: "Metadata"
href: statistikkere/datadoc.qmd
contents:
- statistikkere/datadoc.qmd
- section: statistikkere/daplalab-overview.qmd
contents:
- statistikkere/jupyterlab.qmd
- section: statistikkere/datatjenester-overview.qmd
- section: "Datatjenester"
href: statistikkere/kildomaten.qmd
contents:
- statistikkere/gcc.qmd
- statistikkere/kildomaten.qmd
- statistikkere/transfer-service.ipynb
- statistikkere/statistikkbanken.qmd
- section: statistikkere/gcp-overview.qmd
contents:
- statistikkere/gcc.qmd
- section: statistikkere/appendix.qmd
- section: "Appendix"
href: statistikkere/dashboard.qmd
contents:
- statistikkere/dashboard.qmd
- statistikkere/innlogging.qmd
- statistikkere/gjenopprette-data.qmd
- statistikkere/spark.qmd
- statistikkere/slette-data.qmd
- statistikkere/altinn3.qmd
- statistikkere/kartdata.qmd
- id: utviklere
Expand Down
66 changes: 65 additions & 1 deletion dapla-manual/faq.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -4,6 +4,20 @@ toc-location: body
css: faq.css
---

### Hvordan finner jeg et Google-prosjekt sin prosjekt-ID?

Prosjekt-ID-en til et Google-prosjekt er en unik identifikator som brukes til å identifisere prosjektet i Google Cloud Platform. Prosjekt-ID-en er en streng som består av små bokstaver, tall og bindestrek. Prosjekt-ID-en er ikke det samme som prosjektnavnet, som kan inneholde store bokstaver og mellomrom.

Du finner prosjekt-ID ved logge deg inn på [GCC](./statistikkere/gcc.html#innlogging), [åpne prosjektvelgeren](./statistikkere/gcc.html#prosjektvelger), søk opp ditt prosjekt, og så ser du det i høyre kolonne, slik som vist i denne sladdete kolonnen i @fig-prosjektvelger.

![Prosjektvelgeren i Google Cloud Console](../images/prosjektvelger.png){fig-alt="Bilde som viser prosjektvelgeren i Google Cloud Console" #fig-prosjektvelger}

### Hvordan får jeg slettet et GitHub-repo under statisticsnorway?

Hovedregelen er at vi arkiverer repoer istedenfor å slette. Det skyldes at vi kan trenge å ettergå historikken i repoer ved et senere tidspunkt. Arkivering av repoer kan du gjøre selv under **Settings** i repoet.

I de tilfellene der du mener at det gir mest mening å slette repoet, så må dette gjøres av en Github-administrator. Da [sender du en henvendelse til Kundeservice](https://ssb.pureservice.com/) og ber om at repoet slettes. Husk å oppgi navnet på repoet du ønsker å få slettet.


### Hvordan løser jeg feilmeldinger knyttet til at **data rate exceeded** i Jupyter?

Expand All @@ -22,11 +36,61 @@ Når du mottar følgende melding i Jupyter:
> ServerApp.rate_limit_window=3.0 (secs)
> ```
betyr det at mengden data som sendes fra jupyter-kernelen til jupyterlab-frontend overskrider den tillatte grensen. Selv om det er mulig å justere `ServerApp.iopub_data_rate_limit` og `ServerApp.rate_limit_window` for å endre denne grensen, ønsker vi ikke dette. Å endre disse verdiene kan påvirke jupyterlabs ytelse negativt.
betyr det at mengden data som sendes fra jupyter-kernelen til jupyterlab-frontend overskrider den tillatte grensen. Selv om det er mulig å justere `ServerApp.iopub_data_rate_limit` og `ServerApp.rate_limit_window` for å endre denne grensen, ønsker vi ikke dette. Å endre disse verdiene kan ha en negativ påvirkning på Jupyterlab sin ytelse.
#### Her er noen løsningsforslag:
1. Reduser datamengden: Prøv å redusere datamengden du prøver å vise. Hvis du for eksempel viser en stor pandas dataframe, kan du vise kun toppradene med `df.head()` eller et tilfeldig utvalg med `df.sample(10)`.
2. Legg til forsinkelse: Bruk `time.sleep()`-funksjonen i Python for å legge til en pause mellom hver utskrift. Dette kan spre utdataene over en lengre tidsperiode, noe som kan hjelpe med å unngå å overskride datagrensen.
3. Skriv til en fil: I stedet for å skrive utdata direkte i Jupyter, kan du vurdere å skrive dataene til en fil. Dette omgår IOPub-datahastighetsgrensen, og du kan se gjennom dataene i ettertid.
4. Unngå utskrift: Hvis du kun trenger å utføre beregninger eller operasjoner på dataene, vurder å gjøre det uten å skrive ut resultatene i Jupyter.
### Hvordan kan jeg gjennopprette data fra bøtter?
Alle bøtter har automatisk versjonering. Dette gjør det mulig å tilbakeføre filer til en tidligere versjon eller gjenopprette filer som er slettet ved et uhell. Logg inn på [Google Cloud Console](./statistikkere/gcc.qmd) og søk opp "Cloud Storage" i søkefeltet. Klikk på den bøtten hvor filen er lagret under "Buckets".
#### Gjenopprette en slettet fil
Fra Cloud Storage skjermbildet kan man navigere seg frem til den mappen hvor filen tidligere er lagret og skru på radioknappen "Show deleted data" (@fig-show-deleted-file)
![Skru på visning av slettede filer](../images/show-deleted-files.png){ fig-alt="Bilde som hvordan man skrur på visning av slettede filer" width=100% #fig-show-deleted-file }
Nå vil man kunne se slettede filer i kursiv med teksten *(Deleted)* på slutten. Kolonnen "Version history" vil også vise hvor mange tidligere versjoner som finnes av denne filen. Trykk på filnavnet du ønsker å gjenopprette og velg deretter fanen "Version history". I listen av versjoner til denne filen har man mulighet til å gjenopprette til en tidligere versjon ved å klikke på "Restore" (@fig-restore-deleted-file).
![Gjenoppretting av en slettet fil](../images/restore-deleted-file.png){ fig-alt="Bilde som viser hvordan man gjenoppretter en slettet fil" width=100% #fig-restore-deleted-file }
#### Gjenopprette en fil til en tidligere versjon
Fra Cloud Storage skjermbildet kan man navigere seg frem til den mappen hvor filen er lagret, og trykke på filnavnet. Velg deretter fanen "Version history". I listen av versjoner til denne filen har man mulighet til å gjenopprette til en tidligere versjon ved å klikke på "Restore" (@fig-restore-file-version).
![Versjonshistorikk til en fil](../images/object-versioning.png){ fig-alt="Bilde som viser versjonshistorikk til en fil" width=100% #fig-restore-file-version }
### Hvordan sletter jeg data fra bøtter?
Sletting av filer og mapper fra bøtter kan gjøres fra [Google Cloud Console](./statistikkere/gcc.qmd). Søk opp "Cloud Storage" i søkefeltet og klikk på den bøtten hvor filen er lagret under "Buckets".
Kryss av filen/katalogen som du ønsker å slette og trykk "Delete" (@fig-delete-file)
![Sletting av en fil](../images/full-delete-step-1.png){ fig-alt="Bilde som viser hvordan man sletter en fil" width=100% #fig-delete-file }
Siden bøtter på Dapla har versjonering får man opp en dialogboks som informerer om at objektet (dvs. filen) er versjonert (@fig-delete-file-confirm). Trykk på "Delete".
![Bekreft sletting av fil](../images/full-delete-step-2.png){ fig-alt="Bilde som en dialogboks" width=100% #fig-delete-file-confirm }
Slettingen kan ta noe tid. Når denne er ferdig vil filen være slettet, men den kan fortsatt gjenopprettes. Hvis du ønsker at filen skal slettes *permanent*, gjør følgende:
1. Skru på visning av slettede filer med å bruke radioknappen "Show deleted data" (@fig-delete-file-show-hidden)
![Skru på visning av slettede filer](../images/full-delete-step-3.png){ fig-alt="Bilde som viser hvordan man skrur på visning av slettede filer" width=100% #fig-delete-file-show-hidden }
2. Finn frem til den slettede filen og trykk på linken "1 noncurrent version" eller tilsvarende (@fig-delete-file-select-version-history). Dette vil ta deg direkte til en side som viser filens versjonshistorikk.
![Velg versjonshistorikk](../images/full-delete-step-4.png){ fig-alt="Bilde som viser hvordan kommer seg til filens versjonshistorikk" width=100% #fig-delete-file-select-version-history }
3. Velg alle versjoner som vist på @fig-delete-all-versions og trykk "Delete"
![Slett alle versioner](../images/full-delete-step-5.png){ fig-alt="Bilde som viser hvordan man sletter hele filens versjonshistorikk" width=100% #fig-delete-all-versions }
4. Til slutt må man bekrefte at man ønsker å slette alle versioner (@fig-confirm-delete-all-versions) med å skrive inn DELETE og trykke på den blå "Delete"-knappen:
![Bekreft sletting av alle versjoner](../images/full-delete-step-6.png){ fig-alt="Bilde som viser at man må bekrefte sletting" width=100% #fig-confirm-delete-all-versions }
Binary file added dapla-manual/images/datatilstander.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added dapla-manual/images/gcc-project-selector.mp4
Binary file not shown.
10 changes: 10 additions & 0 deletions dapla-manual/references.bib
Original file line number Diff line number Diff line change
@@ -1,5 +1,15 @@
# Format reference: https://www.bibtex.com/g/bibtex-format/#:~:text=What%20is%20BibTeX%3F,bib
@unpublished{datatilstander2,
author = {Standardutvalget},
title = {Datatilstander i SSB},
year = {2023},
issue_date = {6 October 2023},
publisher = {Statistisk sentralbyrå},
url = {https://ssbno.sharepoint.com/sites/Internedokumenter/Delte%20dokumenter/Forms/AllItems.aspx?id=%2Fsites%2FInternedokumenter%2FDelte%20dokumenter%2FInterne%20dokumenter%202023%2F2023%2D14%20Datatilstander%20i%20SSB%2Epdf&parent=%2Fsites%2FInternedokumenter%2FDelte%20dokumenter%2FInterne%20dokumenter%202023},
numpages = {15}
}

@unpublished{datatilstander,
author = {Standardutvalget},
title = {Datatilstander i SSB},
Expand Down
1 change: 0 additions & 1 deletion dapla-manual/statistikkere/appendix.qmd

This file was deleted.

3 changes: 0 additions & 3 deletions dapla-manual/statistikkere/dapla-team-overview.qmd

This file was deleted.

1 change: 0 additions & 1 deletion dapla-manual/statistikkere/datalagring-overview.qmd

This file was deleted.

71 changes: 64 additions & 7 deletions dapla-manual/statistikkere/datatilstander.qmd
Original file line number Diff line number Diff line change
@@ -1,9 +1,66 @@
# Datatilstander
---
title: Datatilstander
---

> Det er naturlig at hovedfokus i SSBs kvalitetsarbeid er rettet mot statistikkene. Samtidig har bådeforventninger og krav til SSBs evne til å dele data økt betydelig de senere år. Det betyr at i tillegg til å produsere hovedproduktet «statistikk», så vil mange statistikkteam ha økt fokus på å produseregjenbrukbare datasett med høy kvalitet. En viktig forutsetning for gjenbruk er at de som vil brukedataene, kan vite hvilke endringer dataene har gjennomgått. Det må også være mulig for andre å finne og forstå dataene. Kvalitetssikret bruk av data i SSB og gjenbruk i og utenfor SSB fordrer godemetadata. Definisjoner av datatilstander og andre statistikkbegreper må derfor i størst mulig gradvære avstemt med internasjonale statistiske rammeverk og definisjoner.
>
> Begrepet «etterprøvbarhet» brukes flere steder i notatet, og det legges til grunn at vi bør ha som et ideal å produsere statistikk på en slik måte at ettertiden eller en uavhengig instans med tilgang til dataene og vår dokumentasjon vil komme til samme statistiske resultater som oss selv.
>
>Tilstandene som beskrives er kildedata, inndata, klargjorte data, statistikk og utdata. De tre første er i hovedsak mikrodata som gir informasjon om enkeltenheter, mens statistikk og utdata i hovedsak er aggregerte data.
En datatilstand er et resultat av at et datasett har gått gjennom gitte operasjoner og prosesser [@datatilstander2 pp. 5]. Denne siden er ment som en kort innføring i de forskjellige datatilstandene. Siden er basert på det interne dokumentet [Datatilstander SSB - 2. utgave](https://ssbno.sharepoint.com/sites/Internedokumenter/Delte%20dokumenter/Forms/AllItems.aspx?id=%2Fsites%2FInternedokumenter%2FDelte%20dokumenter%2FInterne%20dokumenter%202023%2F2023%2D14%20Datatilstander%20i%20SSB%2Epdf&parent=%2Fsites%2FInternedokumenter%2FDelte%20dokumenter%2FInterne%20dokumenter%202023). Definisjonene er direkte utdrag fra dette dokumentet. Se interndokumentet for en mer grundig gjennomgang av datatilstander i SSB.

[@datatilstander pp. 5]
I SSB skiller vi mellom fem datatilstander:

1. Kildedata
2. Inndata
3. Klargjorte data
4. Statistikk
5. Utdata

Alle datatilstander er obligatoriske bortsett fra **inndata**. @fig-datatilstander viser hvordan de forskjellige datatilstandene henger sammen.

![En grafisk fremstilling av forskjellene mellom datatilstandene i SSB [@datatilstander2].](../images/datatilstander.png){fig-alt="Figur som viser ulikhetene mellom datatilstandene som er definert i SSB." width="100%" #fig-datatilstander}

## Kildedata
Kildedata er **data lagret slik de ble levert til SSB fra dataeier**. Eksempler på kildedata er: *grunndata*, *transaksjonsdata*, *administrative data*, *statistiske data* og *aggregerte data og rapporter* [@datatilstander2 pp. 7]. Kildedata lagres i bøtten `ssb-<teamnavn>-data-kilde-prod`. Les mer om bøtter [her](hva-er-botter.qmd) og lagringsstandarder [her](navnestandard-datalagring.qmd).

## Inndata
Inndata er **kildedata som er transformert til SSBs standard lagringsformat** [@datatilstander2 pp. 8]. Denne transformeringer inkluderer blant annet at dataene skal benytte UTF-8 tegnsett. Les mer om SSBs standard lagringsformat [her](https://statistics-norway.atlassian.net/wiki/spaces/MPD/pages/2953084957/Standardformater#UTF-8-tegnsett).
Inndata kan også være andre statistikkers glargjorte data og/eller statistikkdata [@datatilstander2 pp. 8]. Inndata er ikke en obligatorisk datatilstand. Inndata lagres i bøtten `ssb-<teamnavn>-data-produkt-prod`.

## Klargjorte data
Klargjorte data er inndata hvor:

* variablene er beregnet gjennom utregninger og koblinger mellom datasett
* nøyaktigheten er forbedret
+ for eksempel som resultat av editering eller imputering
* metadata med variabeldefinisjoner er lagt til.

Enhver endring som er gjort skal være sporbare og dokumentert slik at statistikkene skal være etterprøvbare. Klargjorte date er som regel *ikke* aggregerte - med mindre dataen vi mottar er aggregert. Med andre ord inneholder klargjorte data oftest enkeltobservasjoner - i likhet med kildedata og inndata [@datatilstander2 pp. 9]. Klargjorte data lagres i bøtten `ssb-<teamnavn>-data-produkt-prod`.

## Statistikk
Statistikk er "Tallfestede opplysninger om en gruppe eller et fenomen, og som kommer frem ved en sammenstilling og bearbeidelse av opplysninger om de enkelte enhetene i gruppen eller et utvalg av disse enhetene, eller ved systematisk observasjon av fenomenet" ifølge statistikkloven § 3a [@datatilstander2 pp. 10]. Statistikk lagres i bøtten `ssb-<teamnavn>-data-produkt-prod`.

Statistikk er ofte aggregerte data eller estimerte størrelser. Vi skiller mellom ujustert statistikk og justert statistikk. Indekser og sesongjusterte tall er eksempler på justert statistikk [@datatilstander2 pp. 10].

Statistikk kan være inndata til andre statistikker, og kan dermed inneholde konfidensielle og detaljerte data som ikke publiseres.

## Utdata
Utdata er **statistikk der kravene til konfidensialtet er ivaretatt**. Dette er datatilstanden som publiseres. Eksempler inkluderer: *statistikkbanktabeller*, *tabelloppdrag* og *internasjonal rapportering* [@datatilstander2 pp. 11]. Utdata lagres i bøtten `ssb-<teamnavn>-data-produkt-produkt`.

## Metadata for datatilstandene

Det er forskjellige forventinger til metadata for de ulike datatilstandene. Forskjellene er skildret underdisse punktene:

###### [Kildedata]{.underline}
- Informasjon på datasettnivå som dataeier, området dataene omhandler og tidsinformasjon
- Metadata om enkeltvariabler er begrenset til informasjonen dataeier selv avleverer.

###### [Inndata]{.underline}
- I utgangspunktet samme som kildedata

###### [Klargjorte data]{.underline}
- Variabeldefinisjoner - beskrivelse av hver enkelt variabel og hvordan den er beregnet
- Nøyaktighetsforbedrende tiltak som er utført

###### [Statistikk]{.underline}
- Variabeldefinisjoner
- Hvilke metoder og programmer/kode som er benyttet for å produsere statistikken

###### [Utdata]{.underline}
- I utgangspunktet samme som for statistikk
1 change: 0 additions & 1 deletion dapla-manual/statistikkere/datatjenester-overview.qmd

This file was deleted.

Loading

0 comments on commit 30c42c6

Please sign in to comment.