sparkr-intro.ipynb
Download Notebook

Introduksjon til SparkR

Akkurat som PySpark så gir SparkR oss et grensesnitt mot Apache Spark fra R. I denne notebooken viser vi noen eksempler hvordan du gjøre vanlige operasjoner med SparkR.

Oppsett

Eksemplene i notebooken bruker SparkR (k8s cluster)https://jupyter.dapla.ssb.no/. Det vil si at den kan distribuere kjøringene på flere maskiner i Kubernetes.

In [1]:
spark
Java ref type org.apache.spark.sql.SparkSession id 1 

Lese inn fil

In [2]:
file = read.parquet("gs://ssb-prod-dapla-felles-data-delt/temp/timeseries.parquet")
In [3]:

Skrive ut fil

Under skriver vi ut en fil og spesifiserer at vi overskriver evt filer med samme navn.

In [4]:
write.parquet(file,
              "gs://ssb-prod-dapla-felles-data-delt/temp/timeseries_copy.parquet",
              mode = "overwrite")