sparkJava ref type org.apache.spark.sql.SparkSession id 1 
Akkurat som PySpark så gir SparkR oss et grensesnitt mot Apache Spark fra R. I denne notebooken viser vi noen eksempler hvordan du gjøre vanlige operasjoner med SparkR.
Eksemplene i notebooken bruker SparkR (k8s cluster) på https://jupyter.dapla.ssb.no/. Det vil si at den kan distribuere kjøringene på flere maskiner i Kubernetes.
In [3]:
selectedColumns <- select(file, "Date", "Year", "Quarter", "Month", "serie00", "serie01")
showDF(selectedColumns, numRows = 5)+----------+----+-------+-----+------------------+------------------+
|      Date|Year|Quarter|Month|           serie00|           serie01|
+----------+----+-------+-----+------------------+------------------+
|2000-01-01|2000|      1|   01| 9.495232388801012|   19.016168503192|
|2000-02-01|2000|      1|   02| 10.70952411634649|21.404467063442723|
|2000-03-01|2000|      1|   03|11.118293927071951| 21.25035527677261|
|2000-04-01|2000|      2|   04| 9.346911680164684|19.982136698759238|
|2000-05-01|2000|      2|   05| 9.663303382177363|19.925236690504494|
+----------+----+-------+-----+------------------+------------------+
only showing top 5 rows
Under skriver vi ut en fil og spesifiserer at vi overskriver evt filer med samme navn.