spark
Java ref type org.apache.spark.sql.SparkSession id 1
Akkurat som PySpark så gir SparkR oss et grensesnitt mot Apache Spark fra R. I denne notebooken viser vi noen eksempler hvordan du gjøre vanlige operasjoner med SparkR.
Eksemplene i notebooken bruker SparkR (k8s cluster)
på https://jupyter.dapla.ssb.no/. Det vil si at den kan distribuere kjøringene på flere maskiner i Kubernetes.
In [3]:
selectedColumns <- select(file, "Date", "Year", "Quarter", "Month", "serie00", "serie01")
showDF(selectedColumns, numRows = 5)
+----------+----+-------+-----+------------------+------------------+
| Date|Year|Quarter|Month| serie00| serie01|
+----------+----+-------+-----+------------------+------------------+
|2000-01-01|2000| 1| 01| 9.495232388801012| 19.016168503192|
|2000-02-01|2000| 1| 02| 10.70952411634649|21.404467063442723|
|2000-03-01|2000| 1| 03|11.118293927071951| 21.25035527677261|
|2000-04-01|2000| 2| 04| 9.346911680164684|19.982136698759238|
|2000-05-01|2000| 2| 05| 9.663303382177363|19.925236690504494|
+----------+----+-------+-----+------------------+------------------+
only showing top 5 rows
Under skriver vi ut en fil og spesifiserer at vi overskriver evt filer med samme navn.