Spark第一个程序

1. 安装

Linux环境
使用 jupyter notebook作为交互工具,可以用python,Scala语言编写。

具体看 Spark 初入门中启动spark的四种方式.

2. 第一个程序

python语言
在jupyter notebook新建python的notebook。

计算圆周率:

import random
num_samples = 100000000

def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1

count = sc.parallelize(range(0, num_samples)).filter(inside).count()

pi = 4 * count / num_samples
print(pi)

sc.stop()

运行结果:

3.1417056

Scala版本
在notebook 选择 spylon-kernel,新建notebook。

val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()

结果:

data: Seq[(Int, Int, Int)] = List((1,2,3), (4,5,6), (6,7,8), (9,19,10))
ds: org.apache.spark.sql.Dataset[(Int, Int, Int)] = [_1: int, _2: int ... 1 more field]

参考:

  1. How to install PySpark and Jupyter Notebook in 3 Minutes
已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 酷酷鲨 设计师:CSDN官方博客 返回首页