Stella981 Stella981
2年前
Spark入门(二)
用Idea搭建我们的Spark环境用IDEA搭建我们的环境有很多好处,其中最大的好处,就是我们甚至可以在工程当中直接运行、调试我们的代码,在控制台输出我们的结果。或者可以逐行跟踪代码,了解spark运行的机制。因此我们选择了idea,当然Idea不是首选,当然也可以用其他工具。因为我们的Spark程序用scala和ja
Stella981 Stella981
2年前
PySpark简介及详细安装教程
Spark在前面已经和大家说过很多了,Python这几天也整理出了很多自己的见解,今天就和大家说下一个新的东西,PySpark,一看名字就知道和前面二者都有很大关系,那么PySpark到底是什么,和之前所说的Spark与Python有什么不一样的呢?今天就和大家简单的聊聊。回忆下Spark的简介:Spark是一种通用的大数据计算框架,是基于
Stella981 Stella981
2年前
Spark RDD工作原理详解+RDD JAVA API编程
第1章RDD概念1.1RDD为什么会产生   RDD:ResilientDistributedDataset弹性分布式数据集RDD是Spark的基石,是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢?
Stella981 Stella981
2年前
Scala快速入门系列
写在前面的话因为Spark是由Scala开发的,所以在开发Spark应用程序之前要对Scala语言学习。虽然Spark也支持Java、Python语言,但是作为一名Java程序猿,还是决定要学习Scala哈。Scala是运行在JVM上一门语言。开发效率非常高、语法丰富简洁,三两行Scala代码能搞定Java要写的一大坨代码。
Stella981 Stella981
2年前
Flink(一)Flink的入门简介
一. Flink的引入    这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布
Stella981 Stella981
2年前
Spark机器学习算法
Spark是一个大规模的数据处理引擎,集成了SQL查询分析,该引擎是用Scala写的,所以一些高级的实现了的算法都是用它进行描述。已知支持的第三方语言有:C【https://github.com/Microsoft/Mobius,Java,Scala,Python,R【http://spark.apache.org】一般性理解:Spark
Stella981 Stella981
2年前
Spark Streaming和Kafka集成深入浅出
写在前面本文主要介绍SparkStreaming基本概念、kafka集成、Offset管理本文主要介绍SparkStreaming基本概念、kafka集成、Offset管理一、概述Spark Streaming顾名思义是spark的流式处理框架,是面向海量数据实现高吞吐量、高可用的分布式实时计算。关于spark的安装可以参考Spa
Stella981 Stella981
2年前
ContactG,基于Spark IM组织联络人插件
SparkIM是一个开源聊天软件http://www.oschina.net/p/spark(http://www.oschina.net/p/spark)本程序是spark的一个plugin。目的是实现符合企业需求的组织分类展示,因为某种原因没有上线发布到产品中。故而分享开源社区,给后来者开发带来便利。github地址https
Stella981 Stella981
2年前
Flink简介
1. Flink的引入这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flin
Stella981 Stella981
2年前
Spark 系列(六)Spark
写在前面:我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自worldorder乐队的一首HAVEANICEDAY。如今,走到现在很多坎坷和不顺,如今终于明白niceday是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是