spark共14篇
spark—实践之DataSet实战企业人员管理系统应用案例-卡咪卡咪哈-一个博客

spark—实践之DataSet实战企业人员管理系统应用案例

此案例参考书籍《Spark大数据商业实战三部曲》,特做学习笔记,巩固学习过程。案例预览:给每位员工的年龄增加100给特定的员工年龄增加70,其他增加30对人员信息中的重复数据进行去重按年龄进行...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈11个月前
0468
代码+案例详解:使用Spark处理大数据最全指南-卡咪卡咪哈-一个博客

代码+案例详解:使用Spark处理大数据最全指南

全文共17984字,预计学习时长30分钟或更长如今,有不少关于Spark的相关介绍,但很少有人从数据科学家的角度来解释该计算机引擎。因此,本文将试着介绍并详细阐述——如何运行Spark?一切是如何...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈11个月前
0687
YARN资源分配,没有比这说的更清楚的了-卡咪卡咪哈-一个博客

YARN资源分配,没有比这说的更清楚的了

让你彻底搞明白YARN资源分配 - 知乎 (zhihu.com)本篇要解决的问题是:Container是以什么形式运行的?是单独的JVM进程吗?YARN的vcore和本机的CPU核数关系?每个Container能够使用的物理内存和虚...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0997
Hadoop + Spark 完全分布式学习环境搭建(Docker版)-卡咪卡咪哈-一个博客

Hadoop + Spark 完全分布式学习环境搭建(Docker版)

计算机中所有程序都要寄托一个环境运行,环境可以理解为一个程序运行所需要的条件的集合;如果只是为了写一个Java程序,它是单进程的,那么我们配置jdk、jre就可以了;如果写一个网站,有前后端...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
05614
一. Spark在Windows下的环境搭建-卡咪卡咪哈-一个博客

一. Spark在Windows下的环境搭建

由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0805
Spark环境部署-卡咪卡咪哈-一个博客

Spark环境部署

部署预备Hadoop安装spark运行一般依赖Hadoop(也可以不需要)。关于Hadoop的安装,可以参考 使用虚拟机搭建Hadoop集群在安装Hadoop的过程中,需要同时安装jdk8。2. Scala安装解压Scala二进制包到...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈1年前
0715