spark共74篇
高效扩展Hadoop与Spark的数据处理工具:DataFu-卡咪卡咪哈-一个博客

高效扩展Hadoop与Spark的数据处理工具:DataFu

Apache DataFu 是一个开源的 Apache 项目,它是一个用于大数据处理和数据分析的库。它提供了一组功能丰富的工具和函数,用于在 Apache Hadoop 和 Apache Spark 等分布式计算框架上进行数据转换...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈11个月前
07415
百度马小龙:Spark在百度的工程实践分享-卡咪卡咪哈-一个博客

百度马小龙:Spark在百度的工程实践分享

原标题:百度马小龙:Spark在百度的工程实践分享 2015年4月16-18日,由CSDN主办、CSDN专家顾问团支持的 OpenCloud 2015大会将在北京国家会议中心拉开帷幕。为期三天的大会,以推进行业应用中的...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈11个月前
03315
如何应对大数据分析工程师面试Spark考察,看这一篇就够了-卡咪卡咪哈-一个博客

如何应对大数据分析工程师面试Spark考察,看这一篇就够了

作者丨斌迪、HappyMint 来源丨大数据与人工智能(ID:ai-big-data) 【导读】本篇 为什么考察Spark? Spark作为大数据组件中的执行引擎,具备以下优势特性。 高效性。内存计算下,Spark 比 MapRe...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈11个月前
04111
Spark从入门到精通(07):Spark SQL和DataSet-卡咪卡咪哈-一个博客

Spark从入门到精通(07):Spark SQL和DataSet

了解更多推荐系统、大数据、机器学习、AI等硬核技术,可以关注我的知乎,或同名微信公众号在前面两篇文章中,我们讨论了Spark SQL和DataFrame API。我们研究了如何连接到内置和外部数据源,查看...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈11个月前
0497
Spark流式数据处理——Spark Streaming-卡咪卡咪哈-一个博客

Spark流式数据处理——Spark Streaming

Spark Streaming简介 Spark Streaming是Spark核心API的一个扩展,可以实现实时数据的可拓展,高吞吐量,容错机制的实时流处理框架。 Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flum...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈11个月前
0396
用Spark处理复杂数据类型-卡咪卡咪哈-一个博客

用Spark处理复杂数据类型

转载 用 Spark 处理复杂数据类型(Struct、Array、Map、JSON字符串等) 处理 Structs 的方法 scala> val complexDF = df.selectExpr('struct(Description,InvoiceNo) as complex','Descripti...
虾画怪谈的头像-卡咪卡咪哈-一个博客虾画怪谈11个月前
05410