Spark是UC Berkeley大学AMPLAB开源的分布式处理框架。目前已贡献给Apache社区,成为inbubator项目。
Shark初窥
Shark简介
Shark[1]是UC Berkeley AMPLAB开源的一款数据仓库产品,它完全兼容Hive的HQL语法,但与Hive不同的是,Hive的计算框架采用MapReduce,而Shark采用Spark(也是AMPLAB开源的分布式计算框架,充分利用内存,适合于迭代计算,官方宣称性能比MapReduce好100倍)。所以Hive是SQL on MapReduce,而Shark是Hive on Spark。以下是官方简介:
Shark is a large-scale data warehouse system for Spark designed to be compatible with Apache Hive. It can answer Hive QL queries up to 100 times faster than Hive without modification to the existing data nor queries. Shark supports Hive’s query language, metastore, serialization formats, and user-defined functions.
My First Blog on GitHub
之前的Blog由于欠费被停了,而且也觉得每年花费那200块钱不值得,故找了找免费的Blog,意外发现了Github Pages,惊喜~
用Markdown像敲代码一样写Blog,而且随时随地记录,然后还能git commit,简直就是技术人员的福音啊
后续准备整理几篇Blog,把最近做的事情梳理一下:
- Spark&Shark的调研:总结下Spark/Shark的基本思想,安装部署文档,以及遇到的问题
- Hive的代码研究:准备出一个系列,介绍Hive的实现原理