** 간단하게 Airflow - Spark 예제
https://github.com/yansfil/grab-data-world
yansfil/grab-data-world
Single node ETL pipeline project. Contribute to yansfil/grab-data-world development by creating an account on GitHub.
github.com
https://www.slideshare.net/JoenggyuLenKim/spark-152302106
Spark로 알아보는 빅데이터 처리
Spark로 시작하는 빅데이터라는 주제로 사내세미나 진행했던 자료입니다. Spark를 활용한다면 그 동작구조를 명확하게 이해해야 된다고 생각합니다.
www.slideshare.net
https://blog.insightdatascience.com/scheduling-spark-jobs-with-airflow-4c66f3144660
Scheduling Spark jobs with Airflow
Dan Blazevski is an engineer at Spotify, and an alum from the Insight Data Engineering Fellows Program in New York. To learn more about…
blog.insightdatascience.com
* 옛날 버전 (docker - hadoop, spark, hive)
https://github.com/big-data-europe/docker-hadoop-spark-workbench.git
big-data-europe/docker-hadoop-spark-workbench
[EXPERIMENTAL] This repo includes deployment instructions for running HDFS/Spark inside docker containers. Also includes spark-notebook and HDFS FileBrowser. - big-data-europe/docker-hadoop-spark-w...
github.com
hive-server:
image: bde2020/hive:2.1.0-postgresql-metastore
container_name: hive-server
env_file:
- ./hadoop-hive.env
environment:
- "HIVE_CORE_CONF_javax_jdo_option_ConnectionURL=jdbc:postgresql://hive-metastore/metastore"
ports:
- "10000:10000"
- "10002:10002"
* 최신 버전(docker - hadoop)
https://github.com/big-data-europe/docker-hadoop
big-data-europe/docker-hadoop
Apache Hadoop docker image. Contribute to big-data-europe/docker-hadoop development by creating an account on GitHub.
github.com
* 최신 버전(docker - hadoop, hive)
https://github.com/big-data-europe/docker-hive
big-data-europe/docker-hive
Contribute to big-data-europe/docker-hive development by creating an account on GitHub.
github.com
presto-coordinator:
image: shawnzhu/prestodb:latest
ports:
- "8080:8080"
volumes:
- ./etc:/home/presto/etc
Hive on Spark vs SparkSQL | 하이브 온 스파크 vs 스파크SQL - 포울 블로그
하이브는 하둡의 표준적이고 가장 오래 된 SQL 엔진이다. 하이브 온 스파크는 하이브와 스파크 각각의 많은 장점들을 제공한다. 하이브는 데이터 웨어하우스(DW) 툴로 만들어졌으며, 실행 엔진을 쉽게 바꿀수 있다는 것이 현재 더욱 매력적인 점이 되고 있다. 간단히 말해서, 하이브 온 스파크를 사용하면 쿼리는 하이브 옵티마이저에 의해 최적화되고 최종적으로 스파크 잡이 실행된다. 기본 MR보다 빠르고 최적화된 실행 엔진을 …
poul.kr
https://devidea.tistory.com/53
Spark SQL
팀에서 spark SQL을 사용해서 사용자가 요청한 쿼리를 stream 처리하는 작업을 하고 있다. 그래서 spark SQL에 대해서 정리해 보고자 한다. 해당 블로그의 내용은 책 '스파크 2 프로그래밍'에서 대부분 참고했다...
devidea.tistory.com
Spark SQL
Spark SQL은 구조화된 데이터를 처리하는 모듈이다. SQL과 함께 다양한 API를 사용하여 구조화된...
blog.naver.com
# example.py
from pyspark import SparkContext
sc = SparkContext("spark://10.0.0.34:7077", "example")
sc.textFile("hdfs://10.0.0.34:8020/user/root/20191213_134923.csv")
from pyspark.sql import SparkSession
sparkSession = SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()
data = [('First', 1), ('Second', 2), ('Third', 3), ('Fourth', 4), ('Fifth', 5)]
df = sparkSession.createDataFrame(data)
df.write.csv("hdfs://10.0.0.34:8020/user/root/test.csv")
df_load = sparkSession.read.csv("hdfs://10.0.0.34:8020/user/root/20191213_134923.csv")
df_load.show()
Saagie
creativedata.atlassian.net
'BigData' 카테고리의 다른 글
Crawler & Analysis Example (0) | 2019.12.13 |
---|---|
데이터 분석 사이트 (0) | 2019.12.13 |
빅데이터 이용 사례 : 카드사 (0) | 2019.12.10 |
Apache Superset (0) | 2019.12.03 |
Presto Web UI (0) | 2019.11.29 |