BigData

Spark(Hadoop, Hive) & Airflow

Kyle79 2019. 12. 12. 18:59

 

 

** 간단하게 Airflow - Spark 예제

https://github.com/yansfil/grab-data-world

 

yansfil/grab-data-world

Single node ETL pipeline project. Contribute to yansfil/grab-data-world development by creating an account on GitHub.

github.com

 

 

 

https://www.slideshare.net/JoenggyuLenKim/spark-152302106

 

Spark로 알아보는 빅데이터 처리

Spark로 시작하는 빅데이터라는 주제로 사내세미나 진행했던 자료입니다. Spark를 활용한다면 그 동작구조를 명확하게 이해해야 된다고 생각합니다.

www.slideshare.net

 

 

 

https://blog.insightdatascience.com/scheduling-spark-jobs-with-airflow-4c66f3144660

 

Scheduling Spark jobs with Airflow

Dan Blazevski is an engineer at Spotify, and an alum from the Insight Data Engineering Fellows Program in New York. To learn more about…

blog.insightdatascience.com

 

 

 

* 옛날 버전 (docker - hadoop, spark, hive)

https://github.com/big-data-europe/docker-hadoop-spark-workbench.git

 

big-data-europe/docker-hadoop-spark-workbench

[EXPERIMENTAL] This repo includes deployment instructions for running HDFS/Spark inside docker containers. Also includes spark-notebook and HDFS FileBrowser. - big-data-europe/docker-hadoop-spark-w...

github.com

 

 

  hive-server:
    image: bde2020/hive:2.1.0-postgresql-metastore
    container_name: hive-server
    env_file:
      - ./hadoop-hive.env
    environment:
      - "HIVE_CORE_CONF_javax_jdo_option_ConnectionURL=jdbc:postgresql://hive-metastore/metastore"
    ports:
      - "10000:10000"
      - "10002:10002"

 

 

* 최신 버전(docker - hadoop)

https://github.com/big-data-europe/docker-hadoop

 

big-data-europe/docker-hadoop

Apache Hadoop docker image. Contribute to big-data-europe/docker-hadoop development by creating an account on GitHub.

github.com

 

* 최신 버전(docker - hadoop, hive)

https://github.com/big-data-europe/docker-hive

 

big-data-europe/docker-hive

Contribute to big-data-europe/docker-hive development by creating an account on GitHub.

github.com

 

  presto-coordinator:
    image: shawnzhu/prestodb:latest
    ports:
      - "8080:8080"
    volumes:
        - ./etc:/home/presto/etc

 

 

 

http://poul.kr/?p=3115

 

Hive on Spark vs SparkSQL | 하이브 온 스파크 vs 스파크SQL - 포울 블로그

하이브는 하둡의 표준적이고 가장 오래 된 SQL 엔진이다. 하이브 온 스파크는 하이브와 스파크 각각의 많은 장점들을 제공한다. 하이브는 데이터 웨어하우스(DW) 툴로 만들어졌으며, 실행 엔진을 쉽게 바꿀수 있다는 것이 현재 더욱 매력적인 점이 되고 있다. 간단히 말해서, 하이브 온 스파크를 사용하면 쿼리는 하이브 옵티마이저에 의해 최적화되고 최종적으로 스파크 잡이 실행된다. 기본 MR보다 빠르고 최적화된 실행 엔진을 …

poul.kr

 

 

 

https://devidea.tistory.com/53

 

Spark SQL

팀에서 spark SQL을 사용해서 사용자가 요청한 쿼리를 stream 처리하는 작업을 하고 있다. 그래서 spark SQL에 대해서 정리해 보고자 한다. 해당 블로그의 내용은 책 '스파크 2 프로그래밍'에서 대부분 참고했다...

devidea.tistory.com

 

 

 

 

https://m.blog.naver.com/PostView.nhn?blogId=gladiator67&logNo=221183614606&proxyReferer=https%3A%2F%2Fwww.google.com%2F

 

Spark SQL

Spark SQL은 구조화된 데이터를 처리하는 모듈이다. SQL과 함께 다양한 API를 사용하여 구조화된...

blog.naver.com

 

 

 

# example.py

from pyspark import SparkContext
 
sc = SparkContext("spark://10.0.0.34:7077", "example")
sc.textFile("hdfs://10.0.0.34:8020/user/root/20191213_134923.csv")


from pyspark.sql import SparkSession

sparkSession = SparkSession.builder.appName("example-pyspark-read-and-write").getOrCreate()
data = [('First', 1), ('Second', 2), ('Third', 3), ('Fourth', 4), ('Fifth', 5)]
df = sparkSession.createDataFrame(data)
df.write.csv("hdfs://10.0.0.34:8020/user/root/test.csv")

df_load = sparkSession.read.csv("hdfs://10.0.0.34:8020/user/root/20191213_134923.csv")
df_load.show()

 

 

 

https://creativedata.atlassian.net/wiki/spaces/SAP/pages/82254081/Pyspark+-+Read+Write+files+from+HDFS

 

Saagie

 

creativedata.atlassian.net

 

 

 

 

 

 

'BigData' 카테고리의 다른 글

Crawler & Analysis Example  (0) 2019.12.13
데이터 분석 사이트  (0) 2019.12.13
빅데이터 이용 사례 : 카드사  (0) 2019.12.10
Apache Superset  (0) 2019.12.03
Presto Web UI  (0) 2019.11.29