Python

Python 과 Kafka, Spark 를 이용한 실시간 분석

Kyle79 2019. 7. 23. 11:07

 

 

 

https://brunch.co.kr/@yysttong/6

 

Python: Spark-Kafka-Sql(2)

# 파이썬, # 스파크, # SQL, # Structured SQL | RDD 를 파이썬에서 사용함에 속도 / 성능 측면에서 약간의 불편(?)을 경험 할 수 있다. 이전에 언급했듯, SQL API 를 이용하면 다른 언어들과 속적인 측면에서 크게 차이가 없다. 그래서, 파이썬에서 Structured Streaming SQL 을 구현하여 데이터를 가공하고, 이를 Kafka 와 연결하는 방법을 보여주려고 한다. 늘 말하지만,

brunch.co.kr

https://medium.com/@kass09/spark-streaming-kafka-in-python-a-test-on-local-machine-edd47814746

 

Spark streaming & Kafka in python: A test on local machine

Words count through Kafka

medium.com

 

 

https://hero0926.tistory.com/5

 

[스파크 기초 시리즈] 스파크 스트리밍

여태까지는 저장된 데이터를 가져다가 썼다. 그렇다면 이제는 (거의) 실시간으로 흐르는 데이터를 찾아 처리해보자. 혹시 여태까지의 rdd와 데이터셋에 대한 이해가 아직 잘 이루어지지 않았다면 넘어가셔도 좋다!..

hero0926.tistory.com

 

 

https://glow153.tistory.com/16

 

[Bigdata] Hadoop, Spark, Zeppelin 연동 시스템 구축

요즘 빅데이터를 공부할 때 Hadoop, Spark, Zeppelin을 사용하고 있다. Hadoop은 HDFS로써 데이터 저장소의 역할을 하고, Spark는 분석 엔진의 역할, Zeppelin은 인터페이스의 역할을 한다. 이들을 하나의 서버에..

glow153.tistory.com