BigData 172

IN() v.s. EXISTS v.s. INNER JOIN 성능 비교

* 대체로 쿼리하는 경우 1> 큰 테이블 > 작은 테이블 쿼리로 조인 및 서브 쿼리 실행. 2> 인덱스 위주의 쿼리 및 조건 주입 3> EXISTS 가 In() 보다는 퍼포먼스가 대체로 좋다. IN ()은 INNER JOIN 혹은 EXISTS로 변환 가능하다. http://jason-heo.github.io/mysql/2014/05/28/mysql-in-vs-exists-vs-inner-join.html MySQL의 IN() v.s. EXISTS v.s. INNER JOIN 성능 비교 연재 시리즈 일러두기 아래의 실험음 모두 MySQL 5.5 기반으로 실험되었습니다. MySQL Query Cache는 Off로 설정하고 실험되었습니다. Test에 사용된 Data는 TPC-H용 데이터입니다. TPC-H용 데..

BigData 2019.12.23

HDFS

https://m.blog.naver.com/PostView.nhn?blogId=alice_k106&logNo=220408254436&proxyReferer=https%3A%2F%2Fwww.google.com%2F 26. [Docker] 도커 컨테이너 기반의 하둡 클러스터 실행 - hadoop on docker 이 포스트는 http://tashan10.com/yong-dockerda-jian-hadoopwei-fen-bu-shi-ji-qun/ 에 기반해 작성되었습... blog.naver.com https://lsjsj92.tistory.com/438 도커(docker)에 하둡과 아파치 하이브(apache hive) 설치 및 배포 - 4 벌써 꽤 되었지만 지난 포스팅에서 도커(docker)에다가 cent..

BigData 2019.12.16

데이터 분석 사이트

http://www.some.co.kr/issue SOMETREND SomeTrend ISSUE 최근 온라인에서 화제가 되고 있는 실시간 트렌드 키워드, 이슈 뉴스, 떠오르는 해시태그를 확인할 수 있습니다. 최근 1개월 추이 그래프 www.some.co.kr https://www.data.go.kr/dataset/15012945/fileData.do 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr https://www.bigkinds.or.kr/ 빅카인즈(BIG KINDS)..

BigData 2019.12.13

Spark(Hadoop, Hive) & Airflow

** 간단하게 Airflow - Spark 예제 https://github.com/yansfil/grab-data-world yansfil/grab-data-world Single node ETL pipeline project. Contribute to yansfil/grab-data-world development by creating an account on GitHub. github.com https://www.slideshare.net/JoenggyuLenKim/spark-152302106 Spark로 알아보는 빅데이터 처리 Spark로 시작하는 빅데이터라는 주제로 사내세미나 진행했던 자료입니다. Spark를 활용한다면 그 동작구조를 명확하게 이해해야 된다고 생각합니다. www.slideshare..

BigData 2019.12.12

Apache Superset

https://megalohan.blogspot.com/2017/09/apache-supersetincubating.html Apache Superset(incubating) 정리 1. 소개 AirBnB에서 오픈소스(Apache2.0 라이센스)로 공개했다. Enterprise BI를 포지셔닝하고 있으며, 현재 Apache Incubating 프로젝트이다. Web Application 형태로 사용 가능, 여담으로 공개되... megalohan.blogspot.com https://medium.com/@sungmok.sohn/aws%EC%97%90%EC%84%9C-apache-superset%EC%9C%BC%EB%A1%9C-bi-%EA%B5%AC%EC%B6%95%ED%95%98%EA%B8%B0-1-ca12a..

BigData 2019.12.03

Hive

https://paulsmooth.tistory.com/133 [Hive] 파티션 종류 및 특징 Hive Partitioning Hive Partitioning 개요 Hive 파티셔닝의 개념은 RDBMS 와 크게 다르지 않다. 테이블을 하나 이상의 키로 파티셔닝 할 수 있으며, 이것은 각 테이블에 데이터가 얼마나 저장될 것이냐를 기준으.. paulsmooth.tistory.com https://graspthegist.com/post/useful-hive-query/ 하이브 스키마 직접 질의 • KY Ryu 하둡은 처리를 위해 읽고 쓰는 모든 데이터를 하둡 파일시스템 HDFS에 저장합니다. HDFS는 여타의 파일시스템처럼 파일에 대한 엄격한 스키마가 필요 없습니다. 스키마 생략은 곧 데이터를 쓰는 시점에 ..

BigData 2019.11.22