BigData 172

Hive Sql (Join 및 최적화)

https://kimeunyeol.tistory.com/34 HIVE SQL - JOIN 이해(공식문서) Hive Joins Hive Joins Join Syntax Examples MapJoin Restrictions Join Optimization Predicate Pushdown in Outer Joins Join Syntax Hive에서 제공하는 Join구문 join_table: table_reference [INNER] JOIN ta.. kimeunyeol.tistory.com http://fantasio.life/2021/06/16/hive-join-tip/ (hive) 조인 관련 tip 정리 · Keep going.. 힌트 존재 - 어떤 테이블을 마지막으로 흘려보낼야 하는지 지정해준다. /*..

BigData 2022.04.16

Avro

https://luran.me/352 Avro 개요 Avro란? Avro는 데이터 직렬화와 관련된 시스템이다. 한국 개발자들은 /에이브로/라고 발음하곤 하지만, 외국 개발자 커뮤니티에서는 주로 /아브로/라고 발음하고 있다. Avro는 JSON 형태로 기록한다. luran.me https://devidea.tistory.com/113 [Kafka] Avro Consumer의 GenericRecord schema 이번 글에서는 KafkaAvroDeserializer를 사용한 컨슈머에 대해서 이야기하려고 한다. KafkaAvroDeserializer를 사용했다는 것은 Schema-Registry(이하 스키마 레지스트리)를 사용했다는 의미이다... devidea.tistory.com https://cloud.g..

BigData 2022.04.16

kafkacat & Kafka Lag exporter

https://blog.advenoh.pe.kr/cloud/kafkacat-%EC%82%AC%EC%9A%A9%EB%B0%A9%EB%B2%95-%EB%A9%94%EC%8B%9C%EC%A7%80-%EB%B3%B4%EB%82%B4%EA%B3%A0-%EB%B0%9B%EA%B8%B0-%ED%85%8C%EC%8A%A4%ED%8A%B8/ kafkacat 사용방법 (메시지 보내고 받기 테스트) 은 아파치 카프카를 쉽게 테스트하고 디버깅하는데 유용하게 사용할 수 있는 도구이다. 명령어를 통해서 메시지를 보내고 받거나 메타데이터 목록을 확인할 수 있다. 기본적인 사용방밥에 대해 blog.advenoh.pe.kr kcat -b pricing.net -t new -C -o end -f '\nKey (%K bytes): %k\..

BigData 2022.03.08

EDA

https://jalynne-kim.medium.com/%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-%EA%B8%B0%EC%B4%88-eda%EC%9D%98-%EA%B0%9C%EB%85%90%EA%B3%BC-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D-%EC%9E%98-%ED%95%98%EB%8A%94-%EB%B2%95-a3cac2cc5ebc [데이터분석 기초] EDA의 개념과 데이터분석 잘 하는 법 오늘 포스팅 주제는 ‘데이터분석 기본 — EDA(Exploratory Data Analysis, 탐색적 데이터 분석)에 관하여 #데이터전처리 #결측치 #pandas’ 이다. jalynne-kim.medium.com

BigData 2022.03.07

Spark 3.0

https://dalsacoo-log.tistory.com/entry/Spark-30-%ED%95%9C-%EB%B2%88%EC%97%90-%EC%A0%95%EB%A6%AC%ED%95%98%EA%B8%B0 Spark 3.0 한 번에 정리하기 Overview 본 포스트는 Spark Release 3.0 공식 페이지의 Jira 티켓을 참고하여 작성하였습니다. Spark 3.0에서 향상된 기능은 Structed streaming, MLlib의 library, SQL, DataFrame의 API에도 영향을 미침 최적화.. dalsacoo-log.tistory.com https://lightningdb.io/blog/2020/10/apache-spark-3.0-review.html Lightning DB - DRA..

BigData 2022.02.21

Redis HyperLogLog - Unique Data Check

https://minholee93.tistory.com/entry/Redis-HyperLogLog [Redis] HyperLogLog 이번 글에서는 redis의 unique count 기능인 HyperLogLog에 대해 알아보겠습니다. 1. HyperLogLog란? 효율적인 unique item count 기능을 제공해주는 기능입니다. 예를 들어 아래와 같이 특정 사이트에 방문자수를 minholee93.tistory.com https://tmdahr1245.tistory.com/119 [Redis] HyperLogLog [HyperLogLog란] HyperLogLog(hll)은 간단히 말하면 중복제거된 값을 매우 적은비용과 매우 빠른 속도로 계산하는데 사용하는 확률적 자료구조이다. 대용량의 데이터에서 중..

BigData 2021.11.11