BigData

Apache Hudi

Kyle79 2020. 5. 19. 10:47

 

 

https://cce199.tistory.com/59

 

apache hudi 소개

hudi 소개(간단함) hudi는 현재 apache incubator project로서 "big data에 스트림 처리를 제공하며, 기존 batch보다 나은 최신데이터를 제공한다" 라고 나와있습니다. 말이 좀 어려울수도 있는데 hudi에 이름에

cce199.tistory.com

 

 

https://docs.aws.amazon.com/ko_kr/emr/latest/ReleaseGuide/emr-hudi.html

 

Hudi(인큐베이팅) - Amazon EMR

Hudi(인큐베이팅) Apache Hudi는 증분 데이터 처리 및 데이터 파이프라인 개발을 간소화하는 데 사용되는 오픈 소스 데이터 관리 프레임워크로서 레코드 수준의 삽입, 업데이트, Upsert 및 삭제 기능을

docs.aws.amazon.com

 

 

 

https://aws.amazon.com/ko/blogs/korea/new-insert-update-delete-data-on-s3-with-amazon-emr-and-apache-hudi/

 

Amazon EMR, Apache Hudi 추가를 통해 개별 레코드 수준 데이터 관리 기능 출시 | Amazon Web Services

Amazon S3에 데이터를 저장하면 규모 조정, 신뢰성 및 비용 효율 면에서 많은 이점이 있습니다. 그 뿐 아니라, Amazon EMR을 활용할 수 있으므로 Apache Spark, Hive 및 Presto와 같은 오픈 소스 도구를 사용��

aws.amazon.com

 

 

https://olivermascarenhas.com/2020-04-13-building-analytical-datalake-with-apache-spark-and-apache-hudi/

 

Building an analytical data lake with Apache Spark and Apache Hudi - Part 1

Using Apache Spark and Apache Hudi to build and manage data lakes on DFS and Cloud storage.

olivermascarenhas.com

 

 

https://cce199.tistory.com/m/67

 

apache hudi 적용해서 aws 에서 glue metastore 기반 테이블만들기

이전에 소개드린데로 apache hudi가 EMR에 적용이 되었고 예제는 https://aws.amazon.com/ko/blogs/korea/new-insert-update-delete-data-on-s3-with-amazon-emr-and-apache-hudi/에 잘 나와있습니다. 여기에 glue..

cce199.tistory.com

 

 

medium.com/swlh/query-hudi-dynamic-dataset-in-aws-s3-data-lake-with-athena-d60984fc007

 

Query Hudi Dynamic Dataset in AWS S3 Data Lake With Athena

Background

medium.com

 

 

 

'BigData' 카테고리의 다른 글

Apache beam  (0) 2020.05.19
Data Lineage  (0) 2020.05.19
argo  (0) 2020.05.15
kubeflow  (0) 2020.05.15
Redis rq  (0) 2020.05.10