Hive는 구조화된 데이터를 분석하는 데 사용되는 데이터 웨어하우스 시스템입니다. Hadoop을 기반으로 구축되었습니다. 페이스북에서 개발했습니다.
Hive는 분산 스토리지에 있는 대규모 데이터 세트를 읽고, 쓰고, 관리하는 기능을 제공합니다. 내부적으로 MapReduce 작업으로 변환되는 HQL(Hive 쿼리 언어)이라는 쿼리와 같은 SQL을 실행합니다.
Hive를 사용하면 복잡한 MapReduce 프로그램을 작성하는 기존 접근 방식의 요구 사항을 건너뛸 수 있습니다. Hive는 DDL(데이터 정의 언어), DML(데이터 조작 언어) 및 UDF(사용자 정의 함수)를 지원합니다.
하이브의 특징
Hive의 다음 기능은 다음과 같습니다.
- Hive는 빠르고 확장 가능합니다.
- 이는 암시적으로 MapReduce 또는 Spark 작업으로 변환되는 SQL과 유사한 쿼리(예: HQL)를 제공합니다.
- HDFS에 저장된 대규모 데이터 세트를 분석할 수 있습니다.
- 일반 텍스트, RCFile 및 HBase와 같은 다양한 스토리지 유형을 허용합니다.
- 인덱싱을 사용하여 쿼리를 가속화합니다.
- Hadoop 생태계에 저장된 압축 데이터에서 작동할 수 있습니다.
- 사용자가 해당 기능을 제공할 수 있는 사용자 정의 함수(UDF)를 지원합니다.
하이브의 한계
- Hive는 실시간 데이터를 처리할 수 없습니다.
- 온라인 거래 처리용으로 설계되지 않았습니다.
- Hive 쿼리에는 대기 시간이 높습니다.
하이브와 돼지의 차이점
하이브 | 돼지 |
---|---|
Hive는 일반적으로 데이터 분석가가 사용합니다. | Pig는 프로그래머가 일반적으로 사용합니다. |
SQL과 유사한 쿼리를 따릅니다. | 데이터 흐름 언어를 따릅니다. |
구조화된 데이터를 처리할 수 있습니다. | 반구조화된 데이터를 처리할 수 있습니다. |
HDFS 클러스터의 서버 측에서 작동합니다. | HDFS 클러스터의 클라이언트 측에서 작동합니다. |
Hive는 Pig보다 느립니다. | Pig는 Hive보다 비교적 빠릅니다. |