- Redshift는 클라우드에서 빠르고 강력하며 완벽하게 관리되는 페타바이트 규모의 데이터 웨어하우스 서비스입니다.
- 고객은 약정이나 선불 비용 없이 시간당 0.25달러의 비용으로 Redshift를 사용할 수 있으며 연간 테라바이트당 1,000달러에 페타바이트 이상으로 확장할 수 있습니다.
OLAP
OLAP은 온라인 분석 처리 시스템 에 의해 사용 적색편이 .
OLAP 트랜잭션 예:
디지털 라디오 제품에 대해 EMEA 및 태평양 지역의 순이익을 계산한다고 가정해 보겠습니다. 이를 위해서는 많은 수의 레코드를 가져와야 합니다. 순이익을 계산하는 데 필요한 기록은 다음과 같습니다.
- EMEA에서 판매된 라디오의 합계입니다.
- 태평양 지역에서 판매된 라디오의 합계입니다.
- 각 지역의 라디오 단가입니다.
- 라디오별 판매가격
- 판매 가격 - 단가
위에 제공된 레코드를 가져오려면 복잡한 쿼리가 필요합니다. 데이터 웨어하우징 데이터베이스는 데이터베이스 관점과 인프라 계층 모두에서 서로 다른 유형의 아키텍처를 사용합니다.
적색편이 구성
Redshift는 두 가지 유형의 노드로 구성됩니다.
단일 노드: 단일 노드는 최대 160GB를 저장합니다.
다중 노드: 다중 노드는 둘 이상의 노드로 구성된 노드입니다. 두 가지 유형이 있습니다.
클라이언트 연결을 관리하고 쿼리를 수신합니다. 리더 노드는 클라이언트 애플리케이션으로부터 쿼리를 수신하고 쿼리를 구문 분석하며 실행 계획을 개발합니다. 이는 컴퓨팅 노드를 사용하여 이러한 계획의 병렬 실행을 조정하고 모든 노드의 중간 결과를 결합한 다음 최종 결과를 클라이언트 애플리케이션에 반환합니다.
컴퓨팅 노드는 실행 계획을 실행한 다음 클라이언트 애플리케이션으로 다시 보내기 전에 집계를 위해 중간 결과를 리더 노드로 보냅니다. 최대 128개의 컴퓨팅 노드를 가질 수 있습니다.
예시를 통해 리더 노드와 컴퓨팅 노드의 개념을 이해해 봅시다.
Redshift Warehouse는 노드라고 알려진 컴퓨팅 리소스의 모음이며, 이러한 노드는 클러스터라는 그룹으로 구성됩니다. 각 클러스터는 하나 이상의 데이터베이스를 포함하는 Redshift 엔진에서 실행됩니다.
Redshift 인스턴스를 시작하면 160GB 크기의 단일 노드로 시작됩니다. 규모를 확장하려는 경우 추가 노드를 추가하여 병렬 처리를 활용할 수 있습니다. 여러 노드를 관리하는 리더 노드가 있습니다. 리더 노드는 컴퓨팅 노드뿐만 아니라 클라이언트 연결도 처리합니다. 컴퓨팅 노드에 데이터를 저장하고 쿼리를 수행합니다.
Redshift가 10배 더 빠른 이유
Redshift는 다음과 같은 이유로 인해 10배 더 빠릅니다.
Amazon Redshift는 데이터를 일련의 행으로 저장하는 대신 열별로 데이터를 구성합니다. 행 기반 시스템은 트랜잭션 처리에 이상적인 반면, 열 기반 시스템은 쿼리에 대규모 데이터 세트에 대해 수행되는 집계가 포함되는 경우가 많은 데이터 웨어하우징 및 분석에 이상적입니다. 쿼리에 포함된 컬럼만 처리하고 컬럼 형태의 데이터를 순차적으로 저장매체에 저장하기 때문에 컬럼 기반 시스템은 I/O 횟수가 적어 쿼리 성능이 향상된다.
열 기반 데이터 저장소는 유사한 데이터가 디스크에 순차적으로 저장되므로 행 기반 데이터 저장소보다 훨씬 더 많이 압축될 수 있습니다. Amazon Redshift는 다양한 압축 기술을 사용하며 기존 관계 데이터 저장소에 비해 상당한 압축을 달성할 수 있는 경우가 많습니다.
Amazon Redshift에는 인덱스나 구체화된 뷰가 필요하지 않으므로 기존 관계형 데이터베이스 시스템보다 공간이 덜 필요합니다. 빈 테이블에 데이터를 로드하면 Amazon Redshift는 자동으로 데이터를 샘플링하고 가장 적절한 압축 기술을 선택합니다.
Amazon Redshift는 자동으로 데이터를 배포하고 다양한 노드에 쿼리를 로드합니다. Amazon Redshift를 사용하면 데이터 웨어하우스에 새 노드를 쉽게 추가할 수 있으며, 이를 통해 데이터 웨어하우스가 성장함에 따라 더 빠른 쿼리 성능을 달성할 수 있습니다.
적색편이 기능
Redshift의 기능은 다음과 같습니다.
윈도우 명령어 arp
Redshift는 설정과 작동이 간단합니다. AWS 콘솔에서 몇 번의 클릭만으로 새로운 데이터 웨어하우스를 배포할 수 있으며 Redshift가 자동으로 인프라를 프로비저닝합니다. AWS에서는 백업, 복제 등 모든 관리 작업이 자동화되어 있으므로 관리가 아닌 데이터에 집중해야 합니다.
Redshift는 데이터를 S3에 자동으로 백업합니다. 재해 복구를 위해 다른 지역의 S3에 있는 스냅샷을 복제할 수도 있습니다.
Amazon Redshift는 사용한 만큼만 비용을 지불하면 되므로 가장 비용 효율적인 데이터 웨어하우스 서비스입니다.
비용은 약정이나 초기 비용 없이 시간당 0.25달러부터 시작하며 연간 테라바이트당 250달러까지 확장할 수 있습니다.
Amazon Redshift는 선불 비용 없이 온디맨드 가격을 제공하는 유일한 데이터 웨어하우스 서비스이며, 1~3년 기간을 제공하여 최대 75%를 절감하는 예약 인스턴스 가격도 제공합니다.
두 노드 중 하나를 선택하여 Redshift를 최적화할 수 있습니다.
고밀도 컴퓨팅 노드는 빠른 CPU, 대용량 RAM 및 솔리드 스테이트 디스크를 사용하여 고성능 데이터 웨어하우스를 생성할 수 있습니다.
비용을 줄이려면 고밀도 스토리지 노드를 사용할 수 있습니다. 더 큰 하드 디스크 드라이브를 사용하여 비용 효율적인 데이터 웨어하우스를 만듭니다.
Amazon Redshift는 필요 변경 사항에 따라 노드를 자동으로 확장하거나 축소합니다. AWS 콘솔에서 몇 번의 클릭이나 단일 API 호출만으로 데이터 웨어하우스의 노드 수를 쉽게 변경할 수 있습니다.
이는 Amazon S3에 있는 엑사바이트 규모의 데이터에 대해 쿼리를 실행할 수 있는 Redshift의 기능입니다. Amazon S3는 개방형 형식으로 무제한 데이터를 저장할 수 있는 안전하고 비용 효율적인 데이터입니다.
Redshift의 기능은 여러 쿼리가 Amazon S3의 동일한 데이터에 액세스할 수 있음을 의미합니다. 이를 통해 쿼리의 복잡성이나 데이터 양에 관계없이 여러 노드에서 쿼리를 실행할 수 있습니다.
Amazon Redshift는 데이터를 로드하지 않고 Amazon S3 데이터 레이크를 쿼리하는 데 사용되는 유일한 데이터 웨어하우스입니다. 이는 자주 액세스하는 데이터를 Redshift에 저장하고 구조화되지 않거나 자주 액세스하지 않는 데이터를 Amazon S3에 저장하여 유연성을 제공합니다.
몇 가지 매개변수 설정을 통해 Redshift가 SSL을 사용하여 데이터를 보호하도록 설정할 수 있습니다. 암호화를 활성화하면 디스크에 기록된 모든 데이터가 암호화됩니다.
Amazon Redshift는 쿼리를 수행하는 데 필요한 I/O 양을 줄이기 위해 열 형식 데이터 저장, 압축 및 병렬 처리를 제공합니다. 이렇게 하면 쿼리 성능이 향상됩니다.