제목 지향
조직이 매일 작업하는 비즈니스 엔터티 및 프로세스를 반영합니다. 세부 사항 영역의 세부 수준은 중요한 것입니다: 자세한 데이터가 있는 경우 데이터 웨어하우스입니다. 요약 또는 제한된 데이터만 있는 경우 데이터 마트입니다.
클라우드 데이터 웨어하우스의 진화
테라데이터의 데이터 웨어하우스
데이터 웨어하우징:
분석 재단
데이터 웨어하우스는 시간이 지남에 따라 통합되고 일관되며 상세한 데이터를 추적하여 메타데이터와 스키마를 사용하여 관계 관계를 구축하는 설계 패턴 또는 데이터 아키텍처입니다.
데이터 웨어하우스의 기원
데이터 웨어하우스 개념은 배리 데블린과 폴 머피가 IBM 시스템 저널에 획기적인 논문을 발표하면서 1988년에 시작되었습니다. 그들의 비전은 빌 인몬과 랄프 킴볼이 1990년대 초에 제공한 데이터베이스 구현에 대한 보다 구체적인 정의의 필요성을 촉발시켰으며, 가트너는 2005년에 정의를 더욱 명확히 했습니다. 이제 주제에 대한 모든 토론에는 클라우드내에서 또는 온-프레미스 및 클라우드를 하이브리드 방식으로 구현하는 방법 또는 위치도 포함됩니다.
데이터 웨어하우스는 테이블 모음이 아니거나 테라바이트단위로 측정됩니다. 그것은 디자인 패턴, 많은 특성을 가진 데이터 아키텍처:
통합 및 일관성
데이터 형식과 값은 사용자가 이해할 수 있는 완전하고 정확한 데이터를 보장하기 위해 모든 테이블에서 표준화됩니다. 데이터에는 무결성(예: 해당 고객 기록 없이는 웨어하우스구매 트랜잭션이 없어야 합니다).
시간 변형 및 비휘발성
웨어하우스는 데이터 변경 내용을 캡처하고 시간이 지남에 따라 데이터 변경을 추적합니다. 모든 데이터는 유지되며 트랜잭션 업데이트로 변경되지 않습니다. 기존, 하이브리드 또는 클라우드이든 데이터 웨어하우스는 가장 의미 있는 데이터의 "회사 메모리"입니다.
메타데이터, 스키마 및 데이터 사전
일반적으로 조직은 고객에 대해 알고 있는 모든 것을 캡처합니다(예: 영업 거래). 그런 다음 이러한 트랜잭션은 고객과 연결되어 제품 설명, 재고, 자재 청구서, 지원 레코드 및 마케팅 캠페인과의 연결로 이어집니다. 제목 영역은 열 헤더및 데이터 행이 있는 스프레드시트와 같은 관계형 테이블로 구성됩니다. 해당 열의 값에 대한 컨텍스트를 설명하기 때문에 메타데이터라고 하는 열 헤더에는 필드 이름과 날짜, 통화, 시간, 정수기 및 텍스트와 같은 데이터 형식이 포함됩니다. 저장된 모든 레코드에는 임의의 직접 액세스를 허용하는 키 필드가 하나 이상 있습니다. 모든 테이블 정의인 메타데이터(메타데이터)를 함께 스키마라고 하며 데이터 사전에 저장됩니다. 완전히 구축된 전체 데이터 웨어하우스는 토픽 영역별로 구성된 4,000~7,000개의 관계형 테이블입니다.
데이터는 데이터 웨어하우스에 어떻게 유입됩니까?
데이터 소스
이러한 모든 데이터를 통합하고 주제 영역에 통합하는 200개 또는 500개의 다른 응용 프로그램이 웨어하우스에 데이터를 전송하는 것은 드문 일이 아닙니다. 웨어하우스는 엔터프라이즈 리소스 계획(ERP), CRM(고객 관계 관리), 공급망 관리(SCM)와 같은 애플리케이션에서 입력됩니다. 웹 페이지의 마우스 클릭으로 인한 클릭스트림 데이터는 기계 차량의 센서 데이터와 마찬가지로 다른 소스입니다. 또한 행과 열을 따르지 않지만 데이터 웨어하우스에서 캡처되는 JSON(자바스크립트 개체 표기)과 같은 구조화되지 않은 데이터도 있습니다.
데이터 웨어하우징 및 데이터 로드
그런 다음 대부분의 구현에 대해 하루 종일 연속 프로세스로 데이터 웨어하우스에 데이터가 로드됩니다. 데이터 로드는 로드 작업이 실패하는 데 필요한 모든 복구 처리로 인해 주로 관계형 데이터베이스 계산 시간의 무거운 소비자입니다.
비즈니스 사용자에게 데이터를 제공하는 비즈니스 목적에 대한 데이터 로딩 segues: 통찰력을 얻고 비즈니스 문제에 대한 답변을 찾는 것입니다. 데이터 과학자들은 패턴과 이상을 찾기 위해 대량의 데이터에 고급 수학을 적용합니다. 다차원 분석은 모든 데이터가 매우 요약되어 지역별 롤업을 빠르게 검토할 수 있도록 하는 곳입니다( 예: 지역, 도시, 영업 사원 및 판매된 제품) 등이 있습니다. 임원 및 비즈니스 분석가(또는 "시민 데이터 과학자")는 시각화가 적용된 보고서와 대시보드를 사용하여 관리되는 데이터의 출처인 데이터 웨어하우스를 사용합니다.
데이터 웨어하우징 및 데이터 통합 단계
데이터가 데이터 웨어하우스 데이터베이스로 전환되기 전에 여러 소스의 데이터를 단일 결과로 합리화하는 복잡한 프로세스인 데이터 통합 단계를 통과합니다. 원래 는 데이터를 원본에서 가져와서 정제한 다음 데이터 웨어하우스 관계형 테이블에 로드해야 했기 때문에 추출, 변환 및 로드(ETL)라고 불렸습니다.
데이터 정리
최신 통합 프로세스에는 손상되거나 부정확한 레코드를 감지하고 수정하는 데이터 정리가포함됩니다. 때로는 나쁜 데이터가 레코드에 들어가거나 하드웨어 손상이 발생하며 때로는 간단한 인적 오류가 잘못될 수 있습니다. 데이터 통합 작업은 여러 응용 프로그램의 가장 정확하고 가장 완벽한 데이터를 웨어하우스에 저장된 깨끗하고 신뢰할 수 있는 "골든 레코드"로 결합합니다.
테라데이터 데이터 웨어하우스
테라데이트는 창립 이래 분석 데이터베이스와 데이터 웨어하우징의 진화에 핵심적인 영향을 해왔습니다. 실제로 테라데이터 데이터베이스(이전의 테라데이터 데이터베이스)로 알려진 테라데이터 Vantage와 테라데이데이터가 데이터 웨어하우징에 사용하는 접근 방식은 통신, 미디어 및 엔터테인먼트, 금융 서비스, 의료 및 생명 과학, 소매, 유틸리티, 제조, 여행 및 운송 등 고객의 주요 산업 으로 부상하는 데 핵심적인 부분입니다.
클라우드 데이터 웨어하우스 및 테라데이터 밴티지
테라데이데이터와 업계 는 클라우드 배포와 확장성의 이점을 통합하기 위해 발전했습니다. 회사의 주력 제품인 Teradata Vantage는 테라데이터 데이터베이스의 강력한 기반을 구축하고 2011년에 Aster Data를 통해 획득한 고급 분석 기능을 통합합니다.
Vantage는 아마존 웹 서비스(AWS), 마이크로소프트 Azure, Google 클라우드, 테라데이터 인프라(테라데이터 클라우드 또는 고객 클라우드), VMware 가상화 소프트웨어를 실행하는 상품 하드웨어에서 사용할 수 있습니다.