Amazon Web Services
테라데이터 Vantage와 함께 AWS 인프라 사용
원래 원시 데이터 충실도 유지
데이터 레이크와 데이터 웨어하우스는 모두 디자인 패턴이지만 이 둘은 정반대입니다. 데이터 웨어하우스는 높은 동시성으로 품질, 일관성, 재사용 및 성능을 위해 데이터를 구조화하고 패키징합니다. 데이터 레이크는 새로운 형태의 분석 민첩성을 제공하면서 원래의 원시 데이터 충실도와 저렴한 비용으로 장기 저장에 중점을 둔 설계 패턴을 통해 웨어하우스를 보완합니다.
데이터 레이크 솔루션은 급증하는 데이터 볼륨에서 가치를 창출하고 이를 경제적으로 활용해야 하는 요구 사항을 충족합니다. 웹, 모바일, 연결된 장치 등 새로운 소스의 이 "다크" 데이터는 과거에는 종종 삭제되었지만 여기에는 귀중한 통찰력이 있습니다. 방대한 양과 새로운 형태의 애널리틱스로 인해 데이터를 관리하고 가치를 도출하는 새로운 방법이 필요합니다.
데이터 레이크는 모든 형태의 원시 데이터를 대규모로 캡처, 구체화 및 탐색하는 장기 데이터 컨테이너 모음입니다. 저비용 기술을 통해 데이터 마트, 데이터 웨어하우스 및 추천 엔진을 포함하는 여러 다운스트림 시설에서 활용할 수 있습니다.
선별되지 않은 데이터에서 얻은 통찰력
빅 데이터 트렌드 이전, 데이터 통합은 정보를 일종의 지속성(예: 데이터베이스)으로 표준화하여 가치를 창출했습니다. 이것만으로는 더 이상 기업의 모든 데이터를 관리하기에 충분하지 않으며, 모든 데이터를 구조화하려고 할 때 가치가 떨어집니다. 그렇기 때문에 다크 데이터가 데이터베이스에 거의 캡처되지 않더라도 데이터 과학자들은 종종 반복할 가치가 있는 몇 가지 사실을 찾기 위해 다크 데이터를 파헤칩니다.
새로운 형태의 애널리틱스
클라우드 시대는 새로운 형태의 애널리틱스를 탄생시켰습니다. Apache Hadoop, Spark 및 기타 혁신 기술 덕분에 절차적 프로그래밍 언어의 병렬화가 가능하게 되었고, 완전히 새로운 유형의 애널리틱스가 가능하게 되었습니다. 이러한 새로운 형태의 애널리틱스는 그래프, 텍스트, 머신 러닝 알고리즘과 같이 대규모로 효율적으로 처리하여 답을 얻은 다음, 해당 답변을 다음 데이터와 비교하는 식으로 최종 출력에 도달할 때까지 계속됩니다.
기업 메모리 보존
장기간 사용되지 않은 데이터를 아카이브하면 데이터 웨어하우스의 저장 공간을 절약할 수 있습니다. 데이터 레이크 설계 패턴이 등장하기 전까지 고성능 데이터 웨어하우스나 오프라인 테이프 백업 외에는 가끔 액세스하기 위해 콜드 데이터를 저장할 수 있는 곳이 없었습니다. 사용자는 가상 쿼리 도구를 사용하여 단일 쿼리를 통해 데이터 웨어하우스의 웜 데이터 및 핫 데이터와 함께 콜드 데이터에 쉽게 액세스할 수 있습니다.
데이터 통합에 대한 새로운 접근 방식
업계는 데이터 변환 비용을 최대한 줄이는 방법에 대해 완전히 이해하게 되었습니다. 데이터 레이크 솔루션은 기존 ETL(추출, 변환, 로드) 서버보다 저렴한 비용으로 더 큰 확장성을 제공합니다. 모범 관행을 채택한 조직은 각각 고유한 기능과 경제성이 있기 때문에, 데이터 레이크, 데이터 웨어하우스 및 ETL 서버 전반에 걸쳐 수백 개의 데이터 통합 작업을 재조정하고 있습니다.
표면적으로는 단순해 보입니다. 데이터 레이크는 방대한 양의 정형 및 비정형 데이터를 관리하고 활용하는 방법을 제공하는 것처럼 보입니다. 그러나 이는 보이는 것처럼 단순하지 않으며 실패한 데이터 레이크 프로젝트는 여러 유형의 산업 및 조직에서 드문 일이 아닙니다. 모범 사례가 아직 나오지 않아 초기 프로젝트는 어려움에 직면했습니다. 지금은 견고한 디자인의 부족이 데이터 레이크의 모든 가치를 제공하지 못하는 주된 이유입니다.
데이터 사일로 및 클러스터 확산
데이터 레이크는 진입 장벽이 낮고 클라우드에서 임시로 수행할 수 있다는 인식이 있습니다. 이로 인해 동기화 문제뿐만 아니라 두 개의 레이크가 연결되지 않는 중복 데이터 및 불일치 문제가 발생합니다.
최종 사용자 채택 부족
사용자는 프리미엄 코딩 기술이 필요하거나 데이터 건초 더미 내에서 필요한 바늘을 찾을 수 없기 때문에 데이터 레이크에서 답변을 얻는 것이 너무 복잡하다는 인식을 가지고 있습니다.
제한된 상용 기성 도구
많은 공급업체는 Hadoop 또는 클라우드 객체 스토어에 연결한다고 주장하지만 해당 제품에는 긴밀한 통합이 부족하고 이러한 제품의 대부분은 데이터 레이크가 아닌 데이터 웨어하우스용으로 구축되었습니다.
데이터 액세스에 대한 상충되는 목표
엄격한 보안과 애자일한 액세스를 유지하기 위해 균형 조정이 필요합니다. 모든 이해 관계자를 보조하는 계획과 절차를 마련해야 합니다.
디자인 패턴은 성공적인 구현을 가이드하는 일련의 워크로드 및 기대치를 제공합니다. 기술과 경험이 성장함에 따라 선도적인 공급업체가 구현에 대한 합의 및 모범 사례를 갖출 수 있도록 아키텍처 및 해당 요구 사항이 진화했습니다. 기술도 중요하지만 기술과 독립된 디자인 패턴이 가장 중요합니다. 데이터 레이크는 여러 기술을 기반으로 구축될 수 있습니다. Hadoop Distributed File System (HDFS)은 대부분의 사람들이 가장 먼저 생각하는 것이지만 필수적이지는 않습니다.
만연한 데이터 인텔리전스를 위한 플랫폼인 테라데이타 Vantage는 고객 데이터 내의 정보를 활용하도록 설계되었습니다. 테라데이타 서비스 팀은 데이터 레이크 및 Hadoop, Cassandra와 같은 기술 및 Amazon S3, Azure Blob과 같은 객체 스토어의 많은 혜택을 활용하는 데 능숙합니다.