업계 동향

[후기][Red Hat X Cloudera] 데이터 라이프 사이클 가속화 전략 세미나

Sencia 2021. 3. 19. 18:03
반응형

이 세미나는 TalkIT를 통해 진행되었고 결론적으로 얘기하자면 두 회사의 협업 솔루션을 홍보하는 용도였다. 

어떤 방식으로 협업했고 어떤 범주까지 지원이 되는지 위주로 1시간 가량 세미나를 온라인으로 들었다. 

 

Cloudera가 CDP 통합 이후 어떤 방향으로 나아갈 것인지 방향성을 어느정도 볼 수 있다. 

제품 설명만큼 실제로 제공된다면 좋은 솔루션인 것 같다. 

 

본 블로그에 사용된 모든 ppt 이미지는 해당 세미나에서 발췌한 내용이다. 

(주소: talkit.tv/Event/2506

 

 

Red Hat / OPENSHIFT

 

cri-o

docker와 비슷하게 컨테이너 기술 
세계 컨테이너 기술의 표준(OCI기술)
docker와 완벽한 호환성(명령어는 상이하나 1:1 매핑 가능) 
격리 기술을 통해 높은 보안성 제공 
docker가 일부 유료전환을 하려고 해서 오픈소스로 만든 것 
GPL 라이센스 
최근 성장하고 있음 

 

OPENSHIFT

레드햇의 솔루션인 openshift는 cri-o와 k8s를 결합하여 만들었다. 

cri-o를 오케스트레이션하는 역할로 k8s를 사용한다. 

 

 

쉽게 설정하자면 컨테이너 기술과 k8s를 이용한 개발/운영을 편리하게 사용하기 위한 ALM 도구이다.

 

 

 

 

이 OPENSHIFT를 자세히 보자면 여러 개의 레이어로 구성되어있다. 

 

- 오케스트레이션: k8s 

- 컨테이너: cri-o 

- 모니터링: Prometheus

- 시각화: Grafana 

- 오토 스케일링: Hawkular, Heapster, Cassandra 

- 로깅: Elasticsearch, Fluendtd, Kibana 

- 개발도구: Jenkins, Eclipse Che, VS Code, Git 

 

 

 

On-premise의 단점을 탈피하고자 많은 기업들이 Public cloud로 이관하고 있으나 

높은 확률로 on-premise 환경도 같이 운영하게 되고는 한다. 

아무래도 public cloud의 경우 보안에 대한 이슈도 존재하고 on-premise 환경의 장점도 있기 때문일 것이다. 

 

따라서 둘다 운영하는 Hybrid 인프라 방식이 많은데 운영자는 그대로고 플랫폼이 여럿이면 관리 포인트가 많아진다.

이 가려운 부분을 긁어주는 것을 목표로 Red Hat에서 OPENSHIFT를 개발한 것으로 보인다. 

 

한 페이지에서 온/오프라인 인프라를 관리하는 툴이다.

 

 

 

 

아마 이런 관리툴은 자체 개발한 회사도 있을 것이라 생각되는데 OPENSHIFT의 강점은 각 서비스의 버저닝과 업데이트에 대한 고민을 줄여준다고 한다. 

예를 들어 처음 구축시에는 잘 동작했으나 Elasticsearch 업데이트로 다른 서비스와 호환이 되지 않는다던가의 상황이다. 

 

세미나에서 계속 강조한 부분은 "Multi-tenant"였다. 

이후 Q&A 세션에서도 이 멀티 테넌트와 관련한 질문들이 많았다.

 

 

 

 

 

기업들이 k8s로 DIY PaaS를 구축하다가 실패한 사례들을 들며 버저닝과 운영의 강점에 대해 어필했다. 

Red Hat에서 설치까지는 무료이고 기술지원은 유료라고 하는데 세미나를 들으면서도 갸우뚱하긴 했다. 

 

기능 상으로는 좋아보이지만 실제 적용했을때 어느 정도의 퍼포먼스를 내고 효용성이 있는지 확인할 수 있으면 좋을 것 같은데 말이다.  

 

 

 

k8s는 현재 굉장히 핫한 프로젝트이기 때문에 버전업이 거의 3개월에 한번씩 이루어지고 있다. 

OPENSHIFT의 경우 k8s가 오픈소스이다 보니 보안이나 안정성 면에 대해 1-3개월간 자체 검증 후 적용한다고 한다. 

 

 

이 부분에 대해서는 많이 공감했다. 

기존 on-premise 환경만으로는 신규 기술들을 테스트하기도 마땅치 않기 때문이다. 

 

테스트 클러스터를 보유하는 것도 기업에서 빅데이터에 관심을 갖고 투자를 해주어야 가능하다. 

 

 

 

결론은 OPENSHIFT를 사용하면 아래와 같은 장점이 있다고 한다. 

 

- 작업에 따라 컨테이너를 할당받아 구동하므로 기존 서버의 효율성보다 높일 수 있다. 

- 하이브리드로 운영하여도 관리포인트가 적다. 

- 각 서비스들의 버저닝으로 인한 충돌들도 관리해준다. 

 

Cloudera / CDP private cloud 

 

 

다음 세션은 cloudera의 CDP private cloud였습니다. 

 

 

 

public cloud와 private cloud 정보계 + 분석계를 openshift 기반으로 제공한다. 

 

SDX(shared data experience) 

데이터에 대한 경험을 공유하는 것 
하나의 데이터를 관리하는 거버넌스 레이어를 여러 서비스가 공유하여 사용 

 

Ozone

Ozone 클라우드 지향성으로 어플리케이션을 만들면 object storage가 필요 
문제는 on premise에서 object storage가 안됨. 그래서 apache ozone을 사용 
hdfs 물리적 한계는 3.5억개까지만 파일시스템 핸들링되는데 오존은 10배까지 가능
hdfs는 작은 파일로 문제가 생기는데 ozone는 그런 문제가 없음
& 하이브리드로 하면 public cloud로 생성된 데이터를 on-premise로 내리려면 ozone이 필요
동일한 api를 사용하기에 코드수정을 안해도 on-premise로 데이터 내리기가 수월함 
아키텍처를 유연하게 해주는 역할 
기존 hdfs 레슨런과 노하우가 모인 상태에서 ozone 프로젝트가 시작함 

 

 

구조적으로 OpenShift와 같이 제공하고 Data Lake 구성까지 포함되어있다. 

 

 

 

 

CDP 기반으로 데이터플랫폼팀이 직면한 5개의 문제를 어떻게 해결? 

1) 시끄러운 이웃 
컨테이너 클라우드에서 영역을 아예 분리하므로 
on-premise에서는 잡들가에 굉장히 영향이 많이 끼치는데 
처음부터 예측가능한 성능으로 SLA 보장하므로 

2) 복잡한 업그레이드 해결 
운영자 => 안정적인 운영하려면 업그레이드가 부담스러움 
분석자 => 최신버전을 선호 

업그레이드가 부담스러움 
컨테이너로 하면 각각 테넌시별로 업그레이드 가능 

virtual warehouse는 내부적으로 openshift가 자원을 요청하고 사용완료후에 반납함 
안정적으로 할 수 있다는 점 

spark를 돌리려면 하둡이 있어야하죠 
근데 하둡클러스터가 없다면 ... CDP에서 ML서비스는 spark 코드가 실행되는 시점을 spark on k8s로 자동으로 만들어줌 
코드종료되면 자원을 스스로 반환함 
서버리스와 유사한 개념  => 인프라 관점에서 물리적인 인스턴스없이 펑션 레벨로만 가능 

3) 데이터 사일로나 부가적 데이터 복제없이 성능 제공 

산제되어 있는 데이터를 하나로 합치는 것 

4) 향상된 인프라 활용도 기반 비용 효율성 제고 

퍼블릭쓰려면 효율성 중요. 비용으로 이어지기 떄문 
이걸 막기 위해 오토스케일/자동 일시중지같은 기능 제공 

모두 openshift 기반 제공 

5) 온보딩 단순화로 신속한 가치 실현 시간 제공 

public cloud에서도 보안적으로 안전한 환경을 구축하려면 개발자들이 클라우드마다 해야함 
원래는 프로젝트인데 이걸 단순 프로비져닝 기능으로 보안성을 제공함

 

 


[결론]

- 운영 편의성 / 견고한 서비스 제공 / 비용 절감 

테넌트 분리가 안되어있고 물리적 클러스터로 분리되어있으면 데이터가 중복된 경우 많음 
대용량인 경우 옮기는 비용도 높음 

1) 과거 대비 몇달 걸릴 작업을 몇분으로 줄인다.

2) 테넌트 분리하므로 내가 돌리는 서비스의 품질을 예상할 수 있음 

3) 예전보다 많은 투자를 해야하나 실제로 운여해보면 전체 서버 대수 줄고 큰 효율성을 줄 수 있어 
인프라 측면에서 우월하다 

 

Q&A 세션

cri-o에서 docker의 모든 명령어 가능? 
A. 명령어는 다르고 1:1 매핑될 정도로 비슷한 기능들은 제공 

open shift가 랜쳐와 연동이 가능? 
A. 서비스 레이어가 표준화되어있다면 쉐어는 가능 

redhat이 금융 금융권과 접목한다면 장점이?
A. 최근 정보계와 코어서비스를 옮기려는 움직임
코어서비스쪽 데이터를 분석하려는 니즈가 필요하기 때문

CDP private cloud에서 컨테이너 클라우드 기반 테넌트를 효과적으로 관리하는 방법 ? 
A. 대량의 on-premise 운영중이고 층간소음이 있었는데 도입 후 격리된 자원으로 사용하면서 
업무 효율이 높아진 케이스가 있음. 

DW와 연동되는 Data lake 환경도 제공해주는가? 
A. 제공됨. 환경이 CDP private cloud 가 베이스가 되고 SDX라는 환경이 밑단 base cluster + storage layer 
대부분 AI/ML 서비스 제공시 데이터는 정형데이터가 많음
비정형 데이터가 어려운 이유는 파일마다 타입도 사이즈도 다르기 떄문에 파일의 개수가 많아 기존 hdfs는 핸들링이 어려움 
이걸 해결하기 위해 ozone을 사용 

DL을 public, DW는 private에 두는 하이브리드가 낫지않냐? 
A. 데이터가 어디에서 파생되는지가 더 중요. 
public 환경에서 태어난 데이터를 사용하는 기업도 있고 일부만 사용하는 기업도 있음. 
데이터 태생과 성격에 따라 플랫폼을 달리 두는게 좋음 

기업에서 CDP를 통한 인사이트 효과를 보려면 개발, 현업의 협업이 필요한데 클라우데라의 이점은?
A. 엔지니어와 현업자의 language가 다름
엔지니어가 익숙한 플랫폼은 클라우데라가 익숙할 것이고 현업자는 BI나 분석가가 사용하는 코딩기반 BI업체 인수해서 BI reporting을 녹이고 있음

BI + 엔지니어 + 분석 => 동일한 시각화 기법을 갖고 사용할 수 있도록 제품에서 제공 

openshift 장애가 발생할 경우 커버 범위? 
A. 정책은 플랫폼은 무료고 기술지원료는 유료 
온라인 기술지원은 제공하고 상주도 가능 

반응형

'업계 동향' 카테고리의 다른 글

[2018][ifkakao] 무정지, 무점검 서버개발  (0) 2021.03.22