GDG Seoul, GDG Cloud Korea, 그리고 GDSC와 함께하는 I/O Extended 2023 Seoul이 7월 29일 토요일 코엑스에서 열렸다. Google I/O 2023의 주요 내용 뿐 아니라 Google Cloud, Tensorflow, Android, Flutter, Go 등 구글 기술들에 대한 다양한 세션들을 들을 수 있는 행사로 총 3개의 트랙으로 운영되었다. 각 트랙에 따라 연설 내용은 달랐으며, 트랙 1의 경우 안드로이드 개발 툴의 소개와 Dagger Hilt, Flutter, Go 등이 있었고, 트랙 2에서는 데이터 베이스, Google Cloud에 관해서, 트랙 3는 Tensorflow나 생성형 AI, LLM 등 AI 분야를 중점적으로 다뤘다고 볼 수 있다. 평소 관심있던 분야인 데이터 베이스, 클라우드 등과 관련된 트랙 2를 선택하여 연설을 들었고 상세한 내용은 다음과 같다.
‘세상의 모든 데이터베이스 이야기’ 세션은 데이터베이스의 역사와 현대 데이터베이스 시스템의 발전에 대한 흥미로운 내용을 다루었다.
오라클의 트랜잭션 라인과 데이터 일관성
세션에서 오라클의 트랜잭션 라인(Transactional Line)에 대한 이야기를 들을 수 있었다. 엘비 레이 스미스(Alvy Ray Smith)는 데이터베이스가 ACID(Atomicity, Consistency, Isolation, Durability) 원칙을 준수해야 한다는 중요성을 강조하였고, 오라클은 이를 지원하였다. 또한, MVCC(Multi-Version Concurrency Control) 모델을 통해 데이터 일관성과 동시성을 유지하며 오라클은 데이터베이스의 성능을 높이는 데 집중하였다. 트랜잭션 라인이 한 바퀴 돌아버리는 상황을 방지하기 위해 큐(Queue)를 활용하고, 구글 스패너(Google Spanner)는 지구를 하나로 묶을 수 있는 강력한 기능을 제공하면서 세계적인 데이터베이스 시스템의 발전에 기여하였다.
스키마리스 데이터베이스 모델
스키마리스(Schemaless) 데이터베이스의 개념과 특징도 소개되었다. 스키마리스는 데이터에 대한 정의를 개발자가 직접 만들어나가는 형태로, 유연한 데이터 구조를 지원하여 개발 과정을 간소화하고 데이터 모델을 유동적으로 변경할 수 있게 해준다. 또한, 전통적인 관계형 데이터베이스와 달리 데이터의 구조와 형식을 미리 정의하지 않고도 데이터를 저장하고 관리할 수 있는 방법을 제시하였다.
다양한 데이터베이스 서비스와 선택지
다양한 데이터베이스 서비스에 대한 논의도 이루어졌다. 인서트(Insert) 작업에 특화된 데이터베이스 시스템과 메모리 기반의 데이터베이스 서비스는 다양한 용도에 활용되며, 캐시(Cache)를 활용한 성능 최적화가 주요한 고려 사항 중 하나로 소개되었다. 또한, 대용량 데이터 처리를 위한 여러 가지 서비스 선택지와 새로운 디비(데이터베이스) 모델의 존재도 언급되었다.
본 세션에서는 Google Cloud의 데이터 플랫폼 및 데이터 플로우 파이프라인, 비정형 데이터 처리, 데이터 컬렉션 생성과 같은 주제를 다루었다.
구글 클라우드의 데이터 플랫폼과 에코 시스템: 데이터 환경의 진화
구글 클라우드의 데이터 플랫폼을 소개하며, 관련된 에코 시스템의 중요성에 대해 설명했다. 데이터 플로우 서비스의 중요성과 기능을 강조하며, 다양한 데이터 원천으로부터 데이터를 수집하고 통합하는 방법을 강연 내 실제 사례를 통해 세밀히 설명했다.
구글 클라우드의 데이터 플로우 파이프라인 구축과 활용: 체계적인 데이터 이동 방법
구글 클라우드의 데이터 플로우 파이프라인을 통한 데이터 이동 기술을 더욱 상세하게 살펴보았다. 데이터 플로우 파이프라인을 구축하고 구성하는 단계에 대한 기술적인 안내와 API 활성화 방법을 공유하였다. 실제 코드 예시를 통해 Google 빅쿼리 데이터를 효율적으로 가져와 분석하는 방법을 구체적으로 설명하였다.
비정형 데이터 처리와 데이터 트랜스퍼 서비스 활용: 데이터 다양성의 제어
비정형 데이터 처리 기술과 데이터 트랜스퍼 서비스의 활용 방법을 탐구하는 세션도 진행되었다. 데이터 트랜스퍼 서비스를 활용하여 비정형 데이터를 효과적으로 수집하고 관리하는 방법은 구글 클라우드의 다양한 기능과 서비스를 활용하여 데이터 이전, 변환, 저장, 모니터링을 체계적으로 수행하는 절차를 따르는 것이다. 데이터 소스 식별과 평가, 트랜스퍼 잡 생성 및 설정, 데이터 변환과 매핑, 데이터 모니터링과 검증, 자동화 및 스케줄링, 보안 및 규정 준수 등을 통한 데이터의 정확성 검증과 테스트 과정의 중요성을 강조하였다.
효율적인 데이터 컬렉션 생성과 활용 전략: 데이터 관리의 전문성
데이터 컬렉션 생성에 대한 기술적인 전략으로 데이터 센터로부터 데이터를 가져오는 방법과 데이터 셋, S3 버킷의 로케이션 일치 여부에 따른 데이터 수집 전략을 설명하였다. 우선 데이터를 가져오는 방법은 다음과 같다. Google Cloud는 데이터 센터로부터 데이터를 효율적으로 가져올 수 있는 Data Transfer Service를 제공한다. 이 서비스를 활용하면 데이터를 안전하고 신속하게 Google Cloud 환경으로 이전할 수 있다. 필요한 데이터를 선택하고 전송 일정을 설정하여 데이터 이전을 계획하고 실행할 수 있다.
데이터 셋, S3 버킷의 로케이션 일치 여부에 따른 데이터 수집 전략은 데이터 셋의 로케이션과 S3 버킷의 로케이션 일치할 경우, 데이터 수집과 이동 과정이 더욱 간단하고 효율적으로 수행되어 데이터 이동에 필요한 설정과 매핑 작업이 간소화되며, 데이터 이전 속도와 정확성이 더욱 높아짐을 알 수 있었다. 데이터 셋과 S3 버킷의 로케이션이 일치하지 않을 경우, 데이터 수집 및 이동 전략을 조율해야 한다. 이 경우 데이터의 변환, 매핑, 백업 등의 추가 작업이 필요할 수 있으며, Google Cloud의 데이터 변환 도구와 서비스를 활용하여 데이터의 일관성과 정확성을 유지하면서 이전을 진행할 수 있다.
‘세상의 모든 데이터베이스 이야기’ 세션을 통해 다양한 데이터베이스 시스템에 대한 통찰력을 얻을 수 있었다. 데이터의 중요성이 더욱 커지는 현대 사회에서 데이터베이스 기술의 발전은 기업과 개발자들에게 더욱 효율적인 데이터 관리와 분석 기회를 제공할 것으로 기대된다. 그리고 ‘Google Cloud를 최대한 활용하여 Data Engineering하기’를 통해 고급 데이터 엔지니어링 기술과 활용 전략을 통해 구글 클라우드를 최대한 활용하여 데이터 엔지니어링을 수행하는 방법과 기술적인 노하우를 배울 수 있었다. 이로써 기업들은 데이터의 활용성과 가치를 극대화하는 동시에 효율적이고 안정적인 데이터 관리를 실현할 수 있을 것으로 전망된다.
개발자들의 축제, <파이콘 한국 2023 컨퍼런스> 후기 (0) | 2023.08.23 |
---|---|
디지털 대전환 시대, 미래 교육을 위한 에듀테크 (0) | 2023.08.17 |
<2023 코리아빌드>에서 발견한 디지털 기술 (0) | 2023.08.11 |
<농식품 테크 스타트업 창업 박람회 : AFRO 2023> 관람 후기 (0) | 2023.07.28 |
<KRnet 2023 콘퍼런스> 참석 후기 (0) | 2023.07.28 |
댓글 영역