국내 최대 규모의 IT 컨퍼런스이자 파이썬 개발자들의 축제인 파이콘 한국 2023 컨퍼런스가 올해 8월 12일에 코엑스에서 열렸다. 한국에서 열리는 10번째 파이콘이자, 2019년도 이후 3년 만에 개최되는 전면 오프라인 파이콘으로 양일간 파이썬 뿐만 아니라 데이터 과학 분야, 웹 서비스 분야 등 폭 넓은 주제의 강연으로 진행되었다.
오전부터 저녁까지 진행되는 일정 중 특별한 관심을 끄는 세션은 비동기 프로그래밍의 미래를 엿볼 수 있는 , 'Async State Machine 세션'과 대용량 데이터 처리의 현실적인 문제에 빛을 발하는 Pandas의 새로운 업그레이드와 확장성에 대한 Pandas 2.0 전략 세션인 ‘로컬 환경에서 사이즈가 큰 데이터를 처리/분석하기 위한 전략 : Pandas 2.0, HF Datasets’이었다.
오늘날 다양한 규모와 복잡도의 분산 시스템을 파이썬으로 개발하고 운영하는 과제는 점차 커지고 있다. 특히 시간이 오래 걸리는 작업의 추적과 상태 관리는 어려운 과제로 작용할 수 있다. 이러한 어려움을 극복하고 효율적인 관리를 위해 "Async State Machine" 개념이 파이썬을 통해 제안되었다.
Async State Machine: 상태 추적의 새로운 방식
Async State Machine은 파이썬으로 구현된 대규모 분산 시스템에서 발생하는 시간이 오래 걸리는 작업들의 추적과 상태 관리를 위한 추상적인 개념이다. 예를 들어, 파이썬을 활용한 ERP 시스템의 경우, 많은 번호로 작성된 거대한 시스템에서 상세한 관리의 어려움이 발생할 수 있다. 이를 해결하기 위해, Async State Machine은 각 작업의 상태를 추적하고 관리함으로써 시스템의 투명성과 효율성을 향상시킨다.
태스크 러너: 작업의 순차적 처리와 상태 관리
시스템의 핵심 구성 요소 중 하나인 태스크 러너는 비동기 상태 관리의 핵심 역할을 수행한다. API 서버는 시간이 오래 걸리는 작업을 태스크 러너에게 요청하고, 이 작업들의 상태를 관리하며 서브 태스크들을 실행한다. 태스크 러너는 작업의 실행 및 완료 시 리스폰스를 반환하여 시스템의 전반적인 효율성을 유지한다. 이러한 태스크 라이프 사이클은 복잡한 시스템에서 작업 상태를 투명하게 관리하는 핵심 개념이라고 볼 수 있다.
비동기 예외 처리: 유지 보수성 확보
파이썬 비동기 시스템은 자연스럽게 비동기 예외 처리를 필요로 하고, 이로 인해 유지 보수성이 낮아지는 경우가 발생할 수 있다. 그러나 이러한 상황에서도 Async State Machine은 예외 처리의 복잡성을 다루며 시스템의 안정성을 확보한다. API 서버가 태스크 실행 요청을 태스크 러너에게 보내는 과정에서 발생하는 비동기 예외 처리를 통해 시스템의 안정성을 유지하고 실력을 향상시킬 수 있다.
이번 발표는 판다스를 중심으로 한 내용을 다루었으며, 2019년에 제기되었던 판다스의 속도 개선 및 메모리 최적화에 관한 주요 주제를 다시 살펴보았다. 판다스는 다양한 에코 시스템을 갖춘 프레임워크로 인기가 높았으나, 데이터의 규모가 커짐에 따라 로컬에서의 처리가 어려워지는 한계가 있었다. 이에 대한 대안으로 Pandas 2.0에서는 성능 개선과 메모리 이피션시(memory efficiency)를 위한 다양한 전략들을 제시하였다. 또한, 산업 및 연구 환경에서의 한계점을 극복하기 위한 방법을 살펴보았다. 데이터의 크기와 처리 속도에 대한 문제를 해결하며, 데이터 저장 및 핸들링에 걸리는 시간을 단축하는 방법에 대한 통찰을 공유하였다.
판다스의 변화에 대해서도 다루었는데, 2019년에 제시되었던 판다스의 속도 향상 전략과 메모리 최적화 방법들이 1.0 버전에서는 일부 지켜지지 않았으나, 2.0 버전 이후 많은 변화가 있었다고 설명하였다. 또한, 빅데이터 처리의 속도 향상 전략에 관해서도 논의되었는데, 데이터의 크기가 커질수록 연산 시간이 길어지는 문제에 대한 해결책을 제시하였다. 특히, 데이터 연산에 따른 메모리 증가와 속도 향상을 위한 실험 및 전략을 소개하였으며, 이를 통해 데이터 처리 성능을 개선하는 방법에 대해 설명하였다.
마지막으 Pandas 2.0에서의 속도 향상에 대한 내용으로 내장된 오퍼레이션들을 활용하여 데이터 처리 속도를 향상시키는 방법을 제시하였다. 또한, 파이썬 3.10에서 개선된 디버깅 및 결과 표시 기능을 소개하여 개발자들이 더욱 효율적으로 코드를 작성할 수 있도록 돕는 내용을 공유하였다.
‘Async State Machine’세션을 통해 파이썬을 기반으로 한 분산 시스템의 복잡성을 효과적으로 관리하기 위한 Async State Machine의 개념은 시스템 투명성과 효율성 향상에 기여한다. 비동기 예외 처리와 함께 적절한 아키텍처 설계를 통해 안정성을 유지하며, 리테일 전쟁 같은 개념을 활용하여 코드의 구조를 최적화할 수 있다. 이러한 새로운 아이디어와 개념을 통해 파이썬을 활용한 복잡한 분산 시스템의 개발과 관리가 더욱 효율적으로 이루어질 것으로 기대된다. 그리고 ‘Pandas 2.0, HF Datasets’세션을 통해 빅데이터 처리와 관련된 다양한 전략과 기술들을 통해 로컬 환경에서 큰 규모의 데이터를 효율적으로 처리하는 방법을 알 수 있었다. 이를 통해 데이터 분석 및 처리 분야에서의 기술적인 도약과 발전을 기대할 수 있을 것으로 보인다.
2023 K-ICT WEEK in BUSAN에 가다! (0) | 2023.09.12 |
---|---|
<공연예술 데이터 포럼>에서 알아본 빅데이터와 AI 생태계 (0) | 2023.08.29 |
디지털 대전환 시대, 미래 교육을 위한 에듀테크 (0) | 2023.08.17 |
<I/O Extended 2023 Seoul> 후기 (0) | 2023.08.11 |
<2023 코리아빌드>에서 발견한 디지털 기술 (0) | 2023.08.11 |
댓글 영역