서울의 미세먼지를 완벽 분석한 20대 데이터 전문가


6년 치 민원 데이터 3,500만 건을 분석한 데이터 전문가, 오피니언라이브 차지윤 빅데이터센터 연구원

“AI, AI, AI” 소프트뱅크그룹의 창립자 손정의가 2019년 7월, 문재인 대통령을 만나 외친 세 번의 외침입니다. 하지만 어쩌면 이보다 더 중요한 건 데이터일지도 모르는데요. AI를 비롯해 지금의 IT 기술 여럿이 데이터가 방대할수록 강력한 힘을 발휘하기 때문입니다.

새로운 시대의 석유라는 데이터, 이를 통해 서울의 미세먼지를 분석하고, 상을 받아 ‘취뽀’까지 해낸 차지윤 님의 이야기를 EO가 듣고 왔습니다.

오피니언라이브 차지윤 빅데이터센터 연구원 인터뷰

Q. 자기소개 부탁드립니다.

안녕하세요, 오피니언라이브에서 빅데이터센터 연구원으로 일하고 있는 차지윤입니다. 오피니언라이브는 빅데이터 관련 사업을 많이 진행하고 있는 회사인데요. 저는 2020년 9월 기준으로 입사한 지 5개월 차로, 주 업무로 6년 치 민원 데이터를 분석하고 있어요. 약 3,500만 건의 민원 데이터를 분석해 EDA*를 하고, 분석 결과를 내는 작업을 진행했었습니다.

* ‘Exploratory data analysis’의 약자로, 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정을 일컫는다.

Q. 신입 사원이시다 보니 들려주실 이야기 중 입사 전 이야기가 아무래도 더 많을 것 같아요. 회사에 들어오기 전에는 어떤 과정을 거쳐 오셨나요?

대학교는 한국외대, 전공은 정보통신학과를 나왔습니다. 학부생 시절에는 웹 개발 혹은 웹 서비스 프로젝트를 많이 진행했는데, 그중 가장 인상적인 프로젝트는 비콘(Beacon)이라는 블루투스 기반의 모듈이었는데요. 모듈을 갖고 광화문에 가면 여행을 가이드해주는 여행안내 프로젝트였어요.

그때 비콘 안에 들어가는 여행 데이터를 데이터마이닝*을 통해 가져와야 했는데요. 하다 보니 학부생 입장에서 모르는 부분이 많고, 더 많이 공부해야겠다는 생각이 강하게 들었습니다. 그래서 국가에서 진행하는 기업 데이터 분석 과정을 6개월간 들었는데요. 그 과정을 통해 기업 데이터를 실제로 보고 싶은 분들을 많이 만날 수 있었어요.

* 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여 미래에 실행 가능한 정보를 추출하고 의사 결정에 이용하는 과정

‘빅콘테스트’에 대한 이야기도 자주 들었는데요. 알아보니 우리나라에서 역사가 있는 콘테스트이고, 다양한 기업에서 참여하더라고요. 학생들이 평소 다뤄볼 기회가 많지 않은 큰 데이터가 제공되니까요. 저도 참여 기업들이 제공한 정말 큰 로우 데이터(Raw Data)를 다뤄보고 싶어서 도전하게 됐고요.

오피니언라이브 차지윤 빅데이터센터 연구원

Q. 빅콘테스트에서 상을 타셨잖아요. 어떤 프로젝트를 통해 수상을 하신 건가요?

2019년에 유달리 미세먼지가 굉장히 심했잖아요? 그래서 제가 참가했을 때도 빅데이터를 활용한 미세먼지의 사회적 영향을 분석·예측해서 비즈니스 아이디어를 제시하는 것이 주제였습니다.

저는 미세먼지가 심한 날, 자연어 처리 분석을 통해서 아이라는 키워드와 부모, 장소라는 키워드가 유사성이 깊음을 데이터로 알아냈는데요. 엄마분들이 김포공항의 실제 공기 질 수치가 어떻다더라 등 미세먼지에 관한 여러 이야기를 ‘미세먼지 대책을 촉구합니다’ 같은 카페에서 실시간으로 나누시는 걸 보고 착안한 아이디어였습니다.

실제 프로젝트 구현을 위해서는 10년 치 카페 데이터와 뉴스 데이터를 따로 수집했었는데요. 인스타그램 분석을 통해서는 서울시 전역을 동 단위로까지 나누어서 미세먼지가 심한 날 갈 수 있는 곳의 리스트를 뽑아낼 수 있었습니다. 이를 통해 이노베이션 분야에서 한국정보통신진흥협회장상을 수상할 수 있게 되었고요.

최종적으로 빅매칭 캠프에 참여하게 되어서 다양한 기업들과 면접을 볼 기회까지 얻게 된 좋은 계기였습니다.

Q. 입사한 이후의 이야기도 궁금합니다. 신입 연구원으로서 데이터를 다루면서는 어떤 감상이 들었나요?

일단 데이터를 실제로 만져볼 수 있다는 점이 좋았습니다. 민원 데이터를 열어보면 정말 재미있거든요. 가령, 무단으로 버려진 쓰레기를 치워달라는 민원이 들어오면 일주일 안에 쥐를 잡아달라는 민원이 들어와요. 그렇게 민원 데이터가 쌓이면 쥐를 잡는 인력을 미리 배치할 수 있겠죠. 그러면 그만큼 깨끗한 동네에 살 수 있게 될 거고요.

그 외에도 일상생활에서 IoT(Internet of Things, 사물인터넷) 기술과 데이터를 활용하면 내 삶의 많은 부분을 개인 맞춤으로 설정할 수 있습니다. 개인 정보 등록을 굳이 하지 않아도 어떤 가게에 들어가는 순간, 어디에 어떤 상품이 있는지 정보를 받을 수 있겠죠. 어떤 할인을 적용하면 좋을지, 어떤 부분에서 도움이 필요할지 역시 마찬가지고요.

저는 앞으로 세상이 이런 개인 맞춤의 시대로 더 나아갈 것 같아요. 사람이 잠에서 깨어나 세수를 하고, 커피를 마시는 등 아침부터 일어나는 모든 일상의 데이터를 통해서 말이죠. 그러면 예를 들어, 나이가 많으신 분들이나 집에서 혼자 생활하시는 분들의 건강에 도움이 되는 행동을 무엇인지 확인하고, 메시지를 전달할 수도 있을 겁니다.

그리고 이렇게 하나하나 쌓인 데이터로 제공할 수 있는 것은 지금보다 더 무궁무진할 거라고 생각합니다. 물론, 개인의 데이터가 당사자의 동의 없이 유출되는 건 방지해야겠죠. 다만, 개인의 데이터가 기업에 제공됨으로써 기업이 내 생활을 더 편리하게 해주는 서비스를 발전시킬 수 있다면 충분히 고무적이라고 볼 수 있지 않을까요?

우리가 활용하는 만큼 데이터는 현재 가치에 머물러 있지 않고 큰 효과를 낳을 겁니다. 미래에는 데이터 분석을 할 수 있는 컴퓨팅 파워라든지, 지금의 데이터와 엮을 수 있는 다른 데이터가 더 나올 수 있기 때문에 더더욱 그럴 거라고 생각해요.

Q. 무한한 잠재력을 가진 데이터를 통해 세상이 어떻게 달라질 거라고 보시나요?

제가 다루는 민원 중 뭐가 더 긴급한지 파악해서 빨리 처리할 수 있는 세상이 충분히 됐다고 생각합니다. 이는 극히 일부예요. 데이터는 구축되고 활용될수록 사람들이 일상생활에서 겪는 불편함을 많이 해결해 줄 거예요. 이를 통해 더 많은 편리함을 더 빨리 누릴 수 있을 거고요. 그 점에서 정부에서 추진하는 데이터 댐 사업도 의미가 있을 겁니다.

오피니언라이브 차지윤 빅데이터센터 연구원 인터뷰

Q. 마지막으로 데이터 전문가로서 데이터의 문외한을 포함한 모든 사람에게 전하고 싶으신 말이 있을까요?

데이터를 너무 어렵게 생각하지 않으셨으면 좋겠습니다. 사람이 하는 행동 하나하나가 어떻게 보면 다 데이터예요. 많은 분이 좋아하시는 고양이만 봐도 고양이가 화장실에 하루 중 언제, 몇 번이나 가는지를 통해 어디가 아픈지를 알 수 있어요. 그 기록을 살펴보는 것만으로도 여러분은 데이터를 분석하고 계신 거예요.

저는 그 데이터 분석을 조금 더 체계적이고 세밀하게 하는 것일 뿐이고요.

* 본 인터뷰는 2020년 11월 공개된 <빅데이터센터 연구원이 말하는 데이터의 중요성>의 내용을 바탕에 두고 있습니다.

3,500만 건의 6년 치 민원 데이터를 분석하며 더 멋진 데이터 전문가로 거듭나고 있는 오피니언라이브의 빅데이터센터 연구원 차지윤 님의 이야기를 영상으로도 만나보세요.

 

글·편집 김정원

melo@eoeoeo.net

EO(Entrepreneurship & Opportunities)

+ There are no comments

Add yours

댓글 남기기