ⓒPixabay
ⓒPixabay

최근 빅데이터는 데이터량의 크기(Volume), 생성속도(Velocity), 다양성(Variety), 가치(Value), 정확성(Verocity) 등 5V로 불리우며 디지털 세상에서 매우 빠른속도로 우리 주변에 만들어지는 거의 모든 데이터를 지칭한다. 인공지능에는 데이터가 필수적인데, 빅데이터로 부터의 인사이트가 인공지능에 필요한 데이터로서 제공되기 때문에 빅데이터 분석은 인공지능에서 없어서는 안될 필수적 과정이다.

빅데이터는 각각의 개별 데이터보다는 전체 데이터가 모였을 때 큰 힘과 가치를 창출하기  때문에, 빅데이터로부터 어떤 인사이트를 추출하느냐가 매우 중요하다. 즉, 기존의 분석은 ‘무엇이 발생하였나’에서 ‘왜 일어났지’를 통해‘앞으로 무엇이 일어날 것인가’를 예측하는 것이었다면, 빅데이터 분석은 ‘그래서 어떻게 할 것인가’와 같이 최적의 해를 찾는 것에 이르기까지 다양한 분석 프로세스를 갖는다.

또한 기존의 통계 분석방법이 모집단에서 표본을 추출하고 가설검증을 통해 통계적 분석된 수치를 표시하는 것이었다면, 빅데이터 분석은 대량의 데이터 분석을 통해 새로운 사실, 패턴 및 법칙을 발견하여 새로운 비즈니스적인 가치를 창출한다는 면에서 차별화된 분석의 특징을 갖는다. 따라서 무작위로 추출하는 것이 아닌 목적에 적합한 유의미한 정보를 찾아내는 것이 가장 중요한 빅데이터 분석에서의 관건이다.

 

ⓒPixabay
ⓒPixabay

석유시추선에 고장이 발생해 만약 1일 정지하였을 경우 발생하는 100억원에 해당하는 손실액을 빅데이터 분석을 통해 미리 예측하고 최적화 함으로써 80%까지 손실액을 줄일 수 있었다는 예는 이미 잘 알려진 사실이다.  

글로벌 데이터발생량은 2021년 약 70ZB(1ZB = 270Byte)에서 2025년에는 두배가 넘는 163ZB에 이른다고 하며, 특히 SNS와 같은 텍스트, 음성, 이미지 등 여러 비정형 데이터들이 전체 생성데이터의 약 90%를 차지한다고 하니, 빅데이터에서 가치를 찾아내려면 분석의 신속성과 정확성이 무엇보다 필요한 공수가 많이 드는 일임에는 틀림이 없다.  

구글에서 하둡(Hadoop)을 분산방식으로 개발함으로써 빅데이터가 분산되어 저장된 채로 분석이 가능하다는 가능성을 제시하였다. 이후 여러 유료 무료 방식의 빅데이터 분석방법들이 제시되어 왔고, 이젠 더 이상 빅데이터가 새로운 기술이 아닌 기반 기술로 자리잡아가고 있다.

 

빅데이터 셀프 분석 도구 ⓒ여성신문
검색 플랫폼에서 제공하는 데이터 분석 도구들 ⓒ여성신문

이러한 빅데이터 분석을 일반인도 쉽게 할 수 있는 방법은 없을까? 빅데이터 셀프 분석을 위한 도구로 쉽게 가장 많이 쓰이는 것들은 무엇인지 몇가지 설명해보고자 한다.

먼저, 기존 검색 플랫폼에서 제공하는 데이터 분석 도구를 사용하면 데이터 분석을 쉽게 할 수 있다. 만약 글로벌 트랜드를 알고 싶으면 구글 트랜드를, 국내 트랜드를 알고 싶으면 네이버의 데이터랩이 유용하다. 이외에도 썸트랜드, 빅카인즈 등을 예로 들을 수 있다.

두 번째 유용한 데이터 분석 도구로는 마이크로소프트(MS)의 엑셀을 들 수 있다. 엑셀은 데이터가 테이블 형태로 되어 있어서 직관적으로 데이터를 관리하고 분석하는데 유용하다. 엑셀의 파워 쿼리나 피벗 기능을 이용하여 데이터를 쉽게 정리하고 시각화도 할 수 있다.

여기서 파워 쿼리는 분석요구에 부합하도록 데이터 원본을 검색, 연결, 결합 또는 구체화할 수 있는 기술을 말하며, 파워 피벗은 데이터 모델을 만들고 관계를 설정하고 계산을 만들 수 있는 데이터 모델링 기술을 말한다. 또한 비즈니스 인텔리전스까지 구현할 수 있어서 생각보다 엑셀의 풍부한 기능을 잘 활용하면 데이터 분석에 매우 유용하게 쓰일 수 있다. 

세 번째 유용한 데이터 분석 도구로 오픈소스인 R을 들 수 있다. R은 가장 포괄적인 통계 분석 패키지 중 하나이며, 오픈소스, 무료, 다중 패러다임 및 동적 소프트웨어 환경을 제공한다. 주로 데이터 분석, 데이터 조작, 계산 및 그래픽 표시가 포함되며 삼성이나 구글에서도 사내 데이터 분석도구로 가장 많이 사용할 정도로 보편화된 데이터 분석도구이다.

이외에도 많이 알려진 유료 통계 패키지인 SPSS와 SAS가 있는데, SPSS는 비교적 쉽게 초보자도 사용가능하나 SAS는 전문적 지식이 필요한 도구이므로 별도의 학습이 필요하다. 

 

ⓒpython.org
ⓒpython.org

이러한 빅데이터 분석도구에는 프로그래밍 언어가 같이 필요한데, 보편적이며 잘 어울리는 프로그래밍 언어로는 파이썬(Python)을 들 수 있다. 파이썬은 빅데이터 분석이나 기계학습 분야에서 가장 많이 쓰이는 언어이며 Matplotlib 등 차트 라이브러리도 풍부하게 제공되기 때문에 2차원의 그래프 뿐 아니라 3차원 그래프도 표현도 가능하다. 따라서 간단한 애니메이션이나 인터랙티브한 그래프를 만드는 것도 가능하고, 빅데이터에서 매우 중요한 시각화 기능도 풍부하게 제공한다.

파이썬은 C언어와 유사하나 C언어보다 쉽게 되어 있어서 혼자 학습하기에도 적합한 셀프러닝 프로그래밍 언어이다. 게다가 파이썬은 인공지능 언어로도 가장 많이 쓰이고 있기 때문에 응용범위도 매우 넓은 그야말로 일석이조 효과를 거둘 수 있는 언어라서, 파이썬을 인공지능과 빅데이터의 필수 프로그래밍 언어로 셀프러닝하길 강력추천한다. 

저작권자 © 여성신문 무단전재 및 재배포 금지