본문 바로가기

도서관

엑셀에서의 대량의 자료 처리 - Power Pivot

[ 요약 ] 엑셀에서 1,048,576 행 이상의 데이터를 처리할 때엔 Power Pivot을 이용하자

 

 

게임과 관련한 업무에서의 다양한 데이터, 특히 로그와 같이 대용량의 데이터-정확하게는 매우 긴 라인을 가지는 데이터-를
다루다보면 엑셀에서 정상적인 진행이 되지 않습니다.

엑셀에서 다룰 수 있는 최대 라인수를 넘는 데이터를 읽는 경우에는 아래와 같은 메세지를 보게 됩니다.

 

위의 메세지는 행이 1,048,576개를 넘거나 열이 16,384개를 넘을 경우 이 값을 넘어가는 데이터를 읽었을 때 표시되며,
제한된 범위(1,048,576)까지만 읽어들이고 표시하며, 그 뒤의 데이터는 확인 할 수 없습니다.
아래 그림처럼 1,048,576행 이후에는 더 이상 행을 표시할 수 있는 공간이 없습니다.

 

일반적인 작업의 경우에는 100만 행 이상의 데이터 처리를 하는 경우가 없겠지만, 로그를 다룰 경우에는 상황에 따라서
100만 라인은 훌쩍 넘기는 데이터를 다루어야 할 경우가 있습니다.(특히 로그인 등 전 유저 대상의 데이터)

 

보통 이런 상황에서는 엑셀로 데이터를 관리하기 위해서는 텍스트 형태의 데이터를 100만 라인 단위로 다른 시트로
나누는 등의 방법을 사용하거나, 다른 툴을 이용해야 합니다. 하지만, 엑셀의 부가 기능 중 Power Pivot을 이용한다면,
이런 큰 데이터도 다룰 수 있습니다.

 

Power Pivot은 대용량의 데이터를 처리하기 위한 플러그인으로, 대용량 데이터에서 엑셀에서 데이터 처리에 주로 사용되는 Pivot을
이용해서 데이터를 처리할 수 있도록 지원해 줍니다. (다운로드 링크)

PowerPivot은 x86용과 x64용이 각각 있습니다. 사용하는 엑셀의 버전을 확인하고 다운 받아서 설치합니다.

Power Pivot을 설치하면, 아래와 같이 메뉴에 항목이 추가됩니다.

 

[PowerPivot 창] 아이콘을 클릭하면, 아래 그림 처럼 PowerPivot이 동작합니다.

 

다양한 방법으로 데이터를 받아 올 수 있는데, 여기서는 csv 파일을 읽어들여 봅니다.

아래 그림에 표시된 노트패드 같은 아이콘을 클릭해서 테이블 가져오기 마법사를 실행합니다.

 

읽어들일 파일을 설정하고, 열 구분 기호를 결정합니다.(csv는 일반적으로 쉼표로 구분되므로 기본 설정을 쓰면 됩니다.)

 

데이터 파일이 확인되면, 아래와 같이 일부데이터를 보여주며 열이 정상적으로 구분되었는지 확인할 수 있습니다.
정상적이지 않다면, 고급(A)을 클릭해서 설정을 해 줍니다.

 

마침(F)을 클릭하면, 데이터를 로드하기 시작합니다.
정상적으로 데이터가 로드되면, 아래와 같이 로드한 행 갯수가 나옵니다.
엑셀에서 행의 한계인 1,048,576행을 넘어서는 1,568,916개의 전체 행을 가져온 것을 확인할 수 있습니다.

 

이제 데이터 작업을 진행할 수 있습니다.
아래 그림은 엑셀에서 자주 이용되는 Pivot이 적용된 것을 보여주는 예입니다.(로딩되면 자동으로 이 상태가 됩니다.)