• Big Finance

대체 데이터를 활용하기 전 알아야 할 3가지 (1편) - 데이터의 가격 산정

Alternative Data(대체 데이터)는 헤지펀드들과 자산운용사들에게 Hot Topic이다.

BCG, Deloitte, EY 등 글로벌 컨설팅사들의 자료를 보면 향후 5년내 90% 이상의 헤지펀드와 자산운용사들이 대체 데이터를 투자와 기업 분석 프로세스에 활용할 것으로 전망하고 있다. 그럼에도 불구하고 한국 뿐 아니라 해외 많은 CIO(Chief Investment Officer)들과 PM(펀드매니저)들은 '대체 데이터'를 활용하기 위해 어디서부터 시작해야 할지 모르겠고, 도대체 '얼마의 가격'을 '어떤 데이터'에 지불해야할 지 막연하다는 이야기를 많이 한다.


한국에서는 특히 대체 데이터가 아직 생소한 개념이기에 이를 처음 접하게 되는 펀드매니저가 알아두면 도움이 될 3가지에 대해 정리해 볼 계획이다. 이번 편에서는 '데이터의 가격과 가치 산정'에 대해 써봤다.


<데이터의 가격과 가치 산정>

대체 데이터의 역사가 짧고, 공급 회사가 빠르게 증가해 'Standard'한 가격 체계가 없다. 또한 대부분의 대체 데이터는 sell-side를 대상으로 판매하지 않고 특정 헤지펀드/자산운용사들과 직접 계약하는 방식이기 때문에 데이터별로 가격이 공개 되지 않는다.

흔히 알려진 가격 범위는 데이터별로 연간 $30,000 ~ $300,000 수준이며, 고객 니즈에 맞춰 재가공하여 판매하는 경우 연간 100만달러가 넘는 사례도 간혹 있다.


대다수의 대체 데이터 공급사들은 자신들의 데이터가 매우 희소성이 높아 일단 비싼 가격으로 협상을 시작하려 하는데, 구매자 입장(펀드)에서 대체 데이터 활용 경험이 없으면 데이터가 기본적으로 갖춰야 할 조건들이 무엇인지 파악도 잘 못하고 막상 구매 후 비용 대비 수익을 내기가 어려워 진다. 흔히 이 세계에서 '양질의 데이터'를 구분하는 5가지 조건들에 대해 알아보자.


1. Uniqueness - 데이터 희소성을 평가해라

Buy-side가 가장 중요하게 생각하는 것은 희소성이다. 데이터의 희소성은 해당 데이터의 원천 소스에 따라 구분되는데, a) Public(오픈된) 인지 b) Proprietary(기업이 소유권이 있는) 인지에 따라 가격 차이가 발생한다.


Proprietary Data의 예로 Edison Software는 메일 정리 서비스 앱을 제공하는 기업으로 앱 이용자들의 데이터를 수집/분석해 이를 운용사나 헤지펀드에 판매한다. 이들이 수집하는 데이터는 이메일 영수증(e-mail receipt) 데이터로, 사용자들이 Amazon 등에서 구입한 물품, 금액, 시간 등을 수집해 Amazon 내 SKU별 매출액 추정을 한다. 이용자들은 앱을 무료로 이용하는 대신 데이터를 제공하는 것에 동의 한다. 이런 데이터는 기업이 자체 서비스를 제공하면서 직접 생성한 것이니 희소성이 높다. 따라서 해당 데이터의 back-testing 결과만 좋다면 비싼 비용을 지불해도 해당 데이터를 구매하게 된다.


Public Data의 예로 JetTrack은 기업들의 전용기 노선을 파악하여 데이터를 제공하는 회사다. 항공편과 비행 노선은 공공 데이터로 모두에게 오픈 되어 있기 때문에 다양한 항공사/비행기/노선 코드를 잘 매핑할 수 있다면 누구나 데이터를 구축할 수 있다. 따라서 Public Data 기반의 대체 데이터는 기술적 난이도, 재가공된 데이터의 퀄리티에 따라 가격이 천차만별이 된다. 일반적으로 Public 기반 대체 데이터는 지속적인 기술 장벽을 만들어 고도화하지 않으면 가격은 하락한다.


데이터 가격을 협상 과정에서 해당 데이터를 공급하는 경쟁사가 몇 곳인지, 공공 데이터 기반인지, 아님 자체 소유권이 있는 데이터인지 등을 꼭 질문하여 해당 데이터의 희소성을 평가해야 한다.



2. Data Coverage - 데이터 범위가 어느정도인지 알아야 한다

주식의 기초자산은 기업이기 때문에 얼마나 많은 기업을 커버하는지에 따라 가격이 다르게 산정된다. 더 자세히 들어가면 시가총액과 거래대금이 큰 기업을 '많이' 커버할 수록 데이터 가격은 올라가게 된다. 특정 데이터가 기업 코드와 매핑됐는지 여부를 'ticker mapping'이라고 표현하는데, ticker mapping이 많이 되어 있을 수록 데이터의 가치는 높게 평가된다.


예로 보험사의 차종 가입 데이터를 통해 자동차 판매량을 추정하는 경우,

date/company/model/zip_code/registered_number/ticker_bloomberg 의 형태로 데이터 필드가 존재하고 아래 그림과 같이 제공 된다면 자동차 분석을 담당하는 buy-side 애널리스트나 PM에게 매우 가치 있는 데이터가 된다.

많은 기업을 커버하는 것 외에도 제공 데이터 종류가 많을 수록 가치가 높아진다. 예로, 위 데이터에서 지역 정보(zip_code)가 있는 경우와 없는 경우에 따라 데이터 활용 범위가 크게 차이 난다. 예로 Tesla 판매량을 미국 주(州)별로 알고 있으면 특정 주(州)의 보조금 정책 변화가 생길 시 전체 판매에 어떤 영향을 줄 수 있을지 분석이 가능해진다.


현재 나와있는 대체 데이터들 중 ticker mapping이 되어 있는 데이터는 전체의 15%에 불과하다고 알려져 있다. ticker mapping이 되어 있지 않은 데이터를 구매하는 경우 Quant 과점에서는 이 작업을 모두 직접 수행해야 하며, 리서치 관점에서도 특정 브랜드와 제품을 기업과 연결시키는 작업을 모두 직접해야 하기 때문에 많은 비용이 발생된다. 따라서 ticker mapping이 되어 있는지 여부는 데이터 가격 산정에 매우 중요한 변수로 작용한다.



3, 4. Data History, Frequency - 데이터 시계열이 길고 업데이트 주기가 짧을 수록 좋다

당연한 얘기지만, 데이터는 과거 시계열이 길고, 업데이트가 자주 될 수록 좋다. 그러나 대체 데이터의 시계열은 전반적으로 짧고, 평균 3년, 짧으면 1년 밖에 되지 않는다.

Quantitative Fund는 자신들의 back-testing 결과에 따라 구매 의사결정을 하기 때문에 데이터 시계열이 3년 미만이면 데스트 자체를 잘 하지 않고, 최소 5년 이상의 과거 시계열을 요구한다. 데이터 시계열이 너무 짧으면 데이터의 퀄리티 검증 자체가 어렵기 때문에 높은 비용을 부담할 수가 없다.


업데이트 주기는 일반적으로 월간, 주간 단위 데이터가 가장 많고, web-scraping 기반 데이터는 대부분 일단위 또는 실시간이다. 업데이트 주기의 경우 Quantitative Hedge Fund는 실시간 데이터를 가장 선호하는 편이고, Long-only의 경우 주별/일단위 보다 월단위 데이터를 가장 선호한다.


평균적으로 5년의 과거 시계열을 보유하고 있으면 'Gold Standard'로 분류하고, 업데이트 주기는 자신이 어떤 스타일의 펀드인지에 따라 기준이 달라진다.


업데이트 주기와 시계열 외에 data delivery lag time도 매우 중요한 가격 결정 요소 중 하나다. 데이터 전달 지연 시간이라고 이해하면 되는데, 평균 1주일 이내가 가장 선호된다. 예로, 8월 월간 데이터를 9월 첫째 주 이내에 업데이트 해줘야 한다는 뜻이다.

또한 데이터 회사가 업데이트를 모든 고객들에게 동시에 제공 하는지, 아니면 고객사별로 차이가 발생하는 지 여부도 중요한 체크 포인트다.



5. Delivery Method - 데이터 전송 방법

위에 설명한 4가지 중 중요도는 가장 떨어지지만, 데이터의 전송 방법도 데이터 가격과 구매 의사 결정에 영향을 주는 요소다. 흔히 가장 선호되는 방식은 API이며, FTP도 많이 이용된다.

해당 내용은 Quantitative 펀드들이 아니면 크게 신경쓰는 부분은 아닌데, Two Sigma나 WorldQuant와 같이 tech color가 강한 기업들은 API 방식을 분명히 더 선호한다.




종합해서 요약하면, 투자자는 대체 데이터를 구매하기에 앞서 아래의 내용들을 꼭 확인하고 검증해야 한다.


1) 데이터 희소성 - 제공 기업 수, 원천 데이터 소스(public vs. proprietary), 고객사 수

2) 데이터 커버 범위 - ticker mapping 여부, 매핑 종목 수, 데이터 필드 (data dictionary 요구)

3) 업데이트 주기와 지연 시간 - 짧을수록 좋다

4) 과거 시계열 - 최소 3년 이상

5) 데이터 전송 방법



조회수 451회댓글 0개

최근 게시물

전체 보기