본문 바로가기

과학자를 위한 새로운 검색 서비스...구글, '데이터 셋 검색' 발표

반응형

인터넷 시대가 처음 열릴 때, 정보와 데이터의 경계는 모호했다. 한때는 단순한 정보의 소스 정도로 취급하며, 조연 정도로 데이터를 취급하던 때가 있었다. 하지만 이제는 광범위한 분야에서 다양한 용도로 활약하는, 당당한 주인공으로서 귀한 대접을 받고 있다. 한때 정보의 쓰레기통이라고 불리던 인터넷이, 다양한 고급 데이터가 유통되는 중요한 채널이 됐다. 


구글이 데이터 과학자, 데이터 저널리스트, 데이터 분석전문가 등이 유용하게 활용할 수 있는, 새로운 데이터 검색 서비스인 데이터셋 검색(Dataset Search)을 발표했다. 데이터셋 검색은 전 세계에 존재하는 정부나 공공기관이 제공하는 공개된 데이터를, 누구나 쉽게 검색해서 활용할 수 있게 하려고 개발했다. 이미 전문검색 서비스로 제공되고 있던 구글 학술검색(Scholar Search)과 비슷한 전문 데이터 검색 서비스라고 할 수 있다.


데이터 과학자, 데이터 저널리스트 등이 효과적이고 빠르게 데이터 집합을 검색할 수 있도록 도와주는 구글의 '데이터셋 검색’. 검색 키워드를 입력하면 관련된 데이터를 제공하고 있는 정부나 연구 기관 등의 데이터셋 목록을 확인할 수 있다.(화면:https://www.blog.google)


인터넷에 존재하는 데이터의 양의 종류가 워낙 다양하고 방대하다 보니, 원하는 데이터를 빠르고 효율적으로 찾기부터가 쉽지 않은 일이다. 데이터셋 검색은 이럴 때 유용하게 활용할 수 있는 전문 검색서비스로, 기본적으로 구글 학습 검색과 비슷한 방법으로 작동한다. 수천 개의 데이터 제공 사이트, 디지털 도서관, 개인 웹페이지 등에 존재하는 수백만 개의 데이터 세트를 검색할 수 있다.


구글은 데이터세트 검색을 만들기 위해 데이터 제공자를 위한 가이드 라인을 개발했다. 이 가이드 라인에는 데이터 제작자, 데이터 세트 제작자, 게시 날짜, 데이터 수집 방법, 데이터 사용에 대한 용어 등이 포함된다. 이러한 정보를 수집하고 연결한 후 같은 데이터셋의 다른 버전을 분석한다. 이러한 접근 방법을 통해 정보를 기술하는 공개표준(schema.org)을 기반으로, 데이터를 게시하는 모든 사람 또는 기관은 이러한 방법으로 데이터셋을 설명하도록 한다.


베타 서비스로 출발한 데이터셋 검색은 프로퍼블리카(ProPublica) 등에서 제공하는 정부, 환경, 과학 등의 분야에 대한 데이터 세트를 검색할 수 있다. 미항공우주국(NASA), 미국해양대기청(NOAA), ICPSR(Inter-Universities for Political and Social Research) 등의 다양한 학술지의 데이터도 볼 수 있다. 앞으로 더 많은 데이터 제공자가 데이터 공개 표준을 데이터셋에 적용하면, 검색 가능한 데이터셋의 범위가 계속해서 확대될 것이라고 구글은 밝혔다.


Syndicated to WWW.CIOKOREA.COM


반응형