구글이 컴퓨터 비전 분야의 기계 학습 과정에서 활용할 수 있는, 3D 비디오 클립 모음인 '오브젝트론(Objectron) 데이터 세트'를 발표했다. 오브젝트론 데이터 세트는 다양한 각도에서 더 많은 공통 객체를 담고 있는 객체 중심의 비디오 클립 모음으로, 실시간으로 3D 객체를 감지하는 기계 학습과 벤치마킹 등에서 활용할 수 있다.
기계 학습 기반의 컴퓨터 비전 기술을 구현하려면, 효율적인 알고리즘과 방대하고 정확한 학습 데이터가 필요하다. 학습하는 방법과 과정이 우수해야 하고, 학습에 필요한 양질의 데이터는 많을수록 좋다. 이렇게 학습된 인공지능 기술을 3D 객체를 감지, 분석, 이해하는 데 적용하면, 증강 현실, 로봇 공학, 이미지 검색 등 광범위한 분야와 응용 프로그램에서 활용할 수 있는 잠재력을 가지고 있다.
구글이 발표한 오브젝트론 데이터 세트를 활용하면 3D 객체에 대한 기계 학습을 빠르고 효율적으로 수행할 수 있다(위). 최신 버전의 오브젝트론 모델에는 2단계로 구성된 3D 물체 감지 아키텍처를 사용한다(아래). (자료: Google AI Blog)
구글은 모바일 장치에서 실시간으로 3D 객체를 감지할 수 있는 '미디어파이프 오브젝트론(MediaPipe Objectron)’ 모델 세트를 이미 2020년 초에 출시했다. 그리고 이번에 오브젝트론 데이터 세트를 공개하고, 3D 물체 감지 솔루션까지 공유하면서, 모바일 장치에서 실시간으로 손, 홍재, 신체 자세 추적 등의 기계 학습 솔루션을 지원하게 됐다.
“기계 학습을 활용해서 3D에서 개체를 이해하는 것은 여전히 어려운 작업이다. 2D 작업보다 활용할 수 있는 실제 3D 데이터 세트가 부족하기 때문이다. 기계 학습을 활용한 3D 개체 이해의 지속적인 발전과 연구 커뮤니티에 도움을 주기 위해서는, 컴퓨터 비전 작업에 사용되는 데이터 형식과 일치하면서 3D 구조를 더 많이 포함하는 객체 중심의 비디오 데이터 세트가 필요하다. 그 동안 객체 중심 비디오 데이터 세트 릴리즈에 대한 강력한 요구가 있었다”는 것이 구글의 설명이다.
이번에 출시한 오브젝트론 데이터 세트는 자전거, 책, 병, 카메라, 시리얼 상자, 의자, 컵, 노트북, 신발이 포함되어 있다. 데이터 세트는 비디오 시퀀스, 객체에 대한 3D 경계 상자 등이 포함된 주석 레이블, AR(Augmented Reality) 세션 메타 데이터, 주석이 추가된 프레임의 셔플 버전 형태의 데이터 세트, 평가를 실행하기 위한 스크립트 지원 등으로 구성되어 있다.
각각의 비디오 클립에 담긴 AR 세선 메타 데이터에는 카메라 포즈(camera poses), 스퍼스 포인트 클라우드(sparse point-clouds), 평면형 표면(planar surfaces)이 포함된다. 3D 경계 상자에는 객체의 위치, 방향, 치수를 설명하는 주석이 들어있다. 처리된 데이터 세트는 이미지는 ’tf.example’, 동영상의 경우는 ’SequenceExample’ 형식의 데이터로 되어 있다.
아울러 이번에 선보이는 오브젝트론 최신 모델은 1단계 아키텍처를 사용하던 기존 모델에서 발전해 2단계 아키텍처를 사용하도록 했다. 1단계에서 텐서플로 객체 감지(TensorFlow Object Detection) 모델을 사용해 2D 자르기 위치를 찾고, 2단계에서 이미지 자르기를 사용해 3D 경계 상자를 추정한다. 그와 동시에 다음 프레임에 대한 객체의 2D 자르기를 계산하기 때문에, 객체 감지기가 모든 프레임을 실행할 필요가 없다고 구글은 밝혔다.
⧉ Syndicated to WWW.CIOKOREA.COM
'🅣•TREND•TECHNOLOGY > ARTIFICIAL INTELLIGENCE' 카테고리의 다른 글
그래프코어, 슈퍼컴 수준의 IPU 성능 달성...MLPerf 벤치마크 결과 공개 (0) | 2021.07.08 |
---|---|
AI로 정확하고 빠르게 제품 결함 콕 집어낸다...구글, '시각 검사 AI 솔루션' 발표 (0) | 2021.06.23 |
AI가 도로 위 포트홀 찾는다...구글, ML활용 도로 보수 사례 공개 (0) | 2021.01.14 |
도시 나무 심기에 AI와 항공 사진 활용...구글, 열섬 현상 해결하는 '트리 캐노피 랩' (0) | 2020.11.19 |
MS, 향상된 AI '자동 이미지 캡션' 개발...기존 보다 정확도 2배, 2020년 말 출시 (0) | 2020.10.16 |
구글은 어떻게 교통 상황을 예측할까?...'AI가 분석한 교통 패턴+실시간 교통 정보' (0) | 2020.09.08 |
갈수록 똑똑해지는 스마트 스피커…아마존, 알렉사에 그룹대화 등 4가지 기능 추가 (0) | 2020.06.03 |
이미지 센서와 AI 엣지를 단일칩으로…소니, AI 지원 '지능형 비전 센서' 발표 (0) | 2020.05.18 |