본문 바로가기

19만 개 이상의 데이터 세트로 로봇 훈련...아마존, 분류 로봇 위한 ARM벤치 공개

반응형

블루컬러 영역의 자동화를 이끈 것이 로봇이었다면, 화이트컬러 영역의 자동화를 주도하는 것은 인공 지능이다. 게다가 로봇과 인공지능이 만나면서 넘을 수 없을 것 같았던 경계와 장벽이 허물어지고 있다. 로봇과 인공지능의 결합으로 인한 시너지가 새삼스러울 것은 없지만, 방대한 데이터로 학습하는 과정을 거친 로봇의 진화 속도가 점점 빨라지고 있다.

아마존(Amazon)이 공개한 ARM벤치(ARMBench) 역시 그런 것들 중 하나다. ARM벤치는 물류 및 배송 센터와 단계에서 사용되는 로봇을 훈련시키는 대규모 데이터 벤치마크 세트다. 창고에서 제품을 선택, 분류, 포장하는 과정에서 로봇은 카메라로 촬영한 이미지를 기반으로 작업을 수행하는데, 이를 보다 정확하고 빠르게 수행할 수 있도록 로봇을 학습시키는 데 활용한다.

다양한 형태와 종류의 물건이 담겨 있는 운반 상자에서 각각의 객체를 분할한 데이터 세트 이미지. ARM벤치는 이러한 사진과 동영상을 활용해 픽-앤-플레이스 로봇이 정확하게 원하는 물건을 식별하고 선택할 수 있도록 훈련시키는 데이터 세트다. (자료:Amazon)


창고에서 운반 또는 배송해야 할 상품이 정해지면 ►해당 제품을 찾아서 이송 상자(bin)에 적재하고 ►컨베어 벨트를 따라 이동하는 상자가 포장 위치에 도착하면 상품을 골라 꺼낸 후 ►고객에게 배송할 패키지나 상자에 담는다. 예전에는 적재하고, 꺼내고, 담는 일이 사람이 눈과 손을 빌려야 하는 가능했던 일이지만 이제는 로봇팔로 이루어진 픽-앤-플레이스 로봇(pick-and-place robot)이 이런 일을 담당한다. 

여러 가지 상품과 제품이 섞여 있는 상자에서 원하는 것만 골라내려면, 카메라로 촬영한 사진으로 정확하게 상품을 인식하고 이를 로봇 팔을 이용해 집어야 한다. 상자 안에서 담겨 있는 크기와 모양이 제 각각인 물건들 속에서 필요한 것만 골라서 콕 집어내는 것은 까다롭고 복잡한 일이다. 단 한 번이라도 오류가 생긴다면 전체 프로세서에 문제가 생기는 만큼 신속하고 정확한 판별과 선택이 필수적이다. 

아마존은 "기존에 사용하던 가장 큰 산업용 이미지 데이터 세트가 100개 정도의 객체 특징을 나타냈다면, ARM벤치의 데이터 세트는 19만 개 이상의 객체 특징을 대상으로 한다. 따라서 새로운 제품과 상황에 더 잘 일반화할 수 있는 '픽 앤 플레이스' 로봇을 훈련하는 데 사용할 수 있다. 19만 개 이상의 사진을 활용해 결함 감지 모델을 훈련하고, 4,000개 비디오로 제품 손상을 초래한 작업 활동을 기록한다"고 밝혔다.

ARM벤치에는 ►물체 분할 또는 동일한 상자에 있는 다른 제품의 경계 식별  ► 물체 식별 또는 참조 데이터베이스의 어떤 제품 이미지가 이미지에서 강조 표시된 제품에 해당하는지 판단 ►로봇이 하나의 품목이 아닌 여러 품목을 집어 들거나 이송 중에 품목을 손상시키는 등 오류가 발생한 경우 이를 감지하고 판단하는 세 가지 개별 작업을 위한 이미지 세트가 포함되어 있다.

객체 분할 데이터 세트에는 5만 개 이상의 이미지가 포함되어 있으며, 이미지당 평균 약 10.5개에 달하는 수동 객체 분할이 1개에서 50개까지 포함되어 있다. 투명하거나 반사되는 물체가 다양한 모습으로 복잡하게 섞여 있기 때문에 이를 구분하는 것은 상당히 어렵고 까다롭다. 객체 식별 데이터 세트에는 23만 5,000개 이상의 레이블이 지정된 '선택 작업(pick activities)'이 포함되어 있다.

그리고 각각의 선택 작업에는 선택 이미지 1개와 전송 이미지 3개가 포함된다. 또한 19만 개 이상의 제품에 대한 참조 이미지와 텍스트 설명이 있으며, 객체 식별 작업에서 모델은 이러한 참조 제품 중 하나를 선택 및 전송 이미지에서 강조 표시된 객체와 일치시키는 방법을 학습한다. 이 과정에서 비슷해 보이는 제품을 구별하고, 다양한 시점에 걸쳐 일치시키고, 이미지와 텍스트와 같은 다중 모드 정보를 융합하여 예측한다.

결함 감지 데이터 세트에는 정지 이미지와 동영상이 모두 포함되어 있다. 1만 9,000개 이상의 정지 이미지는 이송 단계에서 캡처한 것으로, 로봇 팔이 실수로 물체를 손상시키거나 둘 이상의 물체를 집어 들었을 때를 판단하는 결함 감지 모델을 훈련하기 위한 것이다. 또한 특정 유형의 제품 손상은 이동 과정의 어느 시점에서나 발생할 수 있기 때문에, 4,000개의 비디오는 제품 손상을 일으킨 선택 작업 활동 기록으로 학습한다. 

아마존이 창고 및 분류 작업 자동화 과정에서 가장 중점을 두고 있는 것 중의 하나가 바로 '바코드 없는' 자동화다. 바코드를 인식해야 작업이 가능한 과정에서는 오류 발생과 속도 저하가 필연적이기 때문이다. ARM벤치는 모양, 크기, 색상 등으로 정확하게 물건을 구별하고 선택할 수 있는 똑똑한 로봇으로 만들어, 사람보다 훨씬 더 정확하고 빠르면서도 효율적인 작업 환경으로 만들기 위한 징검다리인 셈이다.

 Syndicated to WWW.CIOKOREA.COM

반응형