본문 바로가기

‘나쁜 말’ 걸러주는 오픈 소스 AI 모델…IBM, 작고 빠른 새로운 HAP 필터 공개

반응형

사실처럼 위장한 명백한 거짓과 정제되지 않은 언어는 생성형 AI 시대 가장 큰 골칫거리다. AI가 내놓은 모든 결과는 입력된 데이터를 기반으로 한 학습을 통해 생성된다. 윗물이 맑아야 아랫물이 맑듯이 학습에 사용한 데이터에 거짓이나 오류가 있다면 결과 역시 그것을 그대로 반영한다.

IBM이 새로운 HAP(Hateful, Abusive, Profane) 필터인 ‘그래니트-가디언-hap-38m’를 오픈 소스로 공개했다. 이번에 공개한 HAP 필터는 3,800만 개의 매개변수를 사용한 경량 모델로 데이터 필터링 속도를 높이는 데 초점을 맞췄다.

새로운 HAP 필터인 그래니트-가디언-hap-38m은 그래니트-가디언-hap-125m보다 CPU에서는 8배 GPU에서는 약 2배 더 빨랐다고 IBM은 밝혔다. (자료 : IBM)

 


생성형 AI에서 사용하는 대규모 언어 모델(LLM)은 다양한 소스로부터 데이터를 수집해서 학습한다. 그중에서 출처가 분명하고 신뢰성이 높은 자료도 있지만 누가 어떻게 작성했는지 알 수 없는 데이터가 섞여 있을 수 있다. 그런 데이터속에는 가짜 정보뿐만 아니라, 증오, 모욕, 욕설 등의 폭력적이고 유해한 언어가 적지 않다.

HAP 필터는 이러한 텍스트 데이터에서 부적합한 말과 글을 걸러내는 역할을 한다. 대규모 언어 모델을 운영하려면 이러한 HAP 필터가 필수지만 문제는 처리 속도와 정확성이다. IBM은 1억 2,500만 개의 매개변수를 사용하는 ‘그래니트-가디언-hap-125m’도 오픈 소스로 공개하고 있지만 이번에 3,800만개의 매개 변수 모델을 새로 추가한 것이다.

매개 변수가 커지면 필터를 통해 부적합한 단어를 골라내는 데 많은 시간이 걸린다. 데이터 크기가 큰 만큼 연산에 더 많은 시간이 걸리고 전력 소모량도 그만큼 늘어난다. 이러한 속도와 전력 소모 문제를 해결하면서 정확성을 높이기 위해 IBM 연구진은 신경 구조 검색(neural architecture search)이라는 기술을 적용했다.

기존의 HAP 필터에서 사용하는 12개의 인공 신경 레이어를 8개 적은 4개로 줄이는 등의 방법을 통해 모델 크기를 축소해 속도를 향상한 것이다. IBM은 1억 2,500만 개의 매개 변수 모델이 가진 필터 성능의 95%의 정확도로 지연 시간은 줄인 모델 개발이 목적이었고, 그렇게 해서 탄생한 것이 이번에 공개한 그래니트-가디언-hap-38m 모델이라고 밝혔다.

HAP 필터 모델은 인종, 종교, 민족, 장애, 성별 등과 관련된 혐오 발언, 다른 사람을 괴롭히고 상처를 주는 모욕적인 언어, 다른 사람을 불쾌하게 하는 욕설 등을 걸러낼 수 있다. 이번에 공개한 그래니트-가디언-hap-38m((granite-guardian-hap-38m)은 영어를 지원한다.

 

Syndicated to WWW.CIOKOREA.COM

반응형