사실처럼 위장한 명백한 거짓과 정제되지 않은 언어는 생성형 AI 시대 가장 큰 골칫거리다. AI가 내놓은 모든 결과는 입력된 데이터를 기반으로 한 학습을 통해 생성된다. 윗물이 맑아야 아랫물이 맑듯이 학습에 사용한 데이터에 거짓이나 오류가 있다면 결과 역시 그것을 그대로 반영한다.
IBM이 새로운 HAP(Hateful, Abusive, Profane) 필터인 ‘그래니트-가디언-hap-38m’를 오픈 소스로 공개했다. 이번에 공개한 HAP 필터는 3,800만 개의 매개변수를 사용한 경량 모델로 데이터 필터링 속도를 높이는 데 초점을 맞췄다.
생성형 AI에서 사용하는 대규모 언어 모델(LLM)은 다양한 소스로부터 데이터를 수집해서 학습한다. 그중에서 출처가 분명하고 신뢰성이 높은 자료도 있지만 누가 어떻게 작성했는지 알 수 없는 데이터가 섞여 있을 수 있다. 그런 데이터속에는 가짜 정보뿐만 아니라, 증오, 모욕, 욕설 등의 폭력적이고 유해한 언어가 적지 않다.
HAP 필터는 이러한 텍스트 데이터에서 부적합한 말과 글을 걸러내는 역할을 한다. 대규모 언어 모델을 운영하려면 이러한 HAP 필터가 필수지만 문제는 처리 속도와 정확성이다. IBM은 1억 2,500만 개의 매개변수를 사용하는 ‘그래니트-가디언-hap-125m’도 오픈 소스로 공개하고 있지만 이번에 3,800만개의 매개 변수 모델을 새로 추가한 것이다.
매개 변수가 커지면 필터를 통해 부적합한 단어를 골라내는 데 많은 시간이 걸린다. 데이터 크기가 큰 만큼 연산에 더 많은 시간이 걸리고 전력 소모량도 그만큼 늘어난다. 이러한 속도와 전력 소모 문제를 해결하면서 정확성을 높이기 위해 IBM 연구진은 신경 구조 검색(neural architecture search)이라는 기술을 적용했다.
기존의 HAP 필터에서 사용하는 12개의 인공 신경 레이어를 8개 적은 4개로 줄이는 등의 방법을 통해 모델 크기를 축소해 속도를 향상한 것이다. IBM은 1억 2,500만 개의 매개 변수 모델이 가진 필터 성능의 95%의 정확도로 지연 시간은 줄인 모델 개발이 목적이었고, 그렇게 해서 탄생한 것이 이번에 공개한 그래니트-가디언-hap-38m 모델이라고 밝혔다.
HAP 필터 모델은 인종, 종교, 민족, 장애, 성별 등과 관련된 혐오 발언, 다른 사람을 괴롭히고 상처를 주는 모욕적인 언어, 다른 사람을 불쾌하게 하는 욕설 등을 걸러낼 수 있다. 이번에 공개한 그래니트-가디언-hap-38m((granite-guardian-hap-38m)은 영어를 지원한다.
⧉ Syndicated to WWW.CIOKOREA.COM
'🅣•TREND•TECHNOLOGY > ARTIFICIAL INTELLIGENCE' 카테고리의 다른 글
판매 촉진과 쇼핑 경험에도 AI가 도우미…아마존, 진화하는 생성형 AI로 판매자 지원 (0) | 2024.10.07 |
---|---|
AI 투자 1달러 당 4.6 달러 가치 창출…IDC, AI가 2030년 세계 GPT의 3.5% 차지 (0) | 2024.09.23 |
복잡한 추론을 더욱 효과적으로…오픈AI, o1-프리뷰 모델 공개 (0) | 2024.09.23 |
재무 업무 58%가 AI 사용…가트너, 데이터 및 전문 인재 부족 (0) | 2024.09.23 |
가상 옷 입어 보기에 생성형 AI활용 …구글 쇼핑, VTO 드레스까지 확대하며 진화 (0) | 2024.09.10 |
AI 활용 수준에 따른 5가지 유형…세일즈포스, ‘당신의 AI 페르소나는?’ (0) | 2024.09.06 |
스마트폰부터 이어폰까지 AI 품고 환골탈태…구글, 픽셀 9, 픽셀 워치 3, 픽셀 버즈 프로 2에 AI 탑재 (0) | 2024.08.16 |
AI 스튜디오 시장 2029년까지 38.4% 성장…데이터 민주화 수요가 성장 견인 (0) | 2024.08.13 |