컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

연세대, 웹 브라우저 AI 에이전트 성능 개선하는 보상 모델 '웹-셰퍼드' 소개

AI타임스 박찬
원문보기
속보
청와대재단 "대통령 집무실 복귀에 7월14일까지 현행 관람 유지"
[박찬 기자]

웹에서 정보를 검색하거나 상품을 구매하고 서비스를 예약하는 과정은 인간에게는 자연스러운 일이지만, 인공지능(AI)에게는 복잡한 결정과 반복적인 판단이 요구되는 도전적인 과제다. 이런 한계를 극복하기 위해 AI 에이전트의 웹 탐색 능력을 향상할 수 있는 새로운 보상 모델이 등장했다.

연세대학교와 카네기멜론대학교(CMU) 연구진은 28일(현지시간) 복잡한 웹 탐색 작업에서 AI의 판단력과 효율성을 끌어올리는 새로운 보상 모델 '웹-셰퍼드(WEB-SHEPHERD)'에 관한 논문을 아카이브에 게재했다.

웹 브라우저 에이전트는 다양한 형태의 에이전트 중 가장 먼저 등장한 형태로, 현재 앤트로픽의 '컴퓨터 유즈'나 오픈AI의 '오퍼레이터', 구글의 '프로젝트 매리너' 등이 출시됐다.

그러나 웹 에이전트를 개발하는 것은 쉽지 않은 과제다. 웹 구조를 이해하고, 사용자 목표를 해석하며, 클릭이나 스크롤 등 복잡한 다단계 작업을 수행해야 하기 때문이다. 여기에 웹 페이지의 동적 변화나 텍스트와 이미지가 혼합된 멀티모달 정보까지 고려해야 해, 에이전트의 실시간 적응 능력도 요구된다.

이런 과제 중에도 가장 어려운 점은 에이전트의 행동을 정밀하게 평가하고 보상할 수 있는 보상 모델을 구축하기 어렵다는 것이다.

현재는 'GPT-4o'나 'GPT-4o-미니' 같은 멀티모달(LMM)을 평가자로 사용하는 방식이 일반적이다. 그러나, 이들은 비용이 높고 처리 속도가 느리며 특히 긴 작업 시퀀스에서는 부정확한 평가를 내리는 경우가 많다. 대부분 이진(성공/실패) 피드백이나 프롬프트 기반 평가 방식에 의존해, 중간 단계에서 버튼 클릭이나 양식 입력 등 중요한 단계를 놓치는 오류가 자주 발생한다.



이 문제를 해결하기 위해 연구진은 웹 탐색 과정을 한 단계씩 평가할 수 있는 최초의 과정 보상 모델(Process Reward Model)인 웹-셰퍼드를 개발했다.

이 모델은 '상품 검색하기'나 '상품 상세 페이지 클릭'과 같은 하위 목표를 체크리스트로 구성하고, 각 단계가 성공적으로 수행됐는지를 평가한다. 이후 '예(Yes)', '아니오(No)', '진행 중(In Progress)' 등의 예측 결과를 기반으로 보상을 할당한다.

다양한 분야와 난이도를 포함한 4만개의 단계별 작업 쌍과 체크리스트로 구성된 대규모 데이터셋 '웹PRM 컬렉션(WebPRM Collection)'을 구축했다. 또 PRM의 성능을 평가할 수 있는 첫번째 벤치마크인 '웹리워드벤치(WebRewardBench)'을 만들었다.



웹-셰퍼드는 기존 모델보다 성능이 훨씬 뛰어났다.

웹 탐색 평가 벤치마크인 '웹리워드벤치'에서 평균 점수 87.6%와 경로 정확도 55%를 기록했다. GPT-4o-미니는 각각 47.5%와 0%에 그쳤다.

'웹아레나-라이트(WebArena-lite)'에서도 성공률 34.55%를 기록해, GPT-4o-미니보다 10.9%포인트 더 높은 성과를 보였다. 특히, 비용 면에서는 기존 방법보다 10배나 더 효율적이었다.


또 연구진은 실험을 통해 체크리스트나 피드백 기능이 없으면 웹-셰퍼드의 성능이 크게 떨어진다는 사실을 확인했다. 이를 통해 이 두 요소가 정확한 보상 평가에 매우 중요하다는 것을 알 수 있었다.

흥미로운 점은, 텍스트와 이미지를 함께 사용하는 멀티모달 입력이 항상 도움이 되는 것은 아니었고, 오히려 성능을 방해하는 경우도 있었다.

연구진은 웹-셰퍼드의 모델 가중치와 코드를 허깅페이스와 깃허브에 공개했다.

박찬 기자 [email protected]

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
OSZAR »