컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

알리바바, 긴 컨텍스트 추론 향상 학습 프레임워크 '큐원롱-L1' 공개

AI타임스 박찬
원문보기
속보
신화통신 "미·중 정상 통화...트럼프 요청"
[박찬 기자]
(사진=셔터스톡)

(사진=셔터스톡)


알리바바가 긴 컨텍스트 추론에 특화된 인공지능(AI) 학습 프레임워크를 공개했다. 이 기술은 수십만 토큰에 달하는 대용량 입력 데이터를 이해하고 분석할 수 있는 모델을 구현하는 데 초점을 맞추고 있다.

알리바바가 긴 입력에 대한 AI의 추론 능력을 대폭 향상할 수 있는 새로운 강화 학습(RL) 프레임워크 '큐원롱-L1(QwenLong-L1)'에 관한 논문을 아카이브에 게재했다.

최근 추론 모델의 문제 해결 능력은 RL을 통해 빠르게 향상하고 있다. 특히 '느린 사고(slow thinking)'처럼 인간과 유사한 단계적 전략 수립이 가능해지며 복잡한 과제 수행 능력이 강화되고 있다.

하지만, 이런 성능 향상은 대부분 약 4000토큰 이하의 짧은 컨텍스트에서 이뤄진다.

반면, 12만 토큰 이상의 긴 컨텍스트를 처리하는 능력은 여전히 미흡해, 방대한 규모의 정보를 다루는 분야에서는 추론 모델이 한계를 보였다는 지적이다.

알리바바 연구진은 추론 모델이 매우 긴 컨텍스트에서 성능을 발휘할 수 있도록 '장기 컨텍스트 추론 강화학습(long-context reasoning RL)'이라는 새로운 개념을 도입했다. 이는 모델이 방대한 분량의 텍스트에서 필요한 정보를 정확히 추출하고, 이를 기반으로 논리적인 추론을 수행할 수 있도록 돕는 3단계 학습 체계를 중심으로 설계됐다.



첫번째 단계는 '워밍업 지도 미세조정(SFT)'이다. 이 과정에서 모델은 장기 컨텍스트 추론 사례로 구성된 데이터셋을 활용해 학습하며, 긴 입력 문서에서 핵심 정보를 올바르게 파악하고 이를 정답에 연결하는 '그라운딩(grounding)' 능력을 갖추게 된다.

두번째 단계는 '커리큘럼 기반 단계적 RL'이다. 모델이 점진적으로 더 긴 입력을 다루도록 훈련 범위를 넓혀간다. 짧은 컨텍스트에서 습득한 추론 전략을 길어진 컨텍스트에 자연스럽게 확장하도록 유도, 학습의 불안정성과 비효율성을 최소화한다는 의도다.

마지막은 '난이도 기반 회고 샘플링'이다. 앞선 학습 과정에서 모델이 특히 어려움을 겪었던 사례를 다시 선별해 재학습함으로써, 모델의 문제 해결 능력을 강화한다.


또 큐원롱-L1은 기존 대형언어모델(LLM)의 수학적 정답 기반 평가 방식과 함께, 모델이 직접 답변의 의미적 일치성을 판단하는 '판사형 LLM(LLM-as-a-judge)' 방식 보상 체계를 동시에 도입했다. 이를 통해 복잡한 문서에서 표현 방식이 다양한 정답을 유연하게 평가할 수 있도록 했다는 설명이다.


알리바바는 문서 질의응답(DocQA) 과제를 통해 큐원롱-L1의 성능을 검증했다.

그 결과, '큐원롱-L1-32B' 모델은 앤트로픽의 '클로드 3.7 소네트 싱킹'과 비슷한 성능을 기록했으며, 오픈AI의 'o3-미니', 알리바바의 '큐원3-235B-A22B' 등보다 뛰어난 결과를 보였다.


더 작은 모델인 '큐원롱-L1-14B'도 '구글 제미나이 2.0 플래시 싱킹'과 '큐원3-32B'를 앞섰다.

특히 RL을 거친 큐원롱-L1은 단순한 응답 생성 능력을 넘어, 인간과 유사한 고차원적 추론 전략을 습득한 것으로 분석됐다.

우선, 모델은 문서 내 특정 내용을 답변과 명확히 연결 짓는 '그라운딩(grounding)' 능력을 갖추게 됐다. 이는 질문에 대한 근거를 문서에서 직접 찾아내고, 이를 바탕으로 답변을 구성할 수 있음을 의미한다.

또 복잡한 질문과 마주칠 경우, 문제를 여러 단계로 나눠 해결하는 '서브골(subgoal) 설정' 전략도 학습했다. 이를 통해 모델은 단일 질문에 얽매이지 않고, 단계별 접근을 통해 체계적으로 문제를 해결할 수 있다는 설명이다.

더불어, 추론 과정에서 잘못된 방향으로 진행되고 있다는 것을 인식하면, 그 지점을 되짚어 다시 올바른 경로로 진행하는 '백트래킹(backtracking)' 능력도 확인됐다.

마지막으로, 모델은 자신이 생성한 응답의 정확성을 다시 검토하고 필요시 수정을 시도하는 '자기 검증(self-verification)' 능력도 습득한 것으로 나타났다.

이런 고급 추론 행위들은 기존 LLM들이 처리하기 어려웠던 장기 컨텍스트 기반 문제 해결에서 큐원롱-L1이 더 정밀하고 신뢰도 높은 결과를 도출할 수 있도록 하는 핵심 요소다.

기존 모델이 불필요한 정보에 휘말려 오답을 내는 것과 달리, 큐원-L1은 신뢰도 높은 결과를 도출할 수 있음을 보여준다는 내용이다.

연구진은 큐원롱-L1이 긴 컨텍스트에서 깊이 있는 추론이 필요한 다양한 산업 분야에 즉시 적용 가능하다고 밝혔다. 특히, 수천페이지에 달하는 복잡한 기업 문서나 금융 보고서, 법률 계약서 등을 다루는 다양한 기업 업무에서 활용도가 매우 높을 것으로 봤다.

알리바바는 큐원롱-L1의 학습 레시피와 모델 가중치를 깃허브와 허깅페이스에 공개했다.

박찬 기자 [email protected]

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
OSZAR »