16 11월 2025 4 min read GPT

GPT-5.1 reasoning_effort 파라미터 성능 측정 결과

Photo by Swello / Unsplash

TL;DR

GPT-5.1은 4단계만 지원: none, low, medium, high (minimal 제외)
간단한 작업: 레벨 간 차이 미미 (35% 이내) → none 권장
복잡한 작업: high가 none보다 3.8배 느리지만 2.1배 긴 답변 → high 권장
비용 절감: 대량 처리 시 적절한 레벨 선택으로 월 $90 절감 가능
reasoning_tokens: 모든 경우 0 반환 (별도 집계 안 됨)
측정 결과: 20개 테스트, 총 비용 $0.36, 8분 소요

핵심: 작업 복잡도에 따라 레벨 선택 → 간단=none, 중간=medium, 복잡=high

테스트 개요

목적: GPT-5.1의 reasoning_effort 파라미터가 응답 시간, 비용, 품질에 미치는 영향 측정
실행일: 2025-11-16
총 비용: $0.36

테스트 환경

모델: GPT-5.1
테스트 케이스: 20개 (5개 시나리오 × 4개 레벨)
실패: 5개 (minimal 레벨 미지원)
실행 시간: 약 8분

지원 레벨

GPT-5.1은 4개 레벨만 지원 (문서와 상이):

✅ none, low, medium, high
❌ minimal - API 에러 발생

테스트 시나리오

감정 분석: 고객 리뷰 분류 (긍정/부정/중립)
데이터 추출: 회의록 → JSON 변환
코드 생성: Python 함수 작성
논리 추론: 다단계 수학 문제
시스템 설계: 마이크로서비스 아키텍처 설계

측정 결과

1. 감정 분석 (Sentiment Analysis)

레벨	응답시간	Prompt	Completion	비용
none	1.40초	83	58	$0.0011
low	1.38초	83	59	$0.0011
medium	1.68초	83	73	$0.0013
high	1.89초	83	78	$0.0014

분석: 레벨 간 차이 미미 (시간 35%, 비용 27%)

2. 데이터 추출 (Data Extraction)

레벨	응답시간	Prompt	Completion	비용
none	1.69초	160	113	$0.0022
low	1.64초	160	113	$0.0022
medium	5.45초	160	188	$0.0033
high	8.83초	160	322	$0.0053

분석: medium부터 응답 시간 증가 시작

3. 코드 생성 (Code Generation)

레벨	응답시간	Prompt	Completion	비용
none	7.66초	117	387	$0.0062
low	9.32초	117	517	$0.0081
medium	12.10초	117	493	$0.0077
high	10.55초	117	693	$0.0107

분석: high가 가장 긴 답변 생성

4. 논리 추론 (Logical Reasoning)

레벨	응답시간	Prompt	Completion	비용
none	7.18초	136	525	$0.0083
low	10.82초	136	532	$0.0084
medium	17.27초	136	1,041	$0.0160
high	44.73초	136	2,304	$0.0350

분석: high는 none 대비 6.2배 느림, 4.2배 비쌈

5. 시스템 설계 (System Design)

레벨	응답시간	Prompt	Completion	비용
none	47.23초	110	2,923	$0.0442
low	48.16초	110	3,164	$0.0478
medium	72.69초	110	3,490	$0.0527
high	141.76초	110	6,140	$0.0924

분석: high는 none 대비 3.0배 느림, 2.1배 비쌈, 2.1배 긴 답변

시나리오별 평균 성능

시나리오	평균 응답시간	none 대비 배수
감정 분석	1.59초	1.0x
데이터 추출	4.40초	2.8x
코드 생성	9.91초	6.2x
논리 추론	20.00초	12.6x
시스템 설계	77.46초	48.7x

레벨별 전체 평균

레벨	평균 응답시간	평균 비용	평균 토큰
none	12.81초	$0.0110	1,231
low	13.32초	$0.0115	1,306
medium	18.49초	$0.0131	1,469
high	48.70초	$0.0289	2,559

high vs none 비교:

응답시간: 3.8배 증가
비용: 2.6배 증가
토큰: 2.1배 증가

주요 발견사항

1. reasoning_tokens = 0

모든 테스트에서 reasoning_tokens 필드가 0으로 반환됨. 추론 과정이 별도 토큰으로 집계되지 않음.

2. 복잡도별 최적 레벨 차이

간단한 작업 (분류, 태깅): none/low 권장
중간 작업 (요약, 변환): low/medium 권장
복잡한 작업 (설계, 논리): medium/high 권장

3. 비용 효율성

대량 처리 시 레벨 조정으로 비용 절감 가능:

예시: 일 1만건 감정 분석
high 사용: $14/일
none 사용: $11/일
절감액: $90/월

권장 사용 가이드

작업 유형	추천 레벨	근거
분류, 태깅	none	레벨 간 품질 차이 < 15%
요약, 변환	low	맥락 이해 필요, 비용 효율적
코드 작성	medium	로직 설계 필요
논리 추론	high	정확도 필수
시스템 설계	high	품질이 비용보다 중요

한계점

품질 평가 미실시 (정량적 측정만 수행)
단일 프롬프트당 1회 테스트 (재현성 미확인)
reasoning_tokens 데이터 부재

결론

GPT-5.1은 4단계 reasoning_effort 지원 (minimal 제외)
간단한 작업에서는 레벨 간 성능 차이 미미
복잡한 작업에서는 high 레벨이 3배 이상 느리지만 답변 품질 향상
작업 복잡도에 따른 레벨 선택으로 비용 최적화 가능