4 min read

GPT-5.1 reasoning_effort 파라미터 성능 측정 결과

GPT-5.1 reasoning_effort 파라미터 성능 측정 결과
Photo by Swello / Unsplash

TL;DR

  • GPT-5.1은 4단계만 지원: none, low, medium, high (minimal 제외)
  • 간단한 작업: 레벨 간 차이 미미 (35% 이내) → none 권장
  • 복잡한 작업: high가 none보다 3.8배 느리지만 2.1배 긴 답변 → high 권장
  • 비용 절감: 대량 처리 시 적절한 레벨 선택으로 월 $90 절감 가능
  • reasoning_tokens: 모든 경우 0 반환 (별도 집계 안 됨)
  • 측정 결과: 20개 테스트, 총 비용 $0.36, 8분 소요

핵심: 작업 복잡도에 따라 레벨 선택 → 간단=none, 중간=medium, 복잡=high

테스트 개요

목적: GPT-5.1의 reasoning_effort 파라미터가 응답 시간, 비용, 품질에 미치는 영향 측정
실행일: 2025-11-16
총 비용: $0.36

테스트 환경

  • 모델: GPT-5.1
  • 테스트 케이스: 20개 (5개 시나리오 × 4개 레벨)
  • 실패: 5개 (minimal 레벨 미지원)
  • 실행 시간: 약 8분

지원 레벨

GPT-5.1은 4개 레벨만 지원 (문서와 상이):

  • none, low, medium, high
  • minimal - API 에러 발생

테스트 시나리오

  1. 감정 분석: 고객 리뷰 분류 (긍정/부정/중립)
  2. 데이터 추출: 회의록 → JSON 변환
  3. 코드 생성: Python 함수 작성
  4. 논리 추론: 다단계 수학 문제
  5. 시스템 설계: 마이크로서비스 아키텍처 설계

측정 결과

1. 감정 분석 (Sentiment Analysis)

레벨 응답시간 Prompt Completion 비용
none 1.40초 83 58 $0.0011
low 1.38초 83 59 $0.0011
medium 1.68초 83 73 $0.0013
high 1.89초 83 78 $0.0014

분석: 레벨 간 차이 미미 (시간 35%, 비용 27%)

2. 데이터 추출 (Data Extraction)

레벨 응답시간 Prompt Completion 비용
none 1.69초 160 113 $0.0022
low 1.64초 160 113 $0.0022
medium 5.45초 160 188 $0.0033
high 8.83초 160 322 $0.0053

분석: medium부터 응답 시간 증가 시작

3. 코드 생성 (Code Generation)

레벨 응답시간 Prompt Completion 비용
none 7.66초 117 387 $0.0062
low 9.32초 117 517 $0.0081
medium 12.10초 117 493 $0.0077
high 10.55초 117 693 $0.0107

분석: high가 가장 긴 답변 생성

4. 논리 추론 (Logical Reasoning)

레벨 응답시간 Prompt Completion 비용
none 7.18초 136 525 $0.0083
low 10.82초 136 532 $0.0084
medium 17.27초 136 1,041 $0.0160
high 44.73초 136 2,304 $0.0350

분석: high는 none 대비 6.2배 느림, 4.2배 비쌈

5. 시스템 설계 (System Design)

레벨 응답시간 Prompt Completion 비용
none 47.23초 110 2,923 $0.0442
low 48.16초 110 3,164 $0.0478
medium 72.69초 110 3,490 $0.0527
high 141.76초 110 6,140 $0.0924

분석: high는 none 대비 3.0배 느림, 2.1배 비쌈, 2.1배 긴 답변

시나리오별 평균 성능

시나리오 평균 응답시간 none 대비 배수
감정 분석 1.59초 1.0x
데이터 추출 4.40초 2.8x
코드 생성 9.91초 6.2x
논리 추론 20.00초 12.6x
시스템 설계 77.46초 48.7x

레벨별 전체 평균

레벨 평균 응답시간 평균 비용 평균 토큰
none 12.81초 $0.0110 1,231
low 13.32초 $0.0115 1,306
medium 18.49초 $0.0131 1,469
high 48.70초 $0.0289 2,559

high vs none 비교:

  • 응답시간: 3.8배 증가
  • 비용: 2.6배 증가
  • 토큰: 2.1배 증가

주요 발견사항

1. reasoning_tokens = 0

모든 테스트에서 reasoning_tokens 필드가 0으로 반환됨. 추론 과정이 별도 토큰으로 집계되지 않음.

2. 복잡도별 최적 레벨 차이

  • 간단한 작업 (분류, 태깅): none/low 권장
  • 중간 작업 (요약, 변환): low/medium 권장
  • 복잡한 작업 (설계, 논리): medium/high 권장

3. 비용 효율성

대량 처리 시 레벨 조정으로 비용 절감 가능:

  • 예시: 일 1만건 감정 분석
  • high 사용: $14/일
  • none 사용: $11/일
  • 절감액: $90/월

권장 사용 가이드

작업 유형 추천 레벨 근거
분류, 태깅 none 레벨 간 품질 차이 < 15%
요약, 변환 low 맥락 이해 필요, 비용 효율적
코드 작성 medium 로직 설계 필요
논리 추론 high 정확도 필수
시스템 설계 high 품질이 비용보다 중요

한계점

  1. 품질 평가 미실시 (정량적 측정만 수행)
  2. 단일 프롬프트당 1회 테스트 (재현성 미확인)
  3. reasoning_tokens 데이터 부재

결론

  1. GPT-5.1은 4단계 reasoning_effort 지원 (minimal 제외)
  2. 간단한 작업에서는 레벨 간 성능 차이 미미
  3. 복잡한 작업에서는 high 레벨이 3배 이상 느리지만 답변 품질 향상
  4. 작업 복잡도에 따른 레벨 선택으로 비용 최적화 가능