23 5월 2026 7 min read ai

AI로 설문조사를 대행한다. "Silicon Sampling"

들어가며

요즘 한 줄 클레임이 돈다. "AI 페르소나로 1,000명 설문을 10분 안에 받아볼 수 있다더라." 사실일까? 결론부터 — 기술적으로 사실이다. 다만 그 한 줄 뒤에는 학술적으로 의견이 갈리는 진영, 의외로 까다로운 구현 디테일, 절대 의사결정 근거로 써서는 안 되는 한계가 함께 붙어 있다. 이 글에서 셋 다 정리한다.

학술 지도 — Silicon Sampling 8편

LLM에 페르소나를 입혀 가상의 설문응답자를 만드는 기법을 Silicon Sampling이라 부른다. 2023년부터 학계가 네 카테고리로 진영을 형성했다.

A. 시초·방법론 (2023)

Argyle et al. Political Analysis 31(3) — "Out of One, Many". GPT-3에 인구통계 페르소나를 입히면 ANES 정치 설문의 그룹 평균을 근사한다는 가능성 최초 증명. 분야의 출발선.
Aher, Arriaga, Kalai ICML 2023 — TuringExperiment 프레임워크. Ultimatum Game · Garden Path 문장 처리 등 네 고전 인간 실험을 LLM으로 재현했다.
Horton NBER WP 31122 — Homo Silicus. LLM을 경제실험 에이전트로 두는 발상으로, 게임이론 응용 트랙을 열었다.

B. 대규모 응용·분기점 (2024)

Park et al. arXiv 2411.10109 — 스탠퍼드 + Google DeepMind. 미국인 1,052명을 각각 2시간 반구조화 인터뷰하고, 그 인터뷰 전문을 통째로 LLM 컨텍스트에 주입했다. 한 달 뒤 같은 사람에게 GSS · Big Five · 경제 게임을 재투입했을 때 AI 페르소나는 본인의 실제 응답을 86% 맞췄다 (인구통계만 줬을 때는 74%, +12%p). 처음으로 개인 단위 정확도를 정량화한 연구로, 분야의 분기점이 되었다.
Park et al. UIST 2023 — Generative Agents. 25명 페르소나 마을 시뮬레이션에서 발렌타인 파티의 자생적 조직화를 관찰했다. Silicon Sampling의 사회적 시뮬레이션 분파.

C. 비판·한계 (2023~2024)

Bisbee et al. Political Analysis — "Perils of LLMs". Argyle 반박 논문. GPT 페르소나는 group mean은 근사하나 분산이 과소되고 체계적 편향이 있다. 정책 결정 활용에 강한 경고.
Dillion, Tandon, Gu, Gray Trends in Cognitive Sciences 27(7) — 인지심리학 관점 4대 한계: 맥락 부재, 도덕 직관 결핍, 문화 균질화, 재현 불가.
Salecha et al. PNAS Nexus — LLM이 Big Five 검사에서 social desirability bias를 보이나 인간과 방향이 어긋난다.

D. 한국 맥락

Kim & Lee ACM CHI 2024 — KGSS(한국종합사회조사) 응용. 한국인 저자 작업으로 분야의 한국 확장점.

여덟 편을 한 줄로 합쳐보면 — 평균 근사는 OK, 개인 응답·분산·정책 결정은 위험.

한국 인프라 — Nemotron-Personas-Korea

NVIDIA가 2024년 말 한국 페르소나 100만 명을 Hugging Face에 공개했다 (CC BY 4.0, 상업 사용 가능). 26개 필드, 17개 시도 × 252개 시군구, 209,167개 이름 조합. KOSIS · 대법원 · 국민건강보험공단 통계를 기반으로 Gemma-4-31B-it가 합성했다. Park et al.의 미국 인프라에 대응하는 한국형 인프라가 시장에 들어왔다.

알아둘 한계는 분명하다. 직업 · 전공 · 성별 등이 독립 가정으로 생성되어 교호작용이 빠져 있고, Gemma-4의 학습 편향이 그대로 상속된다.

실제 구현 — 4단계 파이프라인

데이터셋과 학술 근거를 갖췄으면 진짜 질문이 남는다 — 어떻게 돌리나. 네 단계로 정리한다.

Step 1. 페르소나 추출

타겟 셀을 정의하고 datasets에서 필터링한다.

from datasets import load_dataset

df = load_dataset("nvidia/Nemotron-Personas-Korea", split="train").to_pandas()

target = df[
    (df["province"] == "서울특별시")
    & (df["age"].between(25, 35))
    & (df["sex"] == "여자")
].sample(1000, random_state=42)

100만 행에서 셀 1,000명 추출 — 16GB 노트북에서도 무난하다.

Step 2. 시스템 프롬프트 구성

Park et al.의 핵심 발견은 의외로 단순했다 — 요약하지 말고 통째로 컨텍스트에 넣어라. 한국 데이터셋은 인터뷰 transcript가 없으니, 7개 페르소나 필드(직업 · 스포츠 · 예술 · 여행 · 음식 · 가족 · 요약)와 인구통계 12 필드를 그대로 시스템 메시지로 옮긴다.

def build_system_prompt(row):
    return f"""당신은 다음 사람입니다. 이 사람이 답할 법한 방식으로 응답하세요.

- 거주: {row['province']} {row['district']}, {row['age']}세 {row['sex']}
- 교육: {row['education_level']} ({row['bachelors_field']})
- 직업: {row['occupation']}
- 가족: {row['family_type']}, 주거: {row['housing_type']}

페르소나:
{row['persona']}

직업 관점: {row['professional_persona']}
가족 관점: {row['family_persona']}
취미: {row['hobbies_and_interests']}
"""

Step 3. 설문 배치 호출

병렬 호출은 asyncio 또는 Anthropic Batch API. 1,000명 × Claude Haiku 4.5 기준으로 입력 1k + 출력 0.2k 토큰을 가정하면 약 2분, $1.5~$2 수준. JSON으로 응답 형식을 강제해 집계 단계 디버깅 비용을 줄인다.

async def ask_persona(client, system_prompt, question):
    msg = await client.messages.create(
        model="claude-haiku-4-5-20251001",
        system=system_prompt,
        messages=[{"role": "user", "content": question}],
        max_tokens=512,
    )
    return msg.content[0].text

# 1,000명 동시 호출은 rate limit에 막히니 세마포어로 50~100 동시

Step 4. 집계와 sanity check

분포 · 중심경향 · 왜도를 본다. 실 패널 데이터가 있으면 정확도(Park 방식)와 분산 보존율을 함께 계산한다 — 평균만 비교하면 Bisbee의 경고를 그대로 밟는다.

실 패널이 없을 때 sanity check 3가지: 이상치 비율, 동일 응답 클러스터(LLM이 "이상적 답"으로 수렴하는 신호), 응답 어휘 다양성(고유 토큰 비율).

한계와 안 쓰는 곳

쓰지 않는 곳을 먼저 정해두면 쓸 곳이 선명해진다.

❌ 의사결정 근거 데이터 — Bisbee 2024의 경고를 잊지 않는다. 분산 과소와 체계 편향
❌ 신상·최신 정보 의견 — 학습 cutoff 이후 정보에 LLM은 무지하다
❌ 일화형 회상 — "최근 친구와 식사 경험" 같은 합성 일화는 그럴듯하지만 가짜다
⚠️ 한국 맥락 일반화 — Park의 86%는 미국 결과. 한국에서 80%, 70%, 60% 어디로 떨어질지 별도 검증이 필요하다. Gemma-4의 학습 편향이 한국 데이터셋에 상속됐다는 점도 함께 고려해야 한다
⚠️ 비용 함정 — "싸다"는 명제는 인터뷰 데이터 수집 비용을 빼고 계산할 때만 성립한다. 본인을 인터뷰할 수 없는 대상에게는 방법론 자체가 닫힌다
⚠️ 인지심리·도덕 직관 한계 — Dillion et al. 2023이 정리한 맥락 부재 · 도덕 직관 결핍 · 문화 균질화 · 재현 불가. Salecha et al. 2024는 LLM이 인간과 다른 방향의 social desirability bias를 보인다고 지적한다

참고

Park, J. S., Zou, C. Q., Kamphorst, J., Egan, N., Shaw, A., Hill, B. M., Cai, C., Morris, M. R., Liang, P., Willer, R., & Bernstein, M. S. (2024). LLM Agents Grounded in Self-Reports Enable General-Purpose Simulation of Individuals. arXiv:2411.10109
Park, J. S., O'Brien, J. C., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023
Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J. R., Rytting, C., & Wingate, D. (2023). Out of One, Many: Using Language Models to Simulate Human Samples. Political Analysis 31(3)
Aher, G., Arriaga, R. I., & Kalai, A. T. (2023). Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies. ICML 2023
Horton, J. J. (2023). Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus? NBER WP 31122
Bisbee, J., Clinton, J., Dorff, C., Kenkel, B., & Larson, J. (2024). Synthetic Replacements for Human Survey Data? The Perils of Large Language Models. Political Analysis
Dillion, D., Tandon, N., Gu, Y., & Gray, K. (2023). Can AI Language Models Replace Human Participants? Trends in Cognitive Sciences 27(7)
Salecha, A., et al. (2024). LLMs Display Human-like Social Desirability Biases in Big Five Personality Surveys. PNAS Nexus
Kim, J., & Lee, B. (2024). AI-Augmented Surveys: Leveraging LLMs and Surveys for Opinion Prediction in Longitudinal Surveys. ACM CHI 2024
NVIDIA. (2024). Nemotron-Personas-Korea (CC BY 4.0)
사내 — 20260522 - Nemotron-Personas-Korea와 Silicon Sampling 기법