AI로 설문조사를 대행한다. "Silicon Sampling"
들어가며
요즘 한 줄 클레임이 돈다. "AI 페르소나로 1,000명 설문을 10분 안에 받아볼 수 있다더라." 사실일까? 결론부터 — 기술적으로 사실이다. 다만 그 한 줄 뒤에는 학술적으로 의견이 갈리는 진영, 의외로 까다로운 구현 디테일, 절대 의사결정 근거로 써서는 안 되는 한계가 함께 붙어 있다. 이 글에서 셋 다 정리한다.
학술 지도 — Silicon Sampling 8편
LLM에 페르소나를 입혀 가상의 설문응답자를 만드는 기법을 Silicon Sampling이라 부른다. 2023년부터 학계가 네 카테고리로 진영을 형성했다.
A. 시초·방법론 (2023)
- Argyle et al. Political Analysis 31(3) — "Out of One, Many". GPT-3에 인구통계 페르소나를 입히면 ANES 정치 설문의 그룹 평균을 근사한다는 가능성 최초 증명. 분야의 출발선.
- Aher, Arriaga, Kalai ICML 2023 — TuringExperiment 프레임워크. Ultimatum Game · Garden Path 문장 처리 등 네 고전 인간 실험을 LLM으로 재현했다.
- Horton NBER WP 31122 — Homo Silicus. LLM을 경제실험 에이전트로 두는 발상으로, 게임이론 응용 트랙을 열었다.
B. 대규모 응용·분기점 (2024)
- Park et al. arXiv 2411.10109 — 스탠퍼드 + Google DeepMind. 미국인 1,052명을 각각 2시간 반구조화 인터뷰하고, 그 인터뷰 전문을 통째로 LLM 컨텍스트에 주입했다. 한 달 뒤 같은 사람에게 GSS · Big Five · 경제 게임을 재투입했을 때 AI 페르소나는 본인의 실제 응답을 86% 맞췄다 (인구통계만 줬을 때는 74%, +12%p). 처음으로 개인 단위 정확도를 정량화한 연구로, 분야의 분기점이 되었다.
- Park et al. UIST 2023 — Generative Agents. 25명 페르소나 마을 시뮬레이션에서 발렌타인 파티의 자생적 조직화를 관찰했다. Silicon Sampling의 사회적 시뮬레이션 분파.
C. 비판·한계 (2023~2024)
- Bisbee et al. Political Analysis — "Perils of LLMs". Argyle 반박 논문. GPT 페르소나는 group mean은 근사하나 분산이 과소되고 체계적 편향이 있다. 정책 결정 활용에 강한 경고.
- Dillion, Tandon, Gu, Gray Trends in Cognitive Sciences 27(7) — 인지심리학 관점 4대 한계: 맥락 부재, 도덕 직관 결핍, 문화 균질화, 재현 불가.
- Salecha et al. PNAS Nexus — LLM이 Big Five 검사에서 social desirability bias를 보이나 인간과 방향이 어긋난다.
D. 한국 맥락
- Kim & Lee ACM CHI 2024 — KGSS(한국종합사회조사) 응용. 한국인 저자 작업으로 분야의 한국 확장점.
여덟 편을 한 줄로 합쳐보면 — 평균 근사는 OK, 개인 응답·분산·정책 결정은 위험.
한국 인프라 — Nemotron-Personas-Korea
NVIDIA가 2024년 말 한국 페르소나 100만 명을 Hugging Face에 공개했다 (CC BY 4.0, 상업 사용 가능). 26개 필드, 17개 시도 × 252개 시군구, 209,167개 이름 조합. KOSIS · 대법원 · 국민건강보험공단 통계를 기반으로 Gemma-4-31B-it가 합성했다. Park et al.의 미국 인프라에 대응하는 한국형 인프라가 시장에 들어왔다.
알아둘 한계는 분명하다. 직업 · 전공 · 성별 등이 독립 가정으로 생성되어 교호작용이 빠져 있고, Gemma-4의 학습 편향이 그대로 상속된다.
실제 구현 — 4단계 파이프라인
데이터셋과 학술 근거를 갖췄으면 진짜 질문이 남는다 — 어떻게 돌리나. 네 단계로 정리한다.
Step 1. 페르소나 추출
타겟 셀을 정의하고 datasets에서 필터링한다.
from datasets import load_dataset
df = load_dataset("nvidia/Nemotron-Personas-Korea", split="train").to_pandas()
target = df[
(df["province"] == "서울특별시")
& (df["age"].between(25, 35))
& (df["sex"] == "여자")
].sample(1000, random_state=42)
100만 행에서 셀 1,000명 추출 — 16GB 노트북에서도 무난하다.
Step 2. 시스템 프롬프트 구성
Park et al.의 핵심 발견은 의외로 단순했다 — 요약하지 말고 통째로 컨텍스트에 넣어라. 한국 데이터셋은 인터뷰 transcript가 없으니, 7개 페르소나 필드(직업 · 스포츠 · 예술 · 여행 · 음식 · 가족 · 요약)와 인구통계 12 필드를 그대로 시스템 메시지로 옮긴다.
def build_system_prompt(row):
return f"""당신은 다음 사람입니다. 이 사람이 답할 법한 방식으로 응답하세요.
- 거주: {row['province']} {row['district']}, {row['age']}세 {row['sex']}
- 교육: {row['education_level']} ({row['bachelors_field']})
- 직업: {row['occupation']}
- 가족: {row['family_type']}, 주거: {row['housing_type']}
페르소나:
{row['persona']}
직업 관점: {row['professional_persona']}
가족 관점: {row['family_persona']}
취미: {row['hobbies_and_interests']}
"""
Step 3. 설문 배치 호출
병렬 호출은 asyncio 또는 Anthropic Batch API. 1,000명 × Claude Haiku 4.5 기준으로 입력 1k + 출력 0.2k 토큰을 가정하면 약 2분, $1.5~$2 수준. JSON으로 응답 형식을 강제해 집계 단계 디버깅 비용을 줄인다.
async def ask_persona(client, system_prompt, question):
msg = await client.messages.create(
model="claude-haiku-4-5-20251001",
system=system_prompt,
messages=[{"role": "user", "content": question}],
max_tokens=512,
)
return msg.content[0].text
# 1,000명 동시 호출은 rate limit에 막히니 세마포어로 50~100 동시
Step 4. 집계와 sanity check
분포 · 중심경향 · 왜도를 본다. 실 패널 데이터가 있으면 정확도(Park 방식)와 분산 보존율을 함께 계산한다 — 평균만 비교하면 Bisbee의 경고를 그대로 밟는다.
실 패널이 없을 때 sanity check 3가지: 이상치 비율, 동일 응답 클러스터(LLM이 "이상적 답"으로 수렴하는 신호), 응답 어휘 다양성(고유 토큰 비율).
한계와 안 쓰는 곳
쓰지 않는 곳을 먼저 정해두면 쓸 곳이 선명해진다.
- ❌ 의사결정 근거 데이터 — Bisbee 2024의 경고를 잊지 않는다. 분산 과소와 체계 편향
- ❌ 신상·최신 정보 의견 — 학습 cutoff 이후 정보에 LLM은 무지하다
- ❌ 일화형 회상 — "최근 친구와 식사 경험" 같은 합성 일화는 그럴듯하지만 가짜다
- ⚠️ 한국 맥락 일반화 — Park의 86%는 미국 결과. 한국에서 80%, 70%, 60% 어디로 떨어질지 별도 검증이 필요하다. Gemma-4의 학습 편향이 한국 데이터셋에 상속됐다는 점도 함께 고려해야 한다
- ⚠️ 비용 함정 — "싸다"는 명제는 인터뷰 데이터 수집 비용을 빼고 계산할 때만 성립한다. 본인을 인터뷰할 수 없는 대상에게는 방법론 자체가 닫힌다
- ⚠️ 인지심리·도덕 직관 한계 — Dillion et al. 2023이 정리한 맥락 부재 · 도덕 직관 결핍 · 문화 균질화 · 재현 불가. Salecha et al. 2024는 LLM이 인간과 다른 방향의 social desirability bias를 보인다고 지적한다
참고
- Park, J. S., Zou, C. Q., Kamphorst, J., Egan, N., Shaw, A., Hill, B. M., Cai, C., Morris, M. R., Liang, P., Willer, R., & Bernstein, M. S. (2024). LLM Agents Grounded in Self-Reports Enable General-Purpose Simulation of Individuals. arXiv:2411.10109
- Park, J. S., O'Brien, J. C., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST 2023
- Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J. R., Rytting, C., & Wingate, D. (2023). Out of One, Many: Using Language Models to Simulate Human Samples. Political Analysis 31(3)
- Aher, G., Arriaga, R. I., & Kalai, A. T. (2023). Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies. ICML 2023
- Horton, J. J. (2023). Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus? NBER WP 31122
- Bisbee, J., Clinton, J., Dorff, C., Kenkel, B., & Larson, J. (2024). Synthetic Replacements for Human Survey Data? The Perils of Large Language Models. Political Analysis
- Dillion, D., Tandon, N., Gu, Y., & Gray, K. (2023). Can AI Language Models Replace Human Participants? Trends in Cognitive Sciences 27(7)
- Salecha, A., et al. (2024). LLMs Display Human-like Social Desirability Biases in Big Five Personality Surveys. PNAS Nexus
- Kim, J., & Lee, B. (2024). AI-Augmented Surveys: Leveraging LLMs and Surveys for Opinion Prediction in Longitudinal Surveys. ACM CHI 2024
- NVIDIA. (2024). Nemotron-Personas-Korea (CC BY 4.0)
- 사내 — 20260522 - Nemotron-Personas-Korea와 Silicon Sampling 기법
Member discussion