합성 데이터
- AI 알고리즘을 활용해 인위적으로 생성한 데이터
- 데이터 사용과 고객 정보 보호 규제를 위반하지 않고, AI를 개발할 수 있음
생성 방법
- Stochastic process
- Rule-based data generation
- Deep generative model
생성 시 평가 기준
- Computation
- Human Labor
- System Complexity
- Information
생성 방법 별 Challenges
Rule-based data generation
- 1) 규모가 커짐에 따라서 사람이 만든 Rule을 어떻게 대응해서 확장시킬지, 2) 그리고 사람이 하면서 자연스럽게 발생하는 편향을 어떻게 통제하고, 3) 최종 결과물을 이후 변경해 나갈 때 변경관리에 대한 방식은 여전히 문제임
Deep Generative Model
- 1) 생성된 데이터와 기존 데이터의 유사성을 측정하고 안정적으로 유지할 수 있어야 하며, 2) 과적합으로 인해서 기존 데이터와 매우 유사해져서 개인정보 이슈가 발생할 수 있는 부분을 회피해야 하며, 3) 각 주요 Feature가 의미하는 바를 모델이 최대한 반영해서 만들 수 있도록 설계가 요구됨
| | Stochastic Process | Rule Based System | Deep Genrative Model |
|---------------------|--------------------|------------------------------------------|------------------------------------------------------------|
| Computation | Low | Medium | High |
| Human Labor | Low | High | Low |
| System Complexity | Low | Medium | High |
| Information Content | None | None | High |
| 사례 | 성능부하 테스트 | 성능부하 테스트,간단한 소프트웨어 테스트 | 고급 분석, 머신러닝 모델 개발, 데이터 리텐션, 공동 연구 등 |
국내 시장규모 및 전망
- 2020년 기준 2,481억원으로 예상되고,
- 2024년 기준 5,752억원으로 CAGR 23.4% 예상 (중소벤처기업부 조사)
비즈니스 가치
해결해야 할 부분
- 목표한대로 데이터가 만들어졌는지 검증할 수 있는 구체적이고 정교한 회사시스템 및 측정 기준의 부재
- 문화적 저항. 예) "우리 회사에서는 안통해요", "전혀 안전해보이지 않는다" 등...
주요 핵심기술
- 이미지 데이터 합성 기술
- 머신러닝 학습데이터 증대 기술
- 합성 데이터 탐지 기술
- 데이터 비식별화 기술
- 시계열 데이터 합성 기술
관련 회사
References