합성 데이터(Synthetic Data)에 대해서

합성 데이터

  • AI 알고리즘을 활용해 인위적으로 생성한 데이터
  • 데이터 사용과 고객 정보 보호 규제를 위반하지 않고, AI를 개발할 수 있음

생성 방법

  • Stochastic process
  • Rule-based data generation
  • Deep generative model

생성 시 평가 기준

  • Computation
  • Human Labor
  • System Complexity
  • Information

생성 방법 별 Challenges

Rule-based data generation

  • 1) 규모가 커짐에 따라서 사람이 만든 Rule을 어떻게 대응해서 확장시킬지, 2) 그리고 사람이 하면서 자연스럽게 발생하는 편향을 어떻게 통제하고, 3) 최종 결과물을 이후 변경해 나갈 때 변경관리에 대한 방식은 여전히 문제임

Deep Generative Model

  • 1) 생성된 데이터와 기존 데이터의 유사성을 측정하고 안정적으로 유지할 수 있어야 하며, 2) 과적합으로 인해서 기존 데이터와 매우 유사해져서 개인정보 이슈가 발생할 수 있는 부분을 회피해야 하며, 3) 각 주요 Feature가 의미하는 바를 모델이 최대한 반영해서 만들 수 있도록 설계가 요구됨
|                     | Stochastic Process | Rule Based System                        | Deep Genrative Model                                       |
|---------------------|--------------------|------------------------------------------|------------------------------------------------------------|
| Computation         | Low                | Medium                                   | High                                                       |
| Human Labor         | Low                | High                                     | Low                                                        |
| System Complexity   | Low                | Medium                                   | High                                                       |
| Information Content | None               | None                                     | High                                                       |
| 사례                 | 성능부하 테스트        | 성능부하 테스트,간단한 소프트웨어 테스트 | 고급 분석, 머신러닝 모델 개발, 데이터 리텐션, 공동 연구 등 |

국내 시장규모 및 전망

  • 2020년 기준 2,481억원으로 예상되고,
  • 2024년 기준 5,752억원으로 CAGR 23.4% 예상 (중소벤처기업부 조사)

비즈니스 가치

  • 보안, 속도 스케일

해결해야 할 부분

  • 목표한대로 데이터가 만들어졌는지 검증할 수 있는 구체적이고 정교한 회사시스템 및 측정 기준의 부재
  • 문화적 저항. 예) "우리 회사에서는 안통해요", "전혀 안전해보이지 않는다" 등...

주요 핵심기술

  • 이미지 데이터 합성 기술
  • 머신러닝  학습데이터 증대 기술
  • 합성 데이터 탐지 기술
  • 데이터 비식별화 기술
  • 시계열 데이터 합성 기술

관련 회사

References