sampling¶
sampling 명령어 문법 및 연동규격 설명서 입니다.
개요¶
이 명령어는 Data-Discovery-Service ML 관련 명령어 이며, 사용자가 입력한 수 만큼의 데이터를 반환합니다.
설명¶
이 명령어는 사용자가 입력한 수 만큼 랜덤으로 기존의 데이터 프레임에서 선택하여 반환합니다. Count 와 Ratio 방법을 지원하며, 각각 n개의 랜덤 데이터, n(%)의 랜덤 데이터를 의미합니다.
Examples¶
- 앞서 넘어온 데이터가 다음과 같습니다.
index | id | value |
---|---|---|
0 | a | 654 |
1 | b | 1958 |
2 | c | 835 |
3 | d | 9841 |
4 | e | 65 |
- COUNT 방법을 적용한 경우.
... | sampling COUNT 3
명령어 이후 테이블
index | id | value |
---|---|---|
2 | c | 835 |
0 | a | 654 |
1 | b | 1958 |
- RATIO 방법을 적용한 경우.
... | sampling RATIO 0.2
명령어 이후 테이블
index | id | value |
---|---|---|
0 | a | 654 |
Parameters¶
... | sampling ALG portion
이름 | 설명 | 필수/옵션 |
---|---|---|
ALG |
sampling 방법 입니다. 아래 표의 alg를 지원합니다. | 필수 |
portion |
취하고자 하는 데이터 개수를 의미 합니다. 정수의 숫자는 개수를 의미하고, 소숫점을 포함한 1.0> n > 0.0 의 수는 전체 데이터 중의 비율을 의미합니다. ex) 100개의 데이터 중 20 -> 20개의 데이터0.4 -> 40개의 데이터 |
필수 |
alg
list
alg | description |
---|---|
COUNT | n 개의 랜덤 데이터를 반환합니다. |
RATIO | n(%)의 랜덤 데이터를 반환합니다. |
Parameters BNF¶
sampling_command : alg portion
alg : COUNT
| RATIO
portion : NUMBER
| double
double : NUMBER DOT NUMBER
DOT : \.
COUNT : (?i)count
RATIO : (?i)ratio
NUMBER : \d+