kmeans
개요
kmeans를 진행하는 명령어 입니다.
타입
설명
input으로 받은 DataFrame과 파라미터로 원하는 필드명, k 에대한 정보를 입력받습니다. 선택한 필드를 k개로 군집화시켜 데이터가 어떤 군집에 속하는지 알려주는 새로운 필드를 생성합니다.
Examples
데이터가 다음과 같이 존재합니다.
UPDATE_TIME |
in_bytes |
Country_abbr |
latitude |
longitude |
---|---|---|---|---|
2.02E+13 |
33216 |
KR |
37.5986 |
127.1394 |
2.02E+13 |
3539 |
CN |
35.23972 |
113.2331 |
2.02E+13 |
687 |
KR |
37.27917 |
127.4425 |
2.02E+13 |
435 |
JP |
34.35 |
134.05 |
2.02E+13 |
810 |
KR |
37.56826 |
126.9778 |
2.02E+13 |
42144 |
KR |
37.56826 |
126.9778 |
2.02E+13 |
19185 |
US |
42.03417 |
-91.5977 |
… |
… |
… |
… |
… |
latitude, longtitued 필드값을 이용해 군집화된 데이터의 label을 예측하는 prediction을 생성해 테이블에 추가하는 예
* | kmeans latitude,longitude k=3
명령어 이후 테이블
UPDATE_TIME |
in_bytes |
Country_abbr |
latitude |
longitude |
prediction |
---|---|---|---|---|---|
2.02E+13 |
33216 |
KR |
37.5986 |
127.1394 |
0 |
2.02E+13 |
3539 |
CN |
35.23972 |
113.2331 |
1 |
2.02E+13 |
687 |
KR |
37.27917 |
127.4425 |
1 |
2.02E+13 |
435 |
JP |
34.35 |
134.05 |
2 |
2.02E+13 |
810 |
KR |
37.56826 |
126.9778 |
0 |
2.02E+13 |
42144 |
KR |
37.56826 |
126.9778 |
0 |
2.02E+13 |
19185 |
US |
42.03417 |
-91.5977 |
2 |
… |
… |
… |
… |
… |
… |
Parameters
kmeans_command : fields k_param
이름 |
설명 |
필수/옵션 |
---|---|---|
fields |
학습에 사용될 특징 column을 입력 받습니다. |
필수 |
params |
군집의 개수 k에 대한 정보입니다. 입력한 k값을 이용해 군집화된 데이터의 label에 대한 정보를 담은 새로운 output 필드를 생성합니다. |
필수 |
Parameters BNF
kmeans_command : fields k_param
fields : field
| fields COMMA field
field : WORD
k_param : WORD EQUALS NUMBER
WORD = \w+
COMMA = ,
EQUALS = \=