kmeans

개요

kmeans를 진행하는 명령어 입니다.

타입

설명

input으로 받은 DataFrame과 파라미터로 원하는 필드명, k 에대한 정보를 입력받습니다. 선택한 필드를 k개로 군집화시켜 데이터가 어떤 군집에 속하는지 알려주는 새로운 필드를 생성합니다.

Examples

데이터가 다음과 같이 존재합니다.

UPDATE_TIME

in_bytes

Country_abbr

latitude

longitude

2.02E+13

33216

KR

37.5986

127.1394

2.02E+13

3539

CN

35.23972

113.2331

2.02E+13

687

KR

37.27917

127.4425

2.02E+13

435

JP

34.35

134.05

2.02E+13

810

KR

37.56826

126.9778

2.02E+13

42144

KR

37.56826

126.9778

2.02E+13

19185

US

42.03417

-91.5977

latitude, longtitued 필드값을 이용해 군집화된 데이터의 label을 예측하는 prediction을 생성해 테이블에 추가하는 예

* |  kmeans latitude,longitude k=3

명령어 이후 테이블

UPDATE_TIME

in_bytes

Country_abbr

latitude

longitude

prediction

2.02E+13

33216

KR

37.5986

127.1394

0

2.02E+13

3539

CN

35.23972

113.2331

1

2.02E+13

687

KR

37.27917

127.4425

1

2.02E+13

435

JP

34.35

134.05

2

2.02E+13

810

KR

37.56826

126.9778

0

2.02E+13

42144

KR

37.56826

126.9778

0

2.02E+13

19185

US

42.03417

-91.5977

2

Parameters

kmeans_command : fields k_param

이름

설명

필수/옵션

fields

학습에 사용될 특징 column을 입력 받습니다.

필수

params

군집의 개수 k에 대한 정보입니다. 입력한 k값을 이용해 군집화된 데이터의 label에 대한 정보를 담은 새로운 output 필드를 생성합니다.
예 : k=3

필수

Parameters BNF

kmeans_command : fields k_param
fields : field
       | fields COMMA field
field : WORD
k_param : WORD EQUALS NUMBER

WORD = \w+
COMMA = ,
EQUALS = \=