kmeans

개요

kmeans를 진행하는 명령어 입니다.

설명

input으로 받은 DataFrame과 파라미터로 원하는 필드명, k 에대한 정보를 입력받습니다. 선택한 필드를 k개로 군집화시켜 데이터가 어떤 군집에 속하는지 알려주는 새로운 필드를 생성합니다.

Examples

데이터가 다음과 같이 존재합니다.

UPDATE_TIME in_bytes Country_abbr latitude longitude
2.02E+13 33216 KR 37.5986 127.1394
2.02E+13 3539 CN 35.23972 113.2331
2.02E+13 687 KR 37.27917 127.4425
2.02E+13 435 JP 34.35 134.05
2.02E+13 810 KR 37.56826 126.9778
2.02E+13 42144 KR 37.56826 126.9778
2.02E+13 19185 US 42.03417 -91.5977

latitude, longtitued 필드값을 이용해 군집화된 데이터의 label을 예측하는 prediction을 생성해 테이블에 추가하는 예

* |  kmeans latitude,longitude k=3

명령어 이후 테이블

UPDATE_TIME in_bytes Country_abbr latitude longitude prediction
2.02E+13 33216 KR 37.5986 127.1394 0
2.02E+13 3539 CN 35.23972 113.2331 1
2.02E+13 687 KR 37.27917 127.4425 1
2.02E+13 435 JP 34.35 134.05 2
2.02E+13 810 KR 37.56826 126.9778 0
2.02E+13 42144 KR 37.56826 126.9778 0
2.02E+13 19185 US 42.03417 -91.5977 2

Parameters

kmeans_command : fields k_param
이름 설명 필수/옵션
fields 학습에 사용될 특징 column을 입력 받습니다. 필수
params 군집의 개수 k에 대한 정보입니다. 입력한 k값을 이용해 군집화된 데이터의 label에 대한 정보를 담은 새로운 output 필드를 생성합니다.
예 : k=3
필수

Parameters BNF

kmeans_command : fields k_param
fields : field
       | fields COMMA field
field : WORD
k_param : WORD EQUALS NUMBER

WORD = \w+
COMMA = ,
EQUALS = \=