kmeans
개요
kmeans를 진행하는 명령어 입니다.
타입
설명
input으로 받은 DataFrame과 파라미터로 원하는 필드명, k 에대한 정보를 입력받습니다. 선택한 필드를 k개로 군집화시켜 데이터가 어떤 군집에 속하는지 알려주는 새로운 필드를 생성합니다.
Examples
데이터가 다음과 같이 존재합니다.
| UPDATE_TIME | in_bytes | Country_abbr | latitude | longitude | 
|---|---|---|---|---|
| 2.02E+13 | 33216 | KR | 37.5986 | 127.1394 | 
| 2.02E+13 | 3539 | CN | 35.23972 | 113.2331 | 
| 2.02E+13 | 687 | KR | 37.27917 | 127.4425 | 
| 2.02E+13 | 435 | JP | 34.35 | 134.05 | 
| 2.02E+13 | 810 | KR | 37.56826 | 126.9778 | 
| 2.02E+13 | 42144 | KR | 37.56826 | 126.9778 | 
| 2.02E+13 | 19185 | US | 42.03417 | -91.5977 | 
| … | … | … | … | … | 
latitude, longtitued 필드값을 이용해 군집화된 데이터의 label을 예측하는 prediction을 생성해 테이블에 추가하는 예
* |  kmeans latitude,longitude k=3
명령어 이후 테이블
| UPDATE_TIME | in_bytes | Country_abbr | latitude | longitude | prediction | 
|---|---|---|---|---|---|
| 2.02E+13 | 33216 | KR | 37.5986 | 127.1394 | 0 | 
| 2.02E+13 | 3539 | CN | 35.23972 | 113.2331 | 1 | 
| 2.02E+13 | 687 | KR | 37.27917 | 127.4425 | 1 | 
| 2.02E+13 | 435 | JP | 34.35 | 134.05 | 2 | 
| 2.02E+13 | 810 | KR | 37.56826 | 126.9778 | 0 | 
| 2.02E+13 | 42144 | KR | 37.56826 | 126.9778 | 0 | 
| 2.02E+13 | 19185 | US | 42.03417 | -91.5977 | 2 | 
| … | … | … | … | … | … | 
Parameters
kmeans_command : fields k_param
| 이름 | 설명 | 필수/옵션 | 
|---|---|---|
| fields | 학습에 사용될 특징 column을 입력 받습니다. | 필수 | 
| params | 군집의 개수 k에 대한 정보입니다. 입력한 k값을 이용해 군집화된 데이터의 label에 대한 정보를 담은 새로운 output 필드를 생성합니다. | 필수 | 
Parameters BNF
kmeans_command : fields k_param
fields : field
       | fields COMMA field
field : WORD
k_param : WORD EQUALS NUMBER
WORD = \w+
COMMA = ,
EQUALS = \=