kmeans¶
개요¶
kmeans를 진행하는 명령어 입니다.
설명¶
input으로 받은 DataFrame과 파라미터로 원하는 필드명, k 에대한 정보를 입력받습니다. 선택한 필드를 k개로 군집화시켜 데이터가 어떤 군집에 속하는지 알려주는 새로운 필드를 생성합니다.
Examples¶
데이터가 다음과 같이 존재합니다.
UPDATE_TIME | in_bytes | Country_abbr | latitude | longitude |
---|---|---|---|---|
2.02E+13 | 33216 | KR | 37.5986 | 127.1394 |
2.02E+13 | 3539 | CN | 35.23972 | 113.2331 |
2.02E+13 | 687 | KR | 37.27917 | 127.4425 |
2.02E+13 | 435 | JP | 34.35 | 134.05 |
2.02E+13 | 810 | KR | 37.56826 | 126.9778 |
2.02E+13 | 42144 | KR | 37.56826 | 126.9778 |
2.02E+13 | 19185 | US | 42.03417 | -91.5977 |
… | … | … | … | … |
latitude, longtitued 필드값을 이용해 군집화된 데이터의 label을 예측하는 prediction을 생성해 테이블에 추가하는 예
* | kmeans latitude,longitude k=3
명령어 이후 테이블
UPDATE_TIME | in_bytes | Country_abbr | latitude | longitude | prediction |
---|---|---|---|---|---|
2.02E+13 | 33216 | KR | 37.5986 | 127.1394 | 0 |
2.02E+13 | 3539 | CN | 35.23972 | 113.2331 | 1 |
2.02E+13 | 687 | KR | 37.27917 | 127.4425 | 1 |
2.02E+13 | 435 | JP | 34.35 | 134.05 | 2 |
2.02E+13 | 810 | KR | 37.56826 | 126.9778 | 0 |
2.02E+13 | 42144 | KR | 37.56826 | 126.9778 | 0 |
2.02E+13 | 19185 | US | 42.03417 | -91.5977 | 2 |
… | … | … | … | … | … |
Parameters¶
kmeans_command : fields k_param
이름 | 설명 | 필수/옵션 |
---|---|---|
fields | 학습에 사용될 특징 column을 입력 받습니다. | 필수 |
params | 군집의 개수 k에 대한 정보입니다. 입력한 k값을 이용해 군집화된 데이터의 label에 대한 정보를 담은 새로운 output 필드를 생성합니다. 예 : k=3 |
필수 |
Parameters BNF¶
kmeans_command : fields k_param
fields : field
| fields COMMA field
field : WORD
k_param : WORD EQUALS NUMBER
WORD = \w+
COMMA = ,
EQUALS = \=