표준 스케일러와 원 핫 인코딩의 차이점

표준 스케일링과 원-핫 인코딩은 모두 기계 학습에 사용되는 일반적인 전처리 기술이지만 서로 다른 목적으로 사용되며 다양한 유형의 데이터에 적용됩니다.

표준 스케일링은 수치 데이터를 평균과 단위 분산이 0이 되도록 변환하는 데 사용되는 기술입니다. 이는 데이터 세트의 기능 규모를 정규화하는 데 사용되며, 이는 입력 데이터가 0을 중심으로 하고 기능 전체에서 유사한 규모를 갖는다고 가정하는 특정 기계 학습 알고리즘에 유용할 수 있습니다. 표준 스케일링은 일반적으로 연속적인 수치 특성에 적용됩니다.

반면에 원-핫 인코딩은 범주형 데이터를 이진 특성 집합으로 표현하는 데 사용되는 기술입니다. 이는 범주형 기능을 기계 학습 알고리즘에 대한 입력으로 사용할 수 있는 형식으로 변환하는 데 사용됩니다. 원-핫 인코딩은 일반적으로 명목형 또는 순서형 범주형 데이터에 적용됩니다.

두 기술 간의 차이점을 설명하려면 다음 기능을 갖춘 데이터세트를 고려해 보세요.

이 데이터세트에서 '연령' 기능은 연속적인 숫자 기능인 반면 '성별' 및 '색상' 기능은 범주형 기능입니다. "Age" 기능에 표준 스케일링을 적용하여 스케일을 정규화할 수 있고, 원-핫 인코딩을 "Gender" 및 "Color" 기능에 적용하여 이진 기능으로 변환할 수 있습니다.

표준 스케일링과 원-핫 인코딩을 적용한 후 데이터 세트는 다음과 같을 수 있습니다.

이 예에서는 "Age" 기능은 표준 스케일링을 사용하여 표준화되었으며 "Gender" 및 "Color" 기능은 원-핫 인코딩을 사용하여 이진 기능으로 변환되었습니다. 이제 결과 데이터 세트를 기계 학습 알고리즘의 입력으로 사용할 수 있습니다.

호놀룰루

표준 스케일러와 원 핫 인코딩의 차이점

티스토리툴바