본문 바로가기

분류 전체보기31

오분류표 & 평가 지표 정밀도 = 예측을 positive로 한 대상 중 / 실제값이 positive로 일치한 데이터의 비율 (영화 밀정에서 일본군 유무를 예측만 하다가 / 실제 일본군을 찾는 경우라고 생각) 민감도/재현율 = 실제로 Positive인 것중 / 예측하여 Positive로 잘 찾아낸 비율 (실제로 항상 긍정적인 김민재가 / 예측 수비를 성공했을 때를 생각) 특이도 = 실제로 Negative인 대상 중 Negative로 예측하여 잘 찾아낸 비율 (어떤 사람이 평시와 다른 점(-)을 예측으로 잘 찾아냄(-), 특이한 상황 전문가, 그래서 특이도) 2024. 2. 20.
표준 스케일러와 원 핫 인코딩의 차이점 표준 스케일링과 원-핫 인코딩은 모두 기계 학습에 사용되는 일반적인 전처리 기술이지만 서로 다른 목적으로 사용되며 다양한 유형의 데이터에 적용됩니다. 표준 스케일링은 수치 데이터를 평균과 단위 분산이 0이 되도록 변환하는 데 사용되는 기술입니다. 이는 데이터 세트의 기능 규모를 정규화하는 데 사용되며, 이는 입력 데이터가 0을 중심으로 하고 기능 전체에서 유사한 규모를 갖는다고 가정하는 특정 기계 학습 알고리즘에 유용할 수 있습니다. 표준 스케일링은 일반적으로 연속적인 수치 특성에 적용됩니다. 반면에 원-핫 인코딩은 범주형 데이터를 이진 특성 집합으로 표현하는 데 사용되는 기술입니다. 이는 범주형 기능을 기계 학습 알고리즘에 대한 입력으로 사용할 수 있는 형식으로 변환하는 데 사용됩니다. 원-핫 인코딩은.. 2024. 2. 19.
About "AXIS" Axis in Series Series is a one-dimensional array of values. Under the hood, it uses NumPy ndarray. That is where the term “axis” came from. NumPy uses it quite frequently because ndarray can have a lot of dimensions. Series object has only “axis 0” because it has only one dimension. The arrow on the image displays “axis 0” and its direction for the Series object. Usually, in Python, one-dimensio.. 2024. 2. 19.
Hyperparameter Tuning with GridSearchCV In almost any Machine Learning project, we train different models on the dataset and select the one with the best performance. However, there is room for improvement as we cannot say for sure that this particular model is best for the problem at hand. Hence, our aim is to improve the model in any way possible. One important factor in the performances of these models are their hyperparameters, on.. 2024. 2. 19.
트리계열 알고리즘이 표준화 / 정규화가 필요하지 않은 이유는? 머신러닝에서 트리계열 알고리즘은 데이터를 특성(feature)들의 조합으로 분할하여 예측을 수행하는데 사용됩니다. 이러한 알고리즘들은 정규화와 표준화가 필요하지 않은 이유가 있습니다. 단위 무시: 트리계열 알고리즘은 특성들의 단위를 무시하고 순서에만 집중합니다. 따라서 특성들을 정규화하거나 표준화할 필요가 없습니다. 분기 기준: 트리 알고리즘은 특성의 값을 비교하여 분기를 결정합니다. 이때 특성의 값이 정규화되거나 표준화되어도 분기 기준에는 영향을 미치지 않습니다. 불변성: 트리 알고리즘은 특성들의 순서를 바꾸지 않으며, 특성들 간의 상대적 크기만 고려합니다. 따라서 정규화나 표준화를 적용해도 결과에 영향을 주지 않습니다. 결론적으로, 트리계열 알고리즘은 특성들의 단위와 범위를 고려하지 않고 독립적으로 .. 2024. 2. 19.
원-핫 인코딩(One Hot Encoding) ## 원 핫 인코딩 - 문자를 숫자로 변경하는 것, Label Encoding과의 차이점 from sklearn.preprocessing import OneHotEncoder import numpy as np items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서'] # 2차원 ndarray로 변환한다. items = np.array(items).reshape(-1, 1) print(items.shape) oh_labels = oh_encoder.transform(items) oh_labels.toarray() df = pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서'] }) pd.get_du.. 2024. 2. 19.