글쓴이 보관물: iamchan

Data Argumentation (작성중인 파일)

A Survey on Image Data Augmentation for Deep Learning.

A survey on Image Data Augmentation for Deep Learning | Journal of Big Data | Springer Nature Link

PDF 다운로드 : https://link.springer.com/content/pdf/10.1186/s40537-019-0197-0.pdf

[Abstract]

Deep Convolution Neural Network 는 컴퓨터 비전 과제에서 매우 놀라울 정도의 우수한 성과를 보였다. 하지만 이러한 네트워크는 과적합을 피하기 위해 빅데이터에 크게 의존하고 있다.
과적합은 네트워크가 학습 데이터를 완벽하게 모델링하는 매우 높은 분산을 가진 함수를 학습하는 현상이다.
데이터 증강은 학습 데이터 셋의 크기와 품질을 향상시키는 일련의 기법을 포함하여 이를 통해 더 나은 딥러닝 모델을 구축할 수 있도록 한다.(번역기 돌린 것 같은 문장이네..)

>>>>> 그러니까 이 연구에서 데이터 증강이란게 왜 필요하냐면,
제한된 데이터 환경에서 학습하게 되면, 분명히 과적합 문제가 발생할 확률이 높기 때문에
데이터 증강 방법을 통해서 데이터 수를 늘려서 학습하면 과적합 문제를 회피할 수 있을 것이다. 라는 말이다.

Data Argumentation은 데이터의 양을 늘리기 위해 원본 이미지에서 여러 변환 방법을 적용하여 그 이미지 개수를 늘린다. 증강시킨다.

컴퓨터 비전에서 CNN을 적용하여 현재 기준을 개선하려는 많은 연구 분야가 있는데, 이러한 모델의 일반화 능력을 향상시키는 것이 가장 어려운 과제 중 하나이다.
일반화 능력은 모델이 이전에 본 데이터(Training)와 전혀 본 적 없는 데이터(Test)를 평가할 때 그 성능의 차이를 의미한다.
일반화 능력이 좋지 않으면 훈련데이터에 과적합(Over Fitting)이 된 것으로 볼 수 있다. 과적합을 발견하는 방법은 훈련 중에 각 epoch 에서 훈련 정확도와 검증(validation) 정확도를 그래프로 그리는 것이다.
위 Fig1. 그래프 처럼 말이다.

torch.serialization.add_safe_globals([argparse.Namespace]) Error

댓글 남기기

위와 같이 학습 명령을 내리자마자, 오류가 발생했는데..

PyTorch 2.6 버전부터 torch.load() 기본 옵션이 weights_only=True 로 바뀌었다고 한다.

기존 .pt 파일은 모델 가중치(state_dict)와 함께 argspace.Namespace 도 같이 저장된다.

그런데 Namepsace는 pickle로 저장된 Python 객체이다. 즉, weights_only=True 옵션일 때는

객체를 로드할 수 없다고 에러가 발생할 수 밖에 없다.

(Problem)
check_point = torch.load(model)

(solve)
check_point = torch.load(model, weights_only=False)

이렇게 옵션 처리하고 실행하면 학습이 진행된다.

하지만 꼭 주의해야할 사항은, weights_only 옵션을 False로 하게 되면 weight 외의 다른 내용도 포함된다는 것이기 때문에 weight 파일이 같은 머신에서 학습된 파일이면 괜찮겠지만, 다운로드받은 인터넷 파일이면
보안 이슈가 발생할 우려가 되어, 이 옵션을 변경하지 말라고 한다.