스팸어쎄신을 이용하여 약 3년정도 모은 스팸메일을 학습 시킨 데이터를 공개 합니다.
별건 아니지만 저도 보관해 두었다가 다른데서 쓰기 위해 올려둘까 합니다.
자세한 사용법은 다음의 글을 참고하시면 도움이 될 듯 합니다.
http://theeye.pe.kr/entry/한국에-맞는-스팸어쎄신-설정하여-스팸-95-줄여보기
약 100만개의 스팸메일이 학습되었습니다.
본래 학습형 필터가 너무 많은것을 학습시키면 오히려 잘못 진단할 확률이 높아지는 법인데 몇일 테스트 해본 결과 충분히 잘 걸러지고 있네요.
1163895165.rar1171183768.rar1409581118.rar1145414248.rar
[SpamAssassin] Bayesian 스팸 학습 데이터 배포
2 Replies