(1) 위키피디아 한국어 덤프 파일 다운로드
https://dumps.wikimedia.org/kowiki/latest/
(2) 위키피디아 익스트랙터 다운로드
해당 파일을 모두 다운로드 받았다면 위키피디아 덤프 파일을 텍스트 형식으로 변환시켜주는 오픈소스인 '위키피디아 익스트랙터'를 사용할 것입니다.
'위키피디아 익스트랙터'를 다운로드 받기 위해서는 윈도우의 명령 프롬프트나 MAC과 리눅스의 터미널에서 아래의 git clone 명령어를 통해 다운로드 받을 수 있습니다.
git clone "https://github.com/attardi/wikiextractor.git"
(3) 위키피디아 한국어 덤프 파일 변환
위키피디아 익스트랙터와 위키피디아 한국어 덤프 파일을 동일한 디렉토리 경로에 두고, 아래 명령어를 실행하면 위키피디아 덤프 파일이 텍스트 파일로 변환됩니다. 컴퓨터마다 다르지만 보통 10분 내외의 시간이 걸립니다.
python WikiExtractor.py kowiki-latest-pages-articles.xml.bz2
python WikiExtractor.py kowiki-latest-pages-articles.xml.bz2
(4) 훈련 데이터 만들기
우선 AA 디렉토리 안의 모든 파일인 wiki00 ~ wiki90에 대해서 wikiAA.txt로 통합해보도록 하겠습니다.
[root@centos7-66 text]# cat AB/wiki* > ./wikiAB.txt
[root@centos7-66 text]# cat AC/wiki* > ./wikiAC.txt
[root@centos7-66 text]# cat AD/wiki* > ./wikiAD.txt
[root@centos7-66 text]# cat AE/wiki* > ./wikiAE.txt
[root@centos7-66 text]# cat AF/wiki* > ./wikiAF.txt
[root@centos7-66 text]# cat AG/wiki* > ./wikiAG.txt
[root@centos7-66 text]# cat ./wikiA* > ./wiki_data.txt
댓글 없음:
댓글 쓰기