안녕하세요. 텍스톰 관리자입니다.
텍스톰을 처음 사용하시는 분들이 자주 문의하시는 내용으로
“수집하려는 데이터의 용량은 어느 정도일까?” 의 문의가 많이 오는 편입니다.
문의에 대하여 답변을 해드리면 기본적으로 텍스톰은 요약수집을 주로 사용합니다. 원문수집의 경우 광고성 데이터와 저작권 문제가 발생할 소지가 있고, 다양한 사이트가 존재하여 사용을 자제하는 편입니다. 따라서 요약수집을 기준으로 설명해드리겠습니다.
가장 많이 사용하는 네이버 데이터 수집의 경우 데이터 1건당 약 600byte 용량을 필요로 합니다. 이것을 MB 단위로 계산을 해보시면 1MB로 1700건의 데이터를 수집 할 수 있습니다.
자신의 데이터 건수를 확인하는 방법은 네이버 검색을 기준으로 설명해드리겠습니다.
네이버포털에 접속 후 수집 키워드를 검색합니다. 그 후 아래 상세검색 탭에서

위의 그림과 같이 데이터 수집기간을 설정한 뒤 적용하기를 클릭합니다.
다음으로 데이터를 수집할 채널(블로그, 카페, 뉴스 등)을 클릭합니다. 클릭하시면 아래와 같이 데이터의 건수가 나타나게 됩니다. 따라서 해당 데이터 건수를 각 채널별로 합산하여 위의 건당 데이터 용량으로 수집 데이터의 용량을 계산하시면 되겠습니다.

네이버 외 구글, 다음의 경우도 위와 유사한 방법으로 데이터량을 알 수 있습니다.
※ 주의사항
(1) : 페이스북과 트위터의 경우 데이터 정책으로 인해 수집기간이 약 7일 가량으로 제한적일 수 있습니다.
(2) : 데이터 수집 시 한 번에 수집할 수 있는 최대 데이터 건수는 채널(블로그, 카페, 뉴스 등)의
1,000건만 수집 가능합니다. 예를 들어 데이터 수집 기간이 1년으로 했을 경우 포털에서 데이터 건수가 2만으로 떠도 데이터는 1,000건만 수집됩니다.