어드민플레이 - Linux ETC Q&A - 일반적인 웹로봇의 방문 및 배제와 관련한 robots.txt 저장방법

글 수 367

일반적인 웹로봇의 방문 및 배제와 관련한 robots.txt 저장방법

조회 수 20705 추천 수 0 2010.03.16 05:33:35

ADMINPLAY *.90.215.4 http://adminplay.com/LETC/8449

robots.txt 저장 방법 안내

1. 홈페이지 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때

User-agent: *
Disallow: /

2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할 때

User-agent: *
Disallow:

(Ex1과 비교했을 때 "/"가 빠져 있습니다. robots.txt를 작성하지 않으면 모두 검색허용으로 간주됩니다.)

3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶을 때

User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/

(이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.)

4. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진을 거부하고 싶을 때

User-agent: EvilRobot
Disallow: /

위의 예에서는 "EvilRobot"이라는 이름을 가진 로봇만을 배제하게 됩니다.
('네이버'에 대해서 막고 싶다면 NaverBot을 User-agent로 설정해주시면 됩니다. Naverbot은 네이버 로봇의 이름입니다.)

5. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때

User-agent: *
Disallow: /
User-agent: NaverBot
Allow: /
User-agent: Yeti
Allow: /

(이 경우 NaverBot, Yeti 만이 웹문서를 수집해갈 수 있습니다.)

6. 웹로봇의 방문 주기를 지정(초 단위)하고 싶을 때

User-agent: NaverBot
Crawl-delay: 30
User-agent: Yeti
Crawl-delay: 30

이 경우 NaverBot, Yeti는 홈페이지에 포함된 웹문서를 30초 간격으로 수집하게 됩니다.
해당 옵션을 지정하지 않으면 일반적으로 약 10 ~ 20초 간격으로 1페이지씩 수집을 진행합니다.
다만, 해당 기능은 웹로봇을 운용하는 업체별로 기능상의 차이가 있을 수 있기 때문에 각 업체별 로봇 운용 현황을 확인하신 후 사용하시기 바랍니다.

"robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에
(META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없습니다.
이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있는 방법입니다.
로봇 배제에 대한 보다 자세한 내용은 http://www.robotstxt.org에서 확인할 수 있습니다.
robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가
있을 수 있습니다. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의
robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있습니다.

이 게시물을

일요일은 짜빠게뤼~ 먹는날~^^

엮인글 :: http://adminplay.com/8449/c45/trackback

List of Articles

번호	제목	글쓴이	날짜	조회 수
187	악성코드 일괄 삭제	ADMINPLAY	2010-04-17	27456
186	젠투리눅스 설치기록	ADMINPLAY	2010-04-17	22906
185	젠투리눅스에서 잃어버린 암호를 다시 설정하기	ADMINPLAY	2010-04-15	23943
184	대용량 HDD 파티셔닝(Mass storage Partitioning) (GPT 파...	ADMINPLAY	2010-04-14	76821
183	VI 에디터 유니코드(UTF-8)로 인코딩 전환	ADMINPLAY	2010-04-02	24012
182	배치파일을 이용한 백업방법	l2zeo	2010-03-31	59636
181	가상화 (XEN & KVM) 리눅스 - CentOS 5.4 에서 XEN 설치	ADMINPLAY	2010-03-24	32495
180	Linux 서버에서 yum 으로 X-Window 설치하기	ADMINPLAY	2010-03-24	20348
179	X-window 설치	ADMINPLAY	2010-03-24	23414
»	일반적인 웹로봇의 방문 및 배제와 관련한 robots.txt 저...	ADMINPLAY	2010-03-16	20705
177	Vista Bootloader에 Fedora 10 부팅옵션 추가해서 듀얼 부...	l2zeo	2010-03-08	23275
176	[UNIX] 솔라리스 보안 [ 발표자료 ] - 김 석 님 자료	l2zeo	2010-03-08	26501
175	CentOS 5.3에서 samba구축방법	l2zeo	2010-03-08	29516
174	shell programming	l2zeo	2010-03-08	20476
173	시스칼리지- 꿔니님의 클러스트링 강좌	l2zeo	2010-03-08	32822
172	리눅스 한글 설정	l2zeo	2010-03-08	26477
171	Cent OS-5.2 설치 문서	l2zeo	2010-02-24	31850
170	CentOS 설치 - VMware 상에서 CentOS 설치하기	l2zeo	2010-02-24	52167
169	ORA-01031: insufficient privileges 오류	ADMINPLAY	2010-02-24	41088
168	ruby on rails 설치 (Ubuntu Server DIY )	l2zeo	2010-02-20	30482

쓰기

첫 페이지 5 6 7 8 9 10 11 12 13 14 끝 페이지

로그인