웹 사이트의 루트에 저장된 robots.txt 파일은 검색 엔진 스파이더와 같은 웹 로봇에게 크롤링 할 수있는 디렉토리 및 파일을 알려줍니다. robots.txt 파일을 사용하는 것은 쉽지만 기억해야 할 몇 가지 사항이 있습니다.
- Blackhat 웹 로봇은 robots.txt 파일을 무시합니다. 가장 일반적인 유형은 악성 코드 봇과 추수 할 이메일 주소를 찾는 로봇입니다.
- 일부 새로운 프로그래머는 robots.txt 파일을 무시하는 로봇을 작성합니다. 이것은 대개 실수로 수행됩니다.
- 누구나 robots.txt 파일을 볼 수 있습니다. 항상 robots.txt라고하며 항상 웹 사이트의 루트에 저장됩니다.
- 마지막으로 누군가 robots.txt 파일에서 제외되지 않은 페이지에서 robots.txt 파일에 의해 제외 된 파일이나 디렉토리에 링크하면 검색 엔진에서이를 찾을 수 있습니다.
robots.txt 파일을 사용하여 중요한 것을 숨기지 마십시오. 대신 중요한 정보를 보안 암호 뒤에 넣거나 웹에서 완전히 빼야합니다.
이 샘플 파일을 사용하는 방법
수행하려는 작업과 가장 가까운 샘플의 텍스트를 복사하여 robots.txt 파일에 붙여 넣으십시오. 원하는 구성에 맞게 로봇, 디렉토리 및 파일 이름을 변경하십시오.
두 개의 기본 Robots.txt 파일
사용자 에이전트: *Disallow : / 이 파일에는 모든 로봇 ( 사용자 에이전트: *)는 사이트의 모든 페이지를 무시해야합니다 ( Disallow : /). 사용자 에이전트: *Disallow : 이 파일에는 모든 로봇 ( 사용자 에이전트: *)는 사이트의 모든 페이지를 볼 수 있습니다 ( Disallow :). robots.txt 파일을 공백으로 남겨 두거나 사이트에 robots.txt 파일을 전혀 남겨 두지 않을 수도 있습니다. 사용자 에이전트: *Disallow : / cgi-bin /Disallow : / temp / 이 파일에는 모든 로봇 ( 사용자 에이전트: *)는 / cgi-bin / 및 / temp / (디렉토리를 무시해야합니다. Disallow : / cgi-bin / Disallow : / temp /). 사용자 에이전트: *Disallow : /jenns-stuff.htmDisallow : /private.php 이 파일에는 모든 로봇 ( 사용자 에이전트: *) 액세스 파일 /jenns-stuff.htm 및 /private.php 무시해야합니다 ( Disallow : /jenns-stuff.htm Disallow : /private.php). 사용자 에이전트 : Lycos / x.xDisallow : / 이 파일은 Lycos 봇 ( 사용자 에이전트 : Lycos / x.x) 사이트의 어느 곳에서든 액세스 할 수 없습니다 ( 사용자 에이전트: *Disallow : /사용자 에이전트 : GooglebotDisallow : 이 파일은 먼저 위에서와 같이 모든 로봇을 허용하지 않고 명시 적으로 Googlebot ( 사용자 에이전트 : Googlebot) 모든 것에 액세스 할 수 있습니다 ( User-agent : *와 같이 매우 포괄적 인 User-agent 라인을 사용하는 것이 더 좋지만, 원하는만큼 구체적으로 지정할 수 있습니다. 로봇은 순서대로 파일을 읽습니다. 그래서 첫 번째 라인에서 모든 로봇이 모든 것으로부터 차단되었다고 말하면 파일에서 나중에 모든 로봇이 모든 것에 액세스 할 수 있다고 말하면 로봇은 모든 것에 액세스 할 수 있습니다. robots.txt 파일을 올바르게 작성했는지 확실하지 않은 경우 Google의 웹 마스터 도구를 사용하여 robots.txt 파일을 확인하거나 새 파일을 작성할 수 있습니다. 로봇에서 특정 디렉토리 보호
로봇에서 특정 페이지 보호
특정 로봇이 사이트에 액세스하지 못하게 방지
오직 하나의 특정 로봇 접근 허용
여러 라인을 결합하여 원하는 예외를 정확하게 얻을 수 있습니다.