<div dir="ltr"><div dir="ltr"><div dir="ltr">On Thu, Dec 6, 2018 at 11:26 AM Ronald Barnes <<a href="mailto:ron@ronaldbarnes.ca">ron@ronaldbarnes.ca</a>> wrote:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Khalid Baheyeldin wrote on 2018-12-03 11:49 a.m.:<br>
<br>
> The robots.txt is useless. Current crawlers do not not respect it.<br>
<br>
Interesting - that's not been my (somewhat dated) experience.<br>
<br>
I put a folder in my document root called "verboten" with absolutely no <br>
links to it, anywhere.<br>
<br>
Then, in robots.txt:<br>
<br>
> User-agent: *<br>
> Disallow: /verboten<br>
<br>
Then occasionally grep the access log(s) for "verboten".<br>
<br>
Nothing ever showed up.</blockquote><div> </div>Perhaps things have improved then.</div><div class="gmail_quote"><br></div><div class="gmail_quote">I remember when Google and Bing did not obey it, and still crawled stuff that is disallowed by robots.txt</div><div class="gmail_quote"><br></div><div class="gmail_quote">There are also the rogue crawlers, for example, CHANGELOG.txt is a Drupal file.</div><div class="gmail_quote"><br></div><div class="gmail_quote"><a href="https://security.stackexchange.com/questions/118260/changelog-txt-in-apache-logs">https://security.stackexchange.com/questions/118260/changelog-txt-in-apache-logs</a><br></div></div></div></div>