peterha
Goto Top

Datei automatisch downloaden (Problem mit robots.txt Restriktion und wget)

Moin zusammen,

ich will eine Datei automatisch herunterladen lassen. Der Job wird per Aufgabenplanung gestartet. Rufe ich meine CMD manuell auf funktioniert der Download.
Über die Aufgabenplanung geht's nicht. Fehler: "Entferne "Hosts.zip.1", da dies zurückgewiesen werden soll.

Hintergrund ist, dass wget sich an dieses weiche Verbot der Robots.txt hält und diese Datei nicht mir zur Verfügung stellen will.

Mein Skript

"C:\Program Files (x86)\GnuWin32\bin\wget.exe" -p -nd -l 1 -e robots=off -A zip "http://winhelp2002.mvps.org/hosts.zip"  

Nachdem was ich bei Google fand, soll ich dennoch downloaden können mit -e robots=off
Geht aber nicht. (Meldung wie oben)

Hat jemand eine Idee, wie ich das mit wget lösen kann? Oder anders?

Danke für eure Hilfe.

Peter

Content-Key: 243180

Url: https://administrator.de/contentid/243180

Printed on: April 19, 2024 at 20:04 o'clock

Mitglied: 86263
86263 Jul 09, 2014 at 23:00:26 (UTC)
Goto Top
Hallo Peter,

hast du mal versucht, eine Wartezeit einzubauen (Parameter --wait 1).
Vgl. http://wget.addictivecode.org/FrequentlyAskedQuestions#How_can_I_make_W ...


Gruß,
Marius
Member: peterha
peterha Jul 09, 2014 at 23:08:11 (UTC)
Goto Top
Moin Marius,

soeben auf deinen Rat hin.

Neuer Code
"C:\Program Files (x86)\GnuWin32\bin\wget.exe" -p -nd -l 1 -e robots=off --wait 0.25 -A txt "http://winhelp2002.mvps.org/hosts.txt"  
pause

Fehlermeldung ist genau so geblieben. face-sad Habe auch mal statt 0.25 0.77 und 3 eingetragen. Selbes Problem.
Member: SlainteMhath
Solution SlainteMhath Jul 10, 2014 updated at 10:23:52 (UTC)
Goto Top
Moin,

bei mir funktioniert das ganze problemlos mit wget und zwar komplett ohne zusätzliche Paramter ("-p -nd -l 1" sind in dem Fall sowieso obsolet)

wget http://winhelp2002.mvps.org/hosts.txt
--08:56:35--  http://winhelp2002.mvps.org/hosts.txt
           => `hosts.txt'  
Resolving winhelp2002.mvps.org... done.
Connecting to winhelp2002.mvps.org[216.155.126.40]:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 509,407 [text/plain]

08:56:38 (204.30 KB/s) - `hosts.txt' saved [509407/509407]  

lg,
Slainte
Member: peterha
peterha Jul 10, 2014 at 09:50:07 (UTC)
Goto Top
Moin,

Wenn ich das weglasse schreibt er nicht mehr das mit dem Zurückgewiesen. Er sagt, dass die Hosts.txt.4 gespeichert wurde.

C:\Windows\system32>"C:\Program Files (x86)\GnuWin32\bin\wget.exe" -e robots=off  
 --wait 0.77 -A txt "http://winhelp2002.mvps.org/hosts.txt"  
SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc
syswgetrc = C:\Program Files (x86)\GnuWin32/etc/wgetrc
--2014-07-10 11:33:01--  http://winhelp2002.mvps.org/hosts.txt
Auflösen des Hostnamen »winhelp2002.mvps.org«.... 216.155.126.40
Verbindungsaufbau zu winhelp2002.mvps.org|216.155.126.40|:80... verbunden.
HTTP Anforderung gesendet, warte auf Antwort... 200 OK
Länge: 509407 (497K) [text/plain]
In »hosts.txt.4« speichern.

100%[======================================>] 509.407      320K/s   in 1,6s

2014-07-10 11:33:03 (320 KB/s) - »hosts.txt.4« gespeichert [509407/509407]


C:\Windows\system32>pause
Drücken Sie eine beliebige Taste . . .


Wo liegt die Datei jetzt? In den Temp Internet Files finde ich sie nicht. In der Windows-Suche und im Hauptverzeichnis von wget auch nicht.

Danke für den Tipp.
Member: SlainteMhath
Solution SlainteMhath Jul 10, 2014 updated at 10:23:30 (UTC)
Goto Top
Wo liegt die Datei jetzt?
Unter C:\Windows\system32 und liegen da hosts.txt, hosts.txt.1, hosts.txt.2, hosts.txt.3 und hosts.txt.4
Member: Gersen
Solution Gersen Jul 10, 2014 updated at 10:23:32 (UTC)
Goto Top
Hallo,

zwei nützliche Optionen für WGET:

-N (lädt die Datei nur herunter, wenn sie neuer ist und überschreibt die ursprüngliche Datei - d.h., es entstehen keine hosts.txt.1, 2, 3 etc.)

-O Pfad\zur\Datei (lädt die Datei herunter und speichert sie -unter dem neuen Namen- im angegebenen Ordner).

Gruß,
Gersen
Member: peterha
peterha Jul 10, 2014 at 10:25:04 (UTC)
Goto Top
Cool! Danke allen. Jetzt läuft es.

Fertiger Code

"C:\Program Files (x86)\GnuWin32\bin\wget.exe" -e robots=off --wait 0.25 -A txt "http://winhelp2002.mvps.org/hosts.txt" -O "K:\Dropbox\DB SHARE\hosts.txt"  

Danke.
VG
Peter