peterha
Goto Top

Datei automatisch downloaden (Problem mit robots.txt Restriktion und wget)

Moin zusammen,

ich will eine Datei automatisch herunterladen lassen. Der Job wird per Aufgabenplanung gestartet. Rufe ich meine CMD manuell auf funktioniert der Download.
Über die Aufgabenplanung geht's nicht. Fehler: "Entferne "Hosts.zip.1", da dies zurückgewiesen werden soll.

Hintergrund ist, dass wget sich an dieses weiche Verbot der Robots.txt hält und diese Datei nicht mir zur Verfügung stellen will.

Mein Skript

"C:\Program Files (x86)\GnuWin32\bin\wget.exe" -p -nd -l 1 -e robots=off -A zip "http://winhelp2002.mvps.org/hosts.zip"  

Nachdem was ich bei Google fand, soll ich dennoch downloaden können mit -e robots=off
Geht aber nicht. (Meldung wie oben)

Hat jemand eine Idee, wie ich das mit wget lösen kann? Oder anders?

Danke für eure Hilfe.

Peter

Content-Key: 243180

Url: https://administrator.de/contentid/243180

Ausgedruckt am: 19.03.2024 um 06:03 Uhr

Mitglied: 86263
86263 10.07.2014 um 01:00:26 Uhr
Goto Top
Hallo Peter,

hast du mal versucht, eine Wartezeit einzubauen (Parameter --wait 1).
Vgl. http://wget.addictivecode.org/FrequentlyAskedQuestions#How_can_I_make_W ...


Gruß,
Marius
Mitglied: peterha
peterha 10.07.2014 um 01:08:11 Uhr
Goto Top
Moin Marius,

soeben auf deinen Rat hin.

Neuer Code
"C:\Program Files (x86)\GnuWin32\bin\wget.exe" -p -nd -l 1 -e robots=off --wait 0.25 -A txt "http://winhelp2002.mvps.org/hosts.txt"  
pause

Fehlermeldung ist genau so geblieben. face-sad Habe auch mal statt 0.25 0.77 und 3 eingetragen. Selbes Problem.
Mitglied: SlainteMhath
Lösung SlainteMhath 10.07.2014 aktualisiert um 12:23:52 Uhr
Goto Top
Moin,

bei mir funktioniert das ganze problemlos mit wget und zwar komplett ohne zusätzliche Paramter ("-p -nd -l 1" sind in dem Fall sowieso obsolet)

wget http://winhelp2002.mvps.org/hosts.txt
--08:56:35--  http://winhelp2002.mvps.org/hosts.txt
           => `hosts.txt'  
Resolving winhelp2002.mvps.org... done.
Connecting to winhelp2002.mvps.org[216.155.126.40]:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 509,407 [text/plain]

08:56:38 (204.30 KB/s) - `hosts.txt' saved [509407/509407]  

lg,
Slainte
Mitglied: peterha
peterha 10.07.2014 um 11:50:07 Uhr
Goto Top
Moin,

Wenn ich das weglasse schreibt er nicht mehr das mit dem Zurückgewiesen. Er sagt, dass die Hosts.txt.4 gespeichert wurde.

C:\Windows\system32>"C:\Program Files (x86)\GnuWin32\bin\wget.exe" -e robots=off  
 --wait 0.77 -A txt "http://winhelp2002.mvps.org/hosts.txt"  
SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc
syswgetrc = C:\Program Files (x86)\GnuWin32/etc/wgetrc
--2014-07-10 11:33:01--  http://winhelp2002.mvps.org/hosts.txt
Auflösen des Hostnamen »winhelp2002.mvps.org«.... 216.155.126.40
Verbindungsaufbau zu winhelp2002.mvps.org|216.155.126.40|:80... verbunden.
HTTP Anforderung gesendet, warte auf Antwort... 200 OK
Länge: 509407 (497K) [text/plain]
In »hosts.txt.4« speichern.

100%[======================================>] 509.407      320K/s   in 1,6s

2014-07-10 11:33:03 (320 KB/s) - »hosts.txt.4« gespeichert [509407/509407]


C:\Windows\system32>pause
Drücken Sie eine beliebige Taste . . .


Wo liegt die Datei jetzt? In den Temp Internet Files finde ich sie nicht. In der Windows-Suche und im Hauptverzeichnis von wget auch nicht.

Danke für den Tipp.
Mitglied: SlainteMhath
Lösung SlainteMhath 10.07.2014 aktualisiert um 12:23:30 Uhr
Goto Top
Wo liegt die Datei jetzt?
Unter C:\Windows\system32 und liegen da hosts.txt, hosts.txt.1, hosts.txt.2, hosts.txt.3 und hosts.txt.4
Mitglied: Gersen
Lösung Gersen 10.07.2014 aktualisiert um 12:23:32 Uhr
Goto Top
Hallo,

zwei nützliche Optionen für WGET:

-N (lädt die Datei nur herunter, wenn sie neuer ist und überschreibt die ursprüngliche Datei - d.h., es entstehen keine hosts.txt.1, 2, 3 etc.)

-O Pfad\zur\Datei (lädt die Datei herunter und speichert sie -unter dem neuen Namen- im angegebenen Ordner).

Gruß,
Gersen
Mitglied: peterha
peterha 10.07.2014 um 12:25:04 Uhr
Goto Top
Cool! Danke allen. Jetzt läuft es.

Fertiger Code

"C:\Program Files (x86)\GnuWin32\bin\wget.exe" -e robots=off --wait 0.25 -A txt "http://winhelp2002.mvps.org/hosts.txt" -O "K:\Dropbox\DB SHARE\hosts.txt"  

Danke.
VG
Peter