rsadmchef
Goto Top

Sites abfragen, Code erhalten

Hallo TEAM

ich hoffe ihr könnt ein wenig weiterhelfen...
Benutze verschiedene Browser, hauptsächlich FF und Opera

Meine Site enthlät 25 Links mit Verweisen zu weiteren Sites

http://www.blah-blupp.de/site1.php?refcode=21
http://www.blah-blupp.de/site1.php?refcode=22
http://www.blah-blupp.de/site1.php?refcode=23


in den nun geklickten 25 Sites ist je ein weiterer Link zum Klicken

http://www.blah-blupp.de/mega/site1.php?refcode=212121
http://www.blah-blupp.de/mega/site1.php?refcode=222222
http://www.blah-blupp.de/mega/site1.php?refcode=232323
...

also in allen Seiten ähnlich.

Diese Links möchte ich alle zusammenführen als Text in einer Datei.

Nun meine Frage.
Kann der FF oder Opera in die Lage versetzt werden, diese in den wohlgemerkt -nicht- geklickten Sites aufgeführten Links
zu "sourcen" und per Script in eine Datei dumpen ?, möglicherweise mit einem ADDON oder einem Userscript

Danke für Eure Hilfe.

Gruß rsadmchef

Content-Key: 226556

Url: https://administrator.de/contentid/226556

Printed on: April 20, 2024 at 05:04 o'clock

Member: falscher-sperrstatus
falscher-sperrstatus Jan 13, 2014 at 18:37:26 (UTC)
Goto Top
Nein Opera und FF können das (meines Wissens nach nicht | Bei zig Add Ons - wer weiss) - aber: Httrack kann das ganze relativ easy ableisten.
Member: colinardo
colinardo Jan 13, 2014 at 19:00:21 (UTC)
Goto Top
Hallo rsadmchef,
z.B. mit einem Powershell-Script kein Problem, kann ich dir morgen mal hier abladen face-wink

Grüße Uwe
Member: rsadmchef
rsadmchef Jan 14, 2014 at 04:50:17 (UTC)
Goto Top
hallo certifiedit

WebHTTrack Website Copier
webhttrack

hab ich installiert.

Das tool leistet das so nicht ab.
local copy nur vom viewable file des browsers.

Derzeit nicht brauchbar.

gruß
rsadmchef
Member: rsadmchef
rsadmchef Jan 14, 2014 at 04:56:17 (UTC)
Goto Top
hallo colinardo,

ja bitte.
ich versuchs dann in bash-scripting zu übersetzen,
weil mein bs auf meinem rentner-lappi ein lubuntu 10.04 ist.

vlt. kann man mit JAVA was machen weils universeller ist.
Eine JAVA-jre hab ich drauf

Gruß rsadmchef
Member: Snowman25
Snowman25 Jan 14, 2014 at 08:27:56 (UTC)
Goto Top
Hallo @rsadmchef,

schonmal was von webspiders bzw. scrapern gehört?
Die können genau das, was du brauchst!
Da gäbe es zum beispiel scrapy.

Gruß,
@Snowman25
Member: falscher-sperrstatus
falscher-sperrstatus Jan 14, 2014 at 08:30:16 (UTC)
Goto Top
Hallo rsadm,

dann musst du ggf. die Einstellungen bearbeiten / How To lesen.

Die PHP Dateien wirst du so aber von keiner Seite bekommen.

LG
Member: colinardo
colinardo Jan 14, 2014 at 08:53:16 (UTC)
Goto Top
Zitat von @rsadmchef:
ja bitte.
ich versuchs dann in bash-scripting zu übersetzen,
weil mein bs auf meinem rentner-lappi ein lubuntu 10.04 ist.
bin noch unterwegs, bis dahin kannst du dir diesen Beitrag mal anschauen, da habe ich etwas ähnliches bereits präsentiert:
Aktuelle Java JRE 32 und 64 Bit exe Download Script

Grüße Uwe
Member: colinardo
colinardo Jan 14, 2014 updated at 10:10:42 (UTC)
Goto Top
also wenn die ersten 25 Links alle auf einer Seite sind könntest du folgendes Shell-Script als Muster hernehmen um aus den Seiten dieser Links die anderen Links zu extrahieren:
#!/bin/bash
_STARTSEITE='http://www.blah-blupp.de/site1.php'  
_LINKS=$(curl -s $_STARTSEITE | grep -Eo 'http://www\.blah-blupp\.de/site1\.php?refcode=[0-9]+')  
_ALLLINKS="$_LINKS\n"  
for link in "$_LINKS";do  
  _CONTENT=$(curl -s $link)
  _SUBLINKS=$(echo "$_CONTENT" | grep -Eo 'http://www\.blah-blupp\.de/mega/site1\.php?refcode=[0-9]+')    
  _ALLLINKS+="$_SUBLINKS\n"  
done
echo -e "$_ALLLINKS" >extracted_links.txt  
Da ist jetzt für eine Ebene, oder willst du die Links auf der Unterseite ebenfalls weiterverfolgen ? also rekursiv alle Links ?
Dies könntest du auch mit wget machen. Erst alle Links der Site extrahieren und diese dann an grep pipen und die gewünschten Links extrahieren.

Grüße Uwe
Member: rsadmchef
rsadmchef Jan 17, 2014 at 04:28:56 (UTC)
Goto Top
Hallo colinardo,

hab ich halbwegs verstanden.
curl lädt einen Link vom Server, der sich wie eine Abmeldung darstellt: "Sie werden in 5 sekunden auf die Startseite umgeleitet". und es gibt keine Links.

Manuell stellt es sich so dar:
Der Browser zeigt die Startseite. Es öffnen sich Tabs beim Betätigen der Links.
Da habe ich also 25 Tabs.
Dazu müsste ich aber alle Tabs durchschalten, um den Code zu grep_en...
Trotzem super.
aber keine Lösung.


Gruß rsadmchef.
Member: colinardo
colinardo Jan 17, 2014 at 07:40:52 (UTC)
Goto Top
tja, wenn wir nicht wissen wie die Seite genau aufgebaut ist, können wir hier wenig ausrichten !!
Poste doch mal einen Link zu der Seite wenn's geht...