mabue88
Goto Top

C-Sharp - HTML-Dokument mittels HttpWebRequest herunterladen?

Hallo,

ich versuche das HTML-Dokument einer Webseite mit einem HttpWebRequest herunterzuladen.
Den HttpWebRequest will ich verwenden, da er bereits eine Timeout implementiert hat.

Den HTML-String der Webseite lade ich wie folgt herunter:

String url = "www.meine_url.de";  

// Webrequest & Webresponse erstellen
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
request.Proxy = null;
request.Timeout = 10000;

HttpWebResponse response = (HttpWebResponse)request.GetResponse();

// Stream zum Lesen des HTML-Strings
Stream stream = response.GetResponseStream();
StreamReader streamreader = new StreamReader(stream);
String html_string = streamreader.ReadToEnd();

// Webbrowser erstellen und HTML-Dokument auslesen
WebBrowser browser = new WebBrowser();
browser.ScriptErrorsSuppressed = true;

browser.DocumentText = html_string;

while (browser.ReadyState != WebBrowserReadyState.Complete)
    Application.DoEvents();

// HTML-Dokument zurückgeben
return browser.Document;


In der Variable html_string ist das gesamte HTML-Dokument enthalten.
Sobald ich den String aber im Browser als DocumentText einlese, bekomme ich nur noch einen Bruchteil der im Dokument enthaltenen HTML-Elemente (ca. 5 von 600).

Kann sich jemand das Verhalten erklären?

Danke für Eure Hilfe!
Gruss
mabue


Update:
Ich habe noch etwas bemerkt: Das HtmlDocument vom Browser besitzt ein Kind vom Typ HTMLBodyClass. In dessen OuterHtml steht allerdings nur
\r\n<BODY></BODY>
In dem HTML-String befinden sich aber einige Elemente im Body, so dass dieser eigentlich nicht leer sein dürfte!

Content-Key: 263202

Url: https://administrator.de/contentid/263202

Printed on: April 24, 2024 at 13:04 o'clock

Mitglied: 114757
114757 Feb 12, 2015 updated at 13:40:10 (UTC)
Goto Top
Kann sich jemand das Verhalten erklären?
Ja, das kommt gerne vor wenn die Seite z.B. einen iframe oder Frames enthält, dann werden die Elemente in den Frames nicht mit ins DOM aufgenommen.

Gruß jodel32
Member: mabue88
mabue88 Feb 12, 2015 updated at 13:58:14 (UTC)
Goto Top
Hallo jodel32,

In dem HTML-String konnte ich keine Frames finden (iframe, frame). Objects konnte ich auch nicht finden...

Update: es scheint als ob der HTML-String gar nicht eingelesen wird. Im HtmlDocument vom Browser ist der Titel nach dem Laden des Html-Strings nämlich auch noch leer. Und der Titel ist definitiv im HTML-String vorhanden...
Daher vermute ich eher ein grundlegendes Problem
Member: mabue88
mabue88 Feb 12, 2015 updated at 14:20:40 (UTC)
Goto Top
Hier habe ich gerade die Lösung gefunden:
https://social.msdn.microsoft.com/Forums/vstudio/en-US/e2804d59-978f-47e ...

Bevor die DocumentText-Eigenschaft verwendet werden kann, muss der Browser mindestens eine Navigation durchgeführt haben. "about:blank" reicht da schon aus. Anschließend wieder auf ReadyState = Complete warten und danach den HTML-String in DocumentText laden.
Member: mabue88
mabue88 Feb 12, 2015 at 14:34:39 (UTC)
Goto Top
Gerade habe ich noch festgestellt, dass alleine mit der Abfrage "ReadyState == Complete" noch nicht wirklich sichergestellt ist, dass der Browser das Dokument vollständig geladen hat.

Deswegen sieht die While-Schleife jetzt so aus:
while (browser.ReadyState != WebBrowserReadyState.Complete && browser.IsBusy)
    Application.DoEvents();