C-Sharp - HTML-Dokument mittels HttpWebRequest herunterladen?
Hallo,
ich versuche das HTML-Dokument einer Webseite mit einem HttpWebRequest herunterzuladen.
Den HttpWebRequest will ich verwenden, da er bereits eine Timeout implementiert hat.
Den HTML-String der Webseite lade ich wie folgt herunter:
In der Variable html_string ist das gesamte HTML-Dokument enthalten.
Sobald ich den String aber im Browser als DocumentText einlese, bekomme ich nur noch einen Bruchteil der im Dokument enthaltenen HTML-Elemente (ca. 5 von 600).
Kann sich jemand das Verhalten erklären?
Danke für Eure Hilfe!
Gruss
mabue
Update:
Ich habe noch etwas bemerkt: Das HtmlDocument vom Browser besitzt ein Kind vom Typ HTMLBodyClass. In dessen OuterHtml steht allerdings nur
In dem HTML-String befinden sich aber einige Elemente im Body, so dass dieser eigentlich nicht leer sein dürfte!
ich versuche das HTML-Dokument einer Webseite mit einem HttpWebRequest herunterzuladen.
Den HttpWebRequest will ich verwenden, da er bereits eine Timeout implementiert hat.
Den HTML-String der Webseite lade ich wie folgt herunter:
String url = "www.meine_url.de";
// Webrequest & Webresponse erstellen
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
request.Proxy = null;
request.Timeout = 10000;
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
// Stream zum Lesen des HTML-Strings
Stream stream = response.GetResponseStream();
StreamReader streamreader = new StreamReader(stream);
String html_string = streamreader.ReadToEnd();
// Webbrowser erstellen und HTML-Dokument auslesen
WebBrowser browser = new WebBrowser();
browser.ScriptErrorsSuppressed = true;
browser.DocumentText = html_string;
while (browser.ReadyState != WebBrowserReadyState.Complete)
Application.DoEvents();
// HTML-Dokument zurückgeben
return browser.Document;
In der Variable html_string ist das gesamte HTML-Dokument enthalten.
Sobald ich den String aber im Browser als DocumentText einlese, bekomme ich nur noch einen Bruchteil der im Dokument enthaltenen HTML-Elemente (ca. 5 von 600).
Kann sich jemand das Verhalten erklären?
Danke für Eure Hilfe!
Gruss
mabue
Update:
Ich habe noch etwas bemerkt: Das HtmlDocument vom Browser besitzt ein Kind vom Typ HTMLBodyClass. In dessen OuterHtml steht allerdings nur
\r\n<BODY></BODY>
Please also mark the comments that contributed to the solution of the article
Content-Key: 263202
Url: https://administrator.de/contentid/263202
Printed on: May 8, 2024 at 04:05 o'clock
4 Comments
Latest comment
Kann sich jemand das Verhalten erklären?
Ja, das kommt gerne vor wenn die Seite z.B. einen iframe oder Frames enthält, dann werden die Elemente in den Frames nicht mit ins DOM aufgenommen.Gruß jodel32