Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit
GELÖST

C-Sharp - HTML-Dokument mittels HttpWebRequest herunterladen?

Frage Entwicklung C und C++

Mitglied: mabue88

mabue88 (Level 2) - Jetzt verbinden

12.02.2015, aktualisiert 14:40 Uhr, 1216 Aufrufe, 4 Kommentare

Hallo,

ich versuche das HTML-Dokument einer Webseite mit einem HttpWebRequest herunterzuladen.
Den HttpWebRequest will ich verwenden, da er bereits eine Timeout implementiert hat.

Den HTML-String der Webseite lade ich wie folgt herunter:

01.
String url = "www.meine_url.de"; 
02.
 
03.
// Webrequest & Webresponse erstellen 
04.
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); 
05.
request.Proxy = null; 
06.
request.Timeout = 10000; 
07.
 
08.
HttpWebResponse response = (HttpWebResponse)request.GetResponse(); 
09.
 
10.
// Stream zum Lesen des HTML-Strings 
11.
Stream stream = response.GetResponseStream(); 
12.
StreamReader streamreader = new StreamReader(stream); 
13.
String html_string = streamreader.ReadToEnd(); 
14.
 
15.
// Webbrowser erstellen und HTML-Dokument auslesen 
16.
WebBrowser browser = new WebBrowser(); 
17.
browser.ScriptErrorsSuppressed = true; 
18.
 
19.
browser.DocumentText = html_string; 
20.
 
21.
while (browser.ReadyState != WebBrowserReadyState.Complete) 
22.
    Application.DoEvents(); 
23.
 
24.
// HTML-Dokument zurückgeben 
25.
return browser.Document;

In der Variable html_string ist das gesamte HTML-Dokument enthalten.
Sobald ich den String aber im Browser als DocumentText einlese, bekomme ich nur noch einen Bruchteil der im Dokument enthaltenen HTML-Elemente (ca. 5 von 600).

Kann sich jemand das Verhalten erklären?

Danke für Eure Hilfe!
Gruss
mabue



Update:
Ich habe noch etwas bemerkt: Das HtmlDocument vom Browser besitzt ein Kind vom Typ HTMLBodyClass. In dessen OuterHtml steht allerdings nur
01.
\r\n<BODY></BODY>
In dem HTML-String befinden sich aber einige Elemente im Body, so dass dieser eigentlich nicht leer sein dürfte!
Mitglied: 114757
12.02.2015, aktualisiert um 14:40 Uhr
Kann sich jemand das Verhalten erklären?
Ja, das kommt gerne vor wenn die Seite z.B. einen iframe oder Frames enthält, dann werden die Elemente in den Frames nicht mit ins DOM aufgenommen.

Gruß jodel32
Bitte warten ..
Mitglied: mabue88
12.02.2015, aktualisiert um 14:58 Uhr
Hallo jodel32,

In dem HTML-String konnte ich keine Frames finden (iframe, frame). Objects konnte ich auch nicht finden...

Update: es scheint als ob der HTML-String gar nicht eingelesen wird. Im HtmlDocument vom Browser ist der Titel nach dem Laden des Html-Strings nämlich auch noch leer. Und der Titel ist definitiv im HTML-String vorhanden...
Daher vermute ich eher ein grundlegendes Problem
Bitte warten ..
Mitglied: mabue88
12.02.2015, aktualisiert um 15:20 Uhr
Hier habe ich gerade die Lösung gefunden:
https://social.msdn.microsoft.com/Forums/vstudio/en-US/e2804d59-978f-47e ...

Bevor die DocumentText-Eigenschaft verwendet werden kann, muss der Browser mindestens eine Navigation durchgeführt haben. "about:blank" reicht da schon aus. Anschließend wieder auf ReadyState = Complete warten und danach den HTML-String in DocumentText laden.
Bitte warten ..
Mitglied: mabue88
12.02.2015 um 15:34 Uhr
Gerade habe ich noch festgestellt, dass alleine mit der Abfrage "ReadyState == Complete" noch nicht wirklich sichergestellt ist, dass der Browser das Dokument vollständig geladen hat.

Deswegen sieht die While-Schleife jetzt so aus:
01.
while (browser.ReadyState != WebBrowserReadyState.Complete && browser.IsBusy) 
02.
    Application.DoEvents(); 
Bitte warten ..
Ähnliche Inhalte
C und C++
C-sharp SearchPattern (Regex) (5)

Frage von Yanmai zum Thema C und C ...

Microsoft Office
Saubere HTML aus Word-Dokument (19)

Frage von peterpa zum Thema Microsoft Office ...

Visual Studio
gelöst C-Sharp WPF XAML CheckBox.IsEnabled wenn ListViewItem.Select (3)

Frage von mayho33 zum Thema Visual Studio ...

C und C++
gelöst "Blassheit" bei einem label in C-sharp (5)

Frage von derCreeper zum Thema C und C ...

Neue Wissensbeiträge
Ubuntu

Ubuntu 17.10 steht zum Download bereit

(3)

Information von Frank zum Thema Ubuntu ...

Datenschutz

Autofahrer-Pranger - Bewertungsportal illegal

(8)

Information von BassFishFox zum Thema Datenschutz ...

Windows 10

Neues Win10 Funktionsupdate verbuggt RemoteApp

(8)

Information von thomasreischer zum Thema Windows 10 ...

Microsoft

Die neuen RSAT-Tools für Win10 1709 sind da

(2)

Information von DerWoWusste zum Thema Microsoft ...

Heiß diskutierte Inhalte
Windows 10
Seekrank bei Windows 10 (18)

Frage von zauberer123 zum Thema Windows 10 ...

Monitoring
Netzwerk-Monitoring Software (18)

Frage von Ghost108 zum Thema Monitoring ...

Windows Server
gelöst Kopiervorgang schlägt fehl, weil Datei- und Ordnername zu lang sind (14)

Frage von Schroedi zum Thema Windows Server ...

Windows 10
Windows 10 Fall Creators Update Fehler (13)

Frage von ZeroCool23 zum Thema Windows 10 ...