svenac2010
Goto Top

Auslesen von HTML Dateien aus einem Verzeichnis und Speichern als CSV Datei

Hallo,
ich habe einen Ordner mit HTML Dateien, welche per WGET abgerufen werden.
Die Dateien haben alle den selber inhaltichen Aufbau.

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">  
<HTML>
<HEAD>
	<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">  
	<TITLE>Printers - CUPS 1.5.4</TITLE>
	<LINK REL="STYLESHEET" TYPE="text/css" HREF="/cups.css">  
	<LINK REL="SHORTCUT ICON" HREF="/images/cups-icon.png" TYPE="image/png">  
	
</HEAD>
<BODY>
<TABLE CLASS="page" SUMMARY="Printers">  
<TR><TD CLASS="body">  
<TABLE BORDER="0" CELLPADDING="0" CELLSPACING="0" SUMMARY="">  
<TR HEIGHT="36">  
<TD><A HREF="http://www.cups.org/" TARGET="_blank"><IMG  
SRC="/images/left.gif" WIDTH="64" HEIGHT="36" BORDER="0" ALT=""></A></TD>  
<TD CLASS="unsel"><A HREF="/">&nbsp;&nbsp;Home&nbsp;&nbsp;</A></TD>  
<TD CLASS="unsel"><A HREF="/admin">&nbsp;&nbsp;Administration&nbsp;&nbsp;</A></TD>  
<TD CLASS="unsel"><A HREF="/classes/">&nbsp;&nbsp;Classes&nbsp;&nbsp;</A></TD>  
<TD CLASS="unsel"><A HREF="/help/">&nbsp;&nbsp;Online&nbsp;Help&nbsp;&nbsp;</A></TD>  
<TD CLASS="unsel"><A HREF="/jobs/">&nbsp;&nbsp;Jobs&nbsp;&nbsp;</A></TD>  
<TD CLASS="sel"><A HREF="/printers/">&nbsp;&nbsp;Printers&nbsp;&nbsp;</A></TD>  
<TD CLASS="unsel" WIDTH="100%"><FORM ACTION="/help/" METHOD="GET"><INPUT  
TYPE="SEARCH" NAME="QUERY" SIZE="20" PLACEHOLDER="Search Help"  
VALUE="" AUTOSAVE="org.cups.help" RESULTS="20"></FORM></TD>  
<TD><IMG SRC="/images/right.gif" WIDTH="4" HEIGHT="36" ALT=""></TD>  
</TR>
<TR><TD COLSPAN="9">&nbsp;</TD></TR>  
</TABLE>
<FORM ACTION="/printers/" METHOD="GET">  



<P ALIGN="CENTER"><B>Search in  
Printers:</B>
<INPUT TYPE="SEARCH" NAME="QUERY" VALUE="" SIZE="40"  PLACEHOLDER="" AUTOSAVE="org.cups.printers" RESULTS="20"> <INPUT  
TYPE="SUBMIT" VALUE="Search"> <INPUT TYPE="SUBMIT" NAME="CLEAR" VALUE="Clear"></P>  

</FORM>
<P ALIGN="CENTER">Showing 1-13 of 13 printers.</P>  

<TABLE CLASS="list" SUMMARY="Printer List">  
<THEAD>
<TR><TH><A HREF="/printers/?QUERY=&amp;WHICH_JOBS=&amp;FIRST={FIRST}&amp;ORDER=dec"><SMALL>&#x25bc;</SMALL> Queue Name <SMALL>&#x25bc;</SMALL></A></TH><TH>Description</TH><TH>Location</TH><TH>Make and Model</TH><TH>URI</TH><TH>Status</TH></TR>  
</THEAD>
<TBODY>

<TR><TD><A HREF="/printers/99999_I-Test_L1">99999_I-Test_L1</A></TD><TD>99999_I-Test_L1</TD><TD></TD><TD>Kyocera Classic Universal (KPDL) (A4 models)</TD><TD>socket://99.99.99.999:9100</TD><TD>Idle - "Invalid printer command &quot;Clean&quot;."</TD></TR>  

<TR><TD><A HREF="/printers/99999_I-Test_L1">99999_I-Test_L1</A></TD><TD>99999_I-Test_L1</TD><TD>Testraum 1</TD><TD>Kyocera Classic Universal (KPDL) (A4 models)</TD><TD>socket://99.99.999.999:9100</TD><TD>Idle - "Ready to print."</TD></TR>  
...
...

</TBODY>
</TABLE></DIV>
</TD></TR>
<TR><TD>&nbsp;</TD></TR>
<TR><TD CLASS="trailer">CUPS and the CUPS logo are trademarks of  
<A HREF="http://www.apple.com">Apple Inc.</A> CUPS is copyright 2007-2012 Apple  
Inc. All rights reserved.</TD></TR>
</TABLE>
</BODY>
</HTML>

interessant sind die Zeilen
<TR><TD><A HREF="/printers/99999_I-Test_L1">99999_I-Test_L1</A></TD><TD>99999_I-Test_L1</TD><TD>IDC Testraum 1</TD><TD>Kyocera Classic Universal (KPDL) (A4 models)</TD><TD>socket://99.99.999.999:9100</TD><TD>Idle - "Ready to print."</TD></TR>  

<TR><TD><A HREF="/printers/99999_I-Test_L1">99999_I-Test_L1</A></TD><TD>99999_I-Test_L1</TD><TD>Testraum 1</TD><TD>Kyocera Classic Universal (KPDL) (A4 models)</TD><TD>socket://99.99.999.999:9100</TD><TD>Idle - "Ready to print."</TD></TR>  

ich suche ich eine Möglichkeit aus diesen "Wust"
eine Neue Datei zu erhalten

URL;btnr;Standort;Printer;Model;Socket;Status
/printers/99999_I-Test_L1;99999;99999_I-Test_L1;IDC Testraum 1;Kyocera Classic Universal (KPDL) (A4 models);socket:99.99.999.999:9100;Idle - "Ready to print."
/printers/99999_I-Test_L1;99999_I-Test_L1;Testraum 1;Kyocera Classic Universal (KPDL) (A4 models);socket:
99.99.999.999:9100;Idle - "Ready to print."

Habe versucht per HTMLasText eine Datei eine TXT zu erzeugen,
leider ist diese dann noch unübersichtlicher,
auch danach mit einem Script Daten suchen zu erstezen ist mir nicht möglich ein Ergebnis zu erzeugen ( Da zeichen Wie <" ect nicht als ersetzbares Zeichen erkannt werden.


Vielleicht ist hier jemand in der Lage aus einer HTML Datei Teile auszulesen und in eine neue Datei zu schreiben.

Content-Key: 206514

Url: https://administrator.de/contentid/206514

Printed on: April 20, 2024 at 06:04 o'clock

Member: Endoro
Endoro May 15, 2013 at 17:24:44 (UTC)
Goto Top
Hallo svenac2010,
wenn du es nicht in VB machen möchtest, kann ich die grep, sed und awk empfehlen.

Gruss!
Member: Arano
Arano May 15, 2013 at 17:37:23 (UTC)
Goto Top
Hallo Sven

  1. Batch oder Shell ?
  2. Die Beispieldaten deiner neuen Datei sind Müll ! Die Daten des ersten Datensatzes passen nicht mit der Kopfzeile überein und der zweite Datensatz enthält nur 6 Werte für die 7 Spalten !?
  3. Was ist denn DEIN ANSATZ bei dem wir HELFEN sollen !?


~Arano
Member: Endoro
Endoro May 15, 2013 at 18:11:49 (UTC)
Goto Top
Und mich würde noch interessieren, welches Tool nicht mit diesen Piecksern <> etc. umgehen kann? Und natürlich auch, warum du uns kein klitzekleines Fitzelchen Code zeigst face-smile

Liebe Grüsse.