Provided by: txt2pdbdoc_1.4.4-8build2_amd64 bug

html2pdbtxt(1)                                                                                    html2pdbtxt(1)

NAME

       html2pdbtxt - HTML zu Doc-Text Umwandler für Palm Pilots

ÜBERSICHT

       html2pdbtxt [ -bZeichen ] [ -tTitel ] [ -uURL ] Datei.htm [ Datei.txt ]
       html2pdbtxt -v

BESCHREIBUNG

       html2pdbtxt wandelt HTML- in Textdateien um, die für eine weitere Umwandlung in eine Doc(4)-Datei mittels
       txt2pdbdoc(1)  geeignet  sind.  Wenn kein Dateiname für die Textdatei angegeben wird, erfolgt die Ausgabe
       des Textes auf die Standardausgabe.

   HTML Tags
       Folgende HTML-Tags (und die entsprechenden End-Tags) werden erkannt:  ADDRESS,  A NAME,  BLOCKQUOTE,  BR,
       CENTER, DIV, DL, DT, H1, H2, H3, H4, H5, H6, OL, OPTION, PRE, P, SELECT, SCRIPT, STYLE, TABLE, TITLE, UL.
       Es  wird versucht, die Attribute so gut wie möglich in die Vorgaben des Doc(4)-Formats umzusetzen, das im
       wesentlichen Klartext ist. Der Text des ALT-Attributs (meist in IMG-Tags) wird zwischen Klammern  in  den
       Text eingebettet. [so z. B.]. Alle anderen HTML-Tags werden entfernt.

   Zeichen
       Umschreibungen  für HTML-Zeichen und numerische Zeichen (dezimal und hexadezimal) werden in ihren Wert im
       Zeichensatz ISO 8859-1 (Latin 1) umgewandelt, damit sie korrekt im Pilot erscheinen.  Zum  Beispiel:  aus
       ``résumé'' wird ``resume'' mit einem betonten 'e'.

   Dokumenttitel
       Wenn  nicht  schon  mit  der  Option -t angegeben, wird die HTML-Datei nach den Tags <TITLE> und </TITLE>
       durchsucht und, wenn gefunden, wird der Titel in die erste Zeile des erzeugten Textes gesetzt.

   Lesezeichen
       Lesezeichen werden in den erzeugten Text  immer  dort  eingesetzt,  wo  ein  <A NAME="...">  Tag  in  der
       HTML-Datei gefunden wurde.

OPTIONEN

       -b Zeichen
                 Angabe  der  Zeichenfolge, die als Lesezeichen-Kennung verwendet wird. Standard ist (*). (Siehe
                 BESONDERHEITEN.)

       -t Titel  Angabe des Dokumenttitels, der in die erste Zeile des  erzeugten  Textes  eingesetzt  wird  und
                 Titel, die in der HTML-Datei zwischen <TITLE> ... </TITLE> Tags gefunden wurden, überschreibt.

       -u URL    Angabe  der  URL  von der die HTML-Datei angeblich stammt; sie wird in die Zeile nach dem Titel
                 des erzeugten Textes eingesetzt.

       -v        Schreibt die Versionsnummer von html2pdbtxt auf die Standardausgabe und beendet sich.

BEISPIEL

       Umwandlung einer HTML-Datei in Doc:

            html2pdbtxt -u http://www.wonderland.org/ alice.html alice.txt
            txt2pdbdoc "`head -1 alice.txt`" alice.txt alice.pdb

BESONDERHEITEN

       1.  Einige Doc-Leseprogramme haben eine ``Funktion'',  beim  Suchen  nach  der  Lesezeichenkennung  diese
           Zeichenfolge überall im Text zu erkennen, nicht nur am Zeilenanfang.

       2.  Bei einigen Doc-Leseprogrammen darf die Lesezeichenkennung nicht das Zeichen > enthalten, weil es als
           Endezeichen der Kennung verwendet wird, z. B. <->> wird lediglich als Folge - erkannt.

       3.  Nummerierte  Listen  (mit dem Tag OL) werden als unnummerierte Listen umgesetzt (wie mit dem Tag UL),
           weil es so kompliziert wäre, dass es richtig ausgewertet  werden  müsste,  statt  nur  eine  einfache
           Ersetzung auszuführen.

SIEHE AUCH

       pdbtxt2html(1), txt2pdbdoc(1), doc(4), pdb(4)

       International  Standards  Organization.  ``ISO  8859-1: Information Processing -- 8-bit single-byte coded
       graphic character sets -- Part 1: Latin alphabet No. 1.'' 1987.

       World Wide Web  Consortium.  ``Character  entity  references  in  HTML  4.0.''  HTML  4.0  Specification,
       http://www.w3.org/

AUTOR

       Paul J. Lucas <pauljlucas@mac.com>
       Deutsche Übersetzung: Erik Schanze <eriks@debian.org>

html2pdbtxt                                      06. August 2005                                  html2pdbtxt(1)