_
toggle menu eXmatrikulationsamt.de
online: 594 gäste

> xml_parse_into_struct() scheitert an html (?)

Themen Layout: Standard · [Linear] · Outline Thema abonnieren | Thema versenden | Thema drucken
post 26 Jan 2010, 22:14
avatar
Herr Dachs
*********

Punkte: 8394
seit: 15.12.2004

ich versuche mittels oben genannter methode den html-output den mir ein programm liefert in ein array zu bügeln...

das klappt leider nur sporadisch. bei manchen "seiten" hört er nach der HEAD sektion auf und bei manchen funktionierts...

irgendwer sowas schonmal probiert oder weiß wo ich gucken soll?

und nein ich will nix fertiges verwenden...
ProfilPM
AntwortenZitierenTOP
 
Antworten(1 - 9)
post 26 Jan 2010, 22:21
avatar
Are you afraid?
********

Punkte: 1648
seit: 11.10.2007

Das ist ungefaehr so sinnvoll, wie mit einer Heckenschere Haare zu schneiden, HTML ist nun einmal kein XML.


--------------------
In my talons, I shape clay, crafting life forms as I please.
Around me is a burgeoning empire of steel.
From my throne room, lines of power careen into the skies of Earth.
My whims will become lightning bolts that devastate the mounds of humanity.
Out of the chaos, they will run and whimper, praying for me to end their tedious anarchy.
I am drunk with this vision. God: the title suits me well.
ProfilPM
AntwortenZitierenTOP
post 26 Jan 2010, 22:26
avatar
dLikP
*******

Punkte: 1497
seit: 06.10.2006

genauer gesagt wird das nur funktionieren, wenn die Seite in XHTML geschrieben ist, nur dann handelt es sich um "echtes" XML.


--------------------
flickr
Und wenn sie kommt, fährt sie an uns vorbei
-RaT-
ProfilPM
AntwortenZitierenTOP
post 26 Jan 2010, 22:28
avatar
Herr Dachs
*********

Punkte: 8394
seit: 15.12.2004

das ist ja auch alles komplett klar, nur wär das eine solch schöne lösung.

btw sind die seiten an denen der parser scheitert so simpel, ich kann da keine xml-unkonformitäten erkennen
ProfilPM
AntwortenZitierenTOP
post 26 Jan 2010, 22:32
avatar
dLikP
*******

Punkte: 1497
seit: 06.10.2006

Zitat(Socres @ 26 Jan 2010, 21:28)
das ist ja auch alles komplett klar, nur wär das eine solch schöne lösung.

btw sind die seiten an denen der parser scheitert so simpel, ich kann da keine xml-unkonformitäten erkennen
*

Ohne ein Beispiel ist das eher schwer zu verifizieren. Falsches XML bekommt man auch als Einzeiler hin. Wie "tolerant" der Parser dann bei sowas ist, ist wieder eine andere Frage. Aber schon

<meta http-equiv="MSThemeCompatible" content="yes" >

anstelle von

<meta http-equiv="MSThemeCompatible" content="yes" />

wäre falsches XML und der Parser würde sich nach dem </meta> vermutlich kaputt suchen.

Dieser Beitrag wurde von Polygon: 26 Jan 2010, 22:33 bearbeitet
ProfilPM
AntwortenZitierenTOP
post 26 Jan 2010, 22:37
avatar
Herr Dachs
*********

Punkte: 8394
seit: 15.12.2004

der parser ist sehr tollerant, das hab ich schon probiert (beispiele "kann" ich leider nicht liefern)

hab das problem aber grad gefunden...

der output wird manchmal aus verschiedenen .phtml dateien zusammengesetzt und manchmall halt komplett von einem script gebaut...

wenns aus einem script kommt gehts.

ich such weiter

edit: wenn man dem parser nur ein öffnendes tag gibt und kein schließendes, dann lässt der das einfach weg.

aber die tags sind auch alle zu
ProfilPM
AntwortenZitierenTOP
firerun
post 27 Jan 2010, 08:50
Dieser User ist abgemeldet. Abgemeldet





Zitat(Socres @ 26 Jan 2010, 21:37)
aber die tags sind auch alle zu
*

Beliebt sind auch &-Zeichen, die nicht als &amp; maskiert wurden... (auch in URLs!)
Aber wenn du meinst, dass der Parser viel toleriert, kann's das eigentlich auch fast ni sein.
AntwortenZitierenTOP
post 27 Jan 2010, 12:35
avatar
Voll Laser
*******

Punkte: 1430
seit: 21.08.2008

Wohlgeformt machen:

http://www.php.net/manual/de/intro.tidy.php


Zum Parsen:

Ich benutze für soetwas immer die beiden sachen ...

http://www.php.net/manual/de/function.xml-parse.php
http://www.php.net/manual/de/function.xml-...ent-handler.php

sind sehr schnell ... und du kannst dir selbst definieren was passieren sollen wenn ein Anfangs bzw. Endtag auftritt ...

(aber das mit strcut ist ja auch schon eine sehr elegante vorgefertigte Lösung)


Objektorientiert kannst DomDocument nehmen. Ist deutlich langsamer dafür kannst du beim einlesen auf Validität bzw. das eingehende Document gegen ein Schema oder eine DTD prüfen lassen.

Dieser Beitrag wurde von I.I: 27 Jan 2010, 13:20 bearbeitet


--------------------
Verein: USV TU Dresden

--Film Fan--
--Poker Fan--
--Billard Fan--
--Schach Fan--
--Fußball Fan--
--Rennrad Fan--
--Triathlon Fan--
--Volleyball Fan--

--Luiz Bonfa Fan--
--Eliane Elias Fan--
--Scott Joplin Fan--
--The Beatles Fan--
--Woody Allen Fan--
--Bodo Wartke Fan--
--Joao Gilberto Fan--
--Monty Python Fan--
--Volker Pispers Fan--
--Ennio Morricone Fan--
--Alfred Hitchcock Fan--
--Georg Schramm Fan--
--Kool & The Gang Fan--
--Earth, Wind & Fire Fan--

--V for Vendetta Fan--
--Das Leben des Brian Fan--
--Jackie Brown Soundtrack Fan--
ProfilPM
AntwortenZitierenTOP
post 27 Jan 2010, 15:22
avatar
Herr Dachs
*********

Punkte: 8394
seit: 15.12.2004

wohlgeformt isses

xml-parse ist letztlich nix anderes als xml_parse_into_struct

DOMDocumentL lässt die Applikationsstruktur nicht zu

warscheinlich geht das was ich machen will in meinem kontext nicht. zumindest nicht ohne die Struktur zu verändern.

also: thread kann als schließbar betrachtet werden

ProfilPM
AntwortenZitierenTOP
post 27 Jan 2010, 18:46
avatar
Voll Laser
*******

Punkte: 1430
seit: 21.08.2008

Wenn es wohlgeformt ist lässt es sich auch mit einem xml Parser einlesen. Wie sieht denn das Dokument aus was du parsen willst. Schreibs mal hier rein damit wir der Sache auf den Grund gehen können.
ProfilPM
AntwortenZitierenTOP
1 Nutzer liest/lesen dieses Thema (1 Gäste)
0 Mitglieder: