PHPGangsta - Der praktische PHP Blog

PHP Blog von PHPGangsta


Ungültiger HTML Code: Sollte uns das interessieren?

with 16 comments

Um Webseiten zu optimieren soll man unter anderem darauf achten, validen HTML Code zu schreiben. Das macht es häufig einfacher, Seiten für alle Browser gleich aussehen zu lassen, und Browser zeigen fehlerfreie Seiten auch eine Millisekunde schneller an wenn keine Fehlerkorrekturen und Workarounds im Browser angewendet werden müssen. Ich weiß nicht ob es noch mehr Vorteile gibt die man so hört wenn es um fehlerfreien HTML Code geht. Um mal zu schauen wie viele Fehler große Webseiten im Schnitt haben habe ich ein kleines Script geschrieben dass die TOP 10.000 Webseiten mit dem W3C Validator untersucht.

Auf der Alexa-TopSites-Seite gibt es eine csv-Datei mit den Top 1.000.000 Webseites. Die Ergebnisse:

Durchschnittlich haben die Top 10.000 Seiten 136 Errors und 63 Warnings, was ich ziemlich hoch finde, ich hätte vielleicht mit 10-20 gerechnet im Schnitt. Um herauszufinden ob die Anzahl der Fehler mit der Bekanntheit abnimmt hier noch einige Zwischenwerte:

RängeErrorsWarnings
1-10018761
101-50012153
501-100011962
1001-500014167
5001-1000013361
Es folgt eine Aufschlüsselung nach Top Level Domain, wobei ich nur Domains genommen habe die mehr als 10 Seiten in dieser Liste haben. .edu, .cz, .us und .gov haben relativ wenig Fehler, .de liegt im Mittelfeld genauso wie die am meisten genutzte .com Domain. Schlusslichter sind .cn, .my, .kr und .il

TLDAnzahlErrorsWarnings
com5267144.566768.4139
net403136.476438.5856
ru295148.220353.5288
de256107.847759.1992
org24466.168031.1516
jp18494.097833.2337
cn180252.7833105.2111
fr120132.3500121.5083
it98161.265381.4388
uk9595.536874.4737
pl8856.147721.7045
br8793.057581.7586
in5476.833319.8704
es5493.111128.1852
edu5117.509811.4706
nl41110.609885.0732
tv41150.926848.7073
au39106.923154.4359
gov3933.948718.9487
ir35113.600042.3429
ca34180.3529107.6765
cz3319.75769.0303
mx29106.689760.1034
info28119.785776.9286
gr22188.772732.0909
tr22198.2273110.1364
ro21110.000064.9048
se2149.857126.1905
no20106.000031.5000
vn20134.250093.8500
be2093.400036.3000
tw19216.473787.6842
ua1886.500028.0000
hu1844.333335.6111
eu1742.47069.8824
ch1778.529442.4118
at1639.187513.1250
kr16389.4375165.3750
cc1671.312515.7500
pt15172.733349.0667
za1582.400028.6667
il14535.0714429.1429
me1498.571411.5714
id13235.307732.6154
to12203.500012.4167
us1229.33338.1667
my12294.5000151.5833
sk12111.666772.1667
cl1196.181834.7273
ar11111.363641.3636

Die meisten Fehler insgesamt unter den Top 10.000 hat airliners.net mit satten 11.010 Errors, gefolgt von bubblebox.com, yingjiesheng.com und askmefast.com mit jeweils über 5000 Errors. Komplett fehlerfrei ist beispielsweise die Seite von mozilla.org. Insgesamt sind nur 383 Seiten ohre Errors, das sind 3,8%.

Nicht immer sollte man auf eine 100% fehlerfreie Seite pochen, Google hat auf seiner wichtigsten Seite, der Suchmaske, auch Fehler, Google begründet das in einem Video mit der Datenmenge die man durch diese Fehler sparen kann. Anstatt brav um jedes Attribut Anführungszeichen zu setzen werden diese einfach weggelassen, um auch noch die letzten 500 Byte zu sparen.

<body id=gsr bgcolor=#ffffff text=#222222

Google ist es also wichtiger die Datenmenge zu reduzieren als fehlerfreien HTML-Code zu schreiben. Natürlich hat Google aber nur so weit „optimiert“ dass die Seite trotzdem noch in allen (mobilen) Browsern funktioniert. Aber generell empfiehlt Google fehlerfreie Webseiten zu erstellen.

Sind eure Webseiten fehlerfrei, achtet ihr auf Fehlerfreiheit soweit es geht, oder ist euch das nicht wichtig?

Written by Michael Kliewe

Oktober 17th, 2011 at 9:47 am

Posted in Allgemein

16 Responses to 'Ungültiger HTML Code: Sollte uns das interessieren?'

Subscribe to comments with RSS or TrackBack to 'Ungültiger HTML Code: Sollte uns das interessieren?'.

  1. Tolle Untersuchung! Danke.
    Damit lässt sich sicher argumentieren, wenn mal wieder von Fehlerfreiheit gesprochen wird, ohne auf die Sinnhaftigkeit im konkreten Fall einzugehen.

    Christian

    17 Okt 11 at 10:47

  2. Sehr interessante Auswertung. Danke dafür!

    IcyT

    17 Okt 11 at 10:49

  3. Meine Erfahrung bisher ist, dass wenn hinter einer Website ein CMS steht, das dem Benutzer die Möglichkeit gibt, in einem WYSIWYG-Editor wie CKEditor oder TinyMCE Text einzugeben, dann wird über kurz oder lang ungültiges HTML auf der Seite stehen. Sei es über die Zwischenablage aus Word eingefügt *schauder* oder durch merkwürdige andere Verrenkungen.
    Deshalb benutze ich auch kein XHTML strict mehr 😉

    Gabriel

    17 Okt 11 at 10:51

  4. Eine Webseite muss Fehlerfrei sein. Schon allein aus dem Grund, da wir die Fachleute sind und es unser Anspruch sein sollte Fachgerechte und Fehlerfreie Seiten zu erzeugen. Es gibt genug HTML Pfuscher die einfach mal schnell schnell privat oder für ihren Verein übers Wochenende was zusammen basteln.
    Wenn man schon gut verdient, dann sollte das Produkt auch einwandfrei sein!
    Außerdem ist eine Fehlerfreie Seite schon mal ein erster Anhaltspunkt um gute von Schlechten Firmen zu unterscheiden.

    T-Rex

    17 Okt 11 at 11:07

  5. Ich bin da geteilter Meinung.

    Ist doch toll wenn die Browser so klug sind und das korrigieren können? Im Ende ist doch der Sinn von Technik das sie das leben von Menschen bequemer macht? Wenn das Amt von einem auf jede kleine Formalität besteht, obwohl es aus dem Umständen („Context“) entsprechend völlig unnötit ist, rege ich mich ja auch berechtigter Weise auf?

    Also, warum nicht denn „/“ im BR-Tag oder das schließende LI-Tag weg lassen wenn die Technik es doch wunderbar regelt? Also gerade im kleinen sehe ich das eher differenziert.

    Gut, geht es mir um Performance ist es noch mal eine neue Diskussion. Aber da sieht man auch an dem genannten Beispiel von Google das es so auch nicht so einfach oder eindeutig zu beantworten ist.

    Florian Heinze

    17 Okt 11 at 11:31

  6. Also wenn ich eine Seite erstelle, komme ich je nach Umfang meistens auf 0 bis 3 Fehler und die korrigiere ich dann von Hand. Wenn man nicht gerade google ist, sollte man auch drauf achten, wegen Performance, Seo und wegen der Tussis. 🙂

    Oliver

    17 Okt 11 at 13:49

  7. Wofür brauchen wir dann einen Standard, bzw W3C überhaupt noch?

    Jan

    18 Okt 11 at 09:46

  8. In HTML5 darf man ganz offiziell unter bestimmten Voraussetzungen die Anführungszeichen um die Attribute herum weglassen. Fehlerfrei ist die Google-Suchseite deshalb noch lange nicht.

    Interessantes Thema. Danke.

    Jörg

    20 Okt 11 at 12:42

  9. Also Fehlerfrei ist und bleibt meiner Meinung nach wichtig. Denn sollte sich einmal irgendwas ändern, oder eine der im Browser sogennanten „Hilfen“ wegfallen oder Dinge anders interpretieren, so ist man mit Fehlerfreiem Design immernoch auf der sicheren Seite, oder meint ihr nicht?

    Maximilian

    20 Okt 11 at 13:30

  10. Fehlerfrei ist ja schön und gut, aber man muss sich immer im Klaren darüber sein, dass das auch nur eine Maschine ist und nur das überprüfen kann was auch in der Maschine hinterlegt ist.
    Hier werden viele Fehler (z.B. wai-aria) angezeigt die eigentlich keine Fehler, sondern Standards, sind.

    Man sollte seinen Quelltext klar validieren, aber valide heißt letzenendes nur „du beherrscht die Rechtschreibung und hast keine grammatikalischen Fehler“.

    Chris

    20 Okt 11 at 15:57

  11. Immer auf Fehlerfreiheit zu pochen ohne Rücksicht auf Verluste, finde ich wenig konstruktiv. Man sollte immer das Ziel im Auge behalten. Da geht es um die bekannte 20/80-Regel (Die letzten 20% benötigen 80% der Arbeit). Was ist erstrebenswert, unter Aufwendung von Stunden die letzten 3 Warnungen zu beseitigen..?

    Marc

    20 Okt 11 at 18:06

  12. Stunden? Was schreibst Du denn für „Spaghetticode“? 😛

    Oliver

    20 Okt 11 at 18:40

  13. Ich gebe Chris recht. Wichtig ist die Beherrschung der Rechtschreibung. Leider gibt es keine richtigen Validatoren, die HTML wie Zusätze WIA-ARIA nicht erkennen bzw. validieren.
    Ich bin aber auch der Meinung, dass man eine Webseite durch vernünftige Struktur und Anwendung einiger Kniffe mit korrekten HTML Code performant bekommt. Hier wäre der Google Page Speed Test ein Stichwort. Dort werden die wichtigsten Performance Tricks analysiert.

    Sven

    20 Okt 11 at 21:23

  14. Das mit den Stunden war natürlich überspitzt 🙂 Es ging mir nur darum, die Problematik zu verdeutlichen.

    Marc

    22 Okt 11 at 20:45

  15. […] Ungültiger HTML Code: Sollte uns das interessieren? | PHP Gangsta – Der PHP Blog mit Praxisbe… Tags: Admin, Admin Panel, attachment, aufklappboxen, click and drop, CSS3, custom meta boxes, development, Dropbox, File, files, HTML, HTML5, Interface, JavaScript, keychain, ma, metabox, ohne, options panel, OS X, PHP, resize, Settings, smashing magazine feed, sync, Tabs, Template, templating, Tips, Tutorial, Web, Webdesign, webdevelopment, WordPress | Permalink Dir hat der Artikel gefallen? Dann abonniere doch den RSS-Feed! Tweet […]

  16. Eine Auswertung mit Fehlerzahl im Vergleich zur Anzahl der Zeichen wäre noch interessant. Startseiten von den Großen sind ja häufig auch deutlich größer als die von Blogs o.ä.

    Otto

    25 Okt 11 at 23:14

Leave a Reply

You can add images to your comment by clicking here.