Evaluation arabischer Webseiten: Informationsangebote im Bereich Medien und Kultur

Dr. Abier Bushnaq
 

Abstract:
Zur Überprüfung ihrer Availability werden sieben Suchmaschinen (Ayna, Ajeeb, Arabvista=albahhar, arabia.com, Google, Yahoo, Alltheweb) einem Retrievaltest unterzogen, dem Known-Item-Test von Mechtild und Wolfgang G. Stock. Es werden insgesamt 20 arabische Webseiten gesucht, der Cut-Off-Wert ist 20. Die komplexe Morphologie und Vielzahl von Präfixen sind für Webrecherchen auf Arabisch ohne die Möglichkeit einer Linkstrunkierung ein Problem. Wie die Untersuchung zeigt, ist die Usability der Suchwerkzeuge stark von der Frage abhängig, ob diese neben dem Wort auch nach dem Stamm und der Wurzel und deren Ableitungen suchen können oder nicht. 
 

1. Einleitung: 

Während meiner Arbeit im Info-Center und Recherchedienst der FAZ (2001-2002) machte ich gelegentlich Recherchen in arabischen Quellen im Internet: Ich suchte beispielsweise nach einen brisanten Artikel in der Tageszeitung al-Quds al-arabi, aus dem hervorgegangen sein soll, daß der Herausgeber Abdulbari Atwan eine Woche vor dem Anschlag des 11. Septembers 2001 ein Interview mit Bin Laden gehabt haben soll. Bin Laden soll in diesem Interview vor einem Anschlag gewarnt haben. Zu jenem Zeitpunkt bot Al-Quds dem User das komplette Zeitungsarchiv als abrufbare PDF-Files an. Mühselig und umständlich waren meine Recherchen und kosteten viel Zeit. Das besagte Interview war im Übrigen vermutlich gar nicht in der Zeitung abgedruckt. Heute, ein knappes Jahr danach, ist die Volltextsuche in al-Quds wesentlich einfacher. Das gilt auch für al-Hayat und andere Zeitungen, die ein neues Online-Datenbank-Programm von Sakhr zur Speicherung ihrer Datenbestände eingeführt haben. Eine arabische Suche war damals aus technischen Gründen schwierig, es lag nicht an mir. Trotzdem habe ich mich geärgert, da es bei mir als Unser erheblich an Information mangelte. Ich kannte noch keine einzige arabische Suchmaschine. Solche unbefriedigenden Ergebnisse wiederholten sich, ich dachte über Methoden nach, die Recherchen zu verbessern. Denn wer es versteht, mit den verschiedenen Suchsystemen umzugehen, braucht keine abenteuerlichen Reisen mehr in den Orient zu machen: Das arabische World Wide Web legt ihm die ganze arabische Welt auf seinen virtuell-fliegenden Teppich zu Füßen.

Dem Internet wird von arabischen Gebrauchern zunehmende Bedeutung beigemessen. Die orts-unabhängige Verfügbarkeit, Aktualität der Nachrichten, kostenlose und vor allem unzensierte Information im Hintergrund arabischer Bürokratie, politischer Unterdrückung, Autoritäts- und Stammesgläubigkeit und sozialer Überwachung ist zu verlockend, um nicht genutzt zu werden. Wo die Politik und soziale Entwicklung auf der realen Wirklichkeitsebene scheitern, erlebt die arabische Welt virtuell in der Wirklichkeit des Hyperspace einen bahnbrechenden Erfolg. Vor allem können erstmals effektiv und sinnvoll die im Exil lebenden Araber zur Entwicklung ihrer Heimatländer beitragen. Kritik aus großen Entfernungen wird zur Waffe des kleinen Mannes.
So wie es in den ärmsten Familien selbstverständlich ist, als erstes für einen Fernseher zu sparen, ist die Beschaffung eines Computers in der gebildeten Mittelschicht bereits unentbehrlich. Es ist das Bedürfnis, Anschluß an der Weltentwicklung zu haben und ihr um nichts nachzustehen. 
Das Angebot im arabischen Web ist breit. Unternehmen stellen ihre Produkte  vor und betreuen ihre Kunden online. Viele Zeitungen setzen ihr komplettes Angebot ins Netz, Archive stellen ihre Kataloge online zur Verfügung. Noch relativ mager ist das offizielle Angebot von Regierungen, Verwaltungen, Parteien, dafür stark ausgeprägt aber das Angebot von Glaubensgemeinschaften (islamische Gruppierungen und islamische Gemeinden im Ausland), von unabhängigen Organisationen (NGOs), Medien (Presse, Fernsehen, Rundfunk, Verlage) und kulturellen Einrichtungen.  Es gibt zahlreiche interessante Seiten von Privatpersonen, Linksammlungen und Portale, die durch ihre Kreativität das Internet bereichern. Nicht alles ist seriös. Kitschige blinkende Herzen werben für Internet-Postkarten, Sex-Banners schleichen sich in die Mailboxen ein. Der Heiratsmarkt boomt (eine, wie es sich herausstellt praktische und unkonventionelle Art und Weise, sich kennenzulernen, frei von den Zwängen der Familie, der Gesellschaft und der Religion.1  Jobbörsen schaffen auf eine ebenso unkonventionelle Weise Abhilfe: erstmals wird das Leistungsangebot in den Vordergrund gestellt, nachdem bisher die Beziehungen der Großfamilien alles bestimmte.2  Der Wandel von Werten ist im arabischen Web mit seinen Auswirkungen auf die Gesellschaft deutlicher als nirgendwo anders auf der Welt. 

Die Entwicklung ging am Anfang recht zäh voran. Aus verschiedenen Gründen war sie gehindert. Vorwiegend scheiterte es an politischen, legalen und gesellschaftlichen Gründen. Es war auch eine Frage der Finanzen: Es ist relativ kostspielig, sich die notwendige Computer Hardware zu besorgen. Ein vorwiegend von der englischen Sprache dominiertes Web war wenig reizvoll für diejenigen, die diese Sprache nur rudimentär kannten.3
Dies hat sich jedoch stark gewandelt. Seit 1997 wurde Webpublishing mit arabischen Schriftzeichen durch die Einführung erweiterter Browser und HTML-Editoren möglich: Sakhr (eine seit 1982 bestehende Firma), bot das Programm Sindbad frei zum downloaden an und gab später ein arabisches Office 1997 und Word Internet Assistant Microsoft heraus. Viele Internet-Anbieter, die kostensparend über einen breiten Datenbestand verfügen wollen, spiegeln (kopieren und speichern) Webseiten auf Servern, die sich außerhalb des eigenen Landes befinden. Die Absicht, die hinter diesem Verfahren steht (als „mirroring“ bekannt), ist, die Kosten für internationale Netzverbindungen einzusparen. Webkataloge von www.ArabDataNet.com (US.-Arab Handelskammer, ehemals www.1001sites.com),4www.Arabia.com (Saudi-Arabien), www.Arab.Net (Jordanien) und vermutlich noch viele andere wenden diese Methode an.5

Das Verhalten des arabischen Users heute lässt sich anhand statistischer Angaben mancher Portale und Anbieter ablesen, siehe www.sahafa.com (Top 100 mit Zahl der Besucher, siehe Links zu arabischen Zeitungen im Anhang), Ranking von al-Khayma (ibid.), Ajeeb u.a. Der „eXTReMe Tracker“ von al-Hayat (www.alhayat.com) zeigt eine Besucherzahl von durchschnittlich 2340 pro Woche. Die Gesamtbesucherzahl in den 634 Tagen seit dem ersten Internetauftritt der Zeitung ist 262245 (einschließlich Reloads). Davon haben 207298  (91,01%) die Seite www.alhayat.com nicht direkt auf ihren Browser geladen, sondern über einen Link auf einer anderen Seite. Das größte Presse-Portal, über das arabische User verschiedene Zeitungen anwählen, ist www.sahafa.com. Es gibt für al-Hayat 503 Website Referrers (Links von anderen Seiten auf die Homepage von al-Hayat), sie werden vom Tracker aufgelistet (Stand 31.8.2002). Abzulesen ist in der Statistik auch, daß der Großteil der Webnutzer noch mit dem Betriebssystem Win 98 arbeitet.

Je größer die Informationsflut ist, desto höher sind die Ansprüche an die verschiedenen Suchsysteme. Bekanntlich sind Internet-Kataloge, Suchmaschinen und spezielle Agenturen-Software das Herzstück des www. 
Mindestens ein Drittel (wenn nicht die Hälfte) der Webseiten, die von Arabern angeboten werden, sind in Englisch. Viele Portale bieten zwei Sprachen zum Umschalten an. Uns interessieren hier nur die arabischen Webseiten und die Recherchemöglichkeiten im arabischen Web. 
Welche Suchmaschinen mit arabischer Sprachunterstützung gibt es? Wie kann ich mit den verschiedenen Suchsystemen so umgehen, daß ich die arabischen Angebote im www mit dem kleinsten Aufwand die besten und schnellsten Ergebnissen erzielen kann? 

Ziel der Arbeit ist es, einen groben Überblick über das vorhandene Angebot arabischer Webseiten und die Recherchemöglichkeiten im Internet zu schaffen. Zur Feststellung der Tauglichkeit von Werkzeugen hinsichtlich der Availability (Verfügbarkeit von Dokumenten) wurden sieben Suchwerkzeugen mit dem sogenannten Known-Item-Test geprüft. Dies bildet den Hauptteil dieser Arbeit. 
Vor der Durchführung des Tests wird es aber notwendig sein, sich Gedanken über die Eigenarten der arabischen Sprache und die daraus entstehenden Probleme zu machen. Die arabische Sprache trägt immens dazu bei, daß das Retrieval von arabischen Texten wesentlich geringer und weniger präzise ausfällt als von europäischen Sprachen. Einen Blick auf den Forschungsstand zeigt, wie frühere Generationen von Bibliothekaren und Dokumentaren, die sich mit Textverarbeitung und Retrieval beschäftigen mußten, mit dem Problem der arabischen Sprache umgegangen sind und kann uns einen Hinweis geben, wo der Trend liegt und wo wir selbst ansetzen können, um die Arbeit anderer zur Lösung des Problems fortzusetzen. 
Schließlich soll mittels eines (Link-Listen, Tabellen) ein erster Einstieg in das Angebot im Bereich Medien, Presse und Kultur ermöglicht werden. Mit dem zunehmenden Bedürfnis nach Sicherheit im Westen ist die Bedeutung des Themas gestiegen. Hier haben Interessierte eine Gelegenheit, die arabische Welt näher kennen zu lernen und zu verstehen – nicht im heißen Sandstaub auf dem Schlachtfeld an der Front, sondern zu Hause gemütlich am Kamin. 
 

1.1. Technische Voraussetzungen

Erfahrungsgemäß sieht die Realität oft anders aus als von den Software-Herstellern dargestellt wird. Folgende erprobte Alternativen stehen zur Auswahl, um im arabischen Web browsen und editieren zu können: 

1. Netscape Navigator mit arabischem Erweiterungsprogramm Sindbad 
Sindbad ist eine Erweiterung, welche vom größten Hersteller arabischer Software, Sakhr, entwickelt wurde, um Netscape Communicator arabischen Nutzern verfügbar zu machen und einen arabischen Support für die Client Programme (inklusiv Navigator, Messenger, Composer, Collabra, Conference, Calendar, und Netcaster) zu gewährleisten. 
Leider unterstützt Sakhr das Programm nur bis Version 4.7 Mini (für Windows 95 und NT 4.0), die einzelnen Versionen kann man immer noch kostenlos unter http://www.sakhr.com/products/Sindbad.htm herunterladen. Zur Installation muß kein arabisches Windows Betriebssystem vorhanden sein. Es muß aber ein deutsches oder englisches Netscape vorfinden, dessen Version identisch ist mit der Sindbad Version (es gibt z.B. ein Sindbad 4.61 für Windows 95, Netscape 4.61, und ein Sindbad 4.61 für Windows NT 4.0, Netscape 4.61. Das Sindbad ist nicht nur eine Erweiterung für den Navigator, es ermöglicht auch, mit dem Netscape Composer arabische Webseiten zu erstellen (auch ohne arabisches Betriebssystem). Wenn man Windows 1998, Windows 2000 oder ein neueres Betriebssystem installiert hat, ist die Installation von Sindbad nicht möglich. 

2. Arabisches Betriebssystem Windows  (95, 98, Me)
Ein arabisches Betriebssystem ist die beste Lösung, um Texte auf Arabisch editieren, Webseiten erstellen, eMails schreiben und das Internet mit all seinen Möglichkeiten nutzen zu können. Das Installieren dieses Programms ist nicht möglich, wenn bereits ein deutsches oder englisches Windows auf der Festplatte installiert ist. Vom Partitionieren der Festplatte ist dringend abzuraten. In den meisten Fällen entsteht ein Durcheinander beider Systeme. Empfohlen kann nur die radikale Trennung der beiden Windows-Programme durch das Installieren auf zwei verschiedenen Festplatten oder Rechnern. Microsoft hat nie ein Arabisches Windows 2000 geliefert und verweist auf die multilingualen Fähigkeiten dieses Betriebssystems. Leider kommen die meisten Textverarbeitungsprogramme (darunter auch MS Word) nicht ganz zurecht mit diesen Möglichkeiten.

3. Windows 2000 (Englisch/Deutsch) + Office (Englisch/Deutsch)
Diese Kombination wird von Microsoft als Ersatz für das fehlende arabische Windows 2000 empfohlen. Sie eignet sich zwar für das Browsen, aber nicht für das Editieren von Webseiten. Word kommt nicht ganz zurecht mit rechts liegenden Bullets, Excel kann überhaupt nicht von rechts nach links schreiben, es fehlen die meisten wichtigen arabischen Schriftzeichensätze. Microsoft hat keine arabische Office 2000 Version geliefert.

4. Englisches/Deutsches Betriebssystem Windows 98, NT oder höher + multilingualer Netscape Navigator 6.3.2. (Netscape modified version of JRE 1.3.1) 
Der Netscape Navigator 6.3.2. (modified version of JRE 1.3.1)6  zeigt alle arabischen Webseiten an, nur arabische Texte editieren kann er nicht, da entgegen den Versprechungen des Herstellers eine Umstellung von rechts nach links und umgekehrt nicht möglich ist. Die Schreibrichtung von rechts nach links im Satz funktioniert, man muß jedoch die einzelnen Wörter spiegelverkehrt schreiben. 

5. Surfen mit Microsoft Internet Explorer ohne arabische Zusatzprogramme
Sie können in Ihrem Explorer arabische Webseiten öffnen und lesen ohne Befähigung, arabisch zu schreiben. Wenn beim Öffnen einer Webseite in einem Browser sprachspezifische Zeichen falsch angezeigt werden, bedeutet dies nicht, daß der Browser die Schrift nicht lesen kann. Es bedeutet nur, daß er die Sprache nicht „automatisch“ bestimmen konnte. In diesem Fall muß die Sprache, in der die Seite codiert ist, manuell im Menü Extras gewählt werden (Extras > Internetoptionen > Registerkarte Allgemein). Die Sprache erscheint sodann in der Liste der Codierungen, die dem Browser zur Darstellung einer angesteuerten Webseite zur Verfügung stehen (Menü Ansicht, Codierung). Dort klickt man zur korrekten Darstellung der arabischen Buchstaben die Sprache „Arabisch“ noch einmal an. 
Sollte das System die arabische Sprache nicht unterstützen, kann man die entsprechende Schriftart installieren. Dazu muß das Setup-Programm von Office 2000 erneut ausgeführt werden; im Setup-Programm den Punkt „Features auswählen“, mit „Office Tools“ erweitern und anschließend „International Support“ wählen; daraus die gewünschte Schriftart wählen (es gibt für Arabisch mehrere), den Pfeil neben dem markierten Element anklicken und „Vom Arbeitsplatz“ aus starten.

6. Macintosh
Es gibt eine arabische Version von Macintosh, die aber dazu führt, daß man Probleme mit lateinischen Buchstaben bekommt. Die meisten User besorgen sich ein Setup-Programm, das das englische Macintosh befähigt, Arabisch zu lesen und zu schreiben, ohne daß sich dabei die Einstellungen ändern. Hat man ein Macintosh Operating System 9, so muß man die entsprechende arabische Erweiterung (die kostenlos angeboten wird) installieren, eine höhere oder niedrigere Version funktioniert nicht. Die neuere Version 10.1, OS X unterstützt weder Arabisch noch Hebräisch.7  Diese Information kann ich nicht persönlich bestätigen, da ich keine Erfahrung mit Macintosh habe.
 

2. Die arabische Sprache

Arabisch ist eine flexionsreiche Sprache, deren komplexe Morphologie es erlaubt, Hunderte von Wortformen aus einer einzigen drei-radikaligen Wurzel (aus nur drei Konsonanten) zu bilden, erweitert durch Suffixe und Präfixe. 

Im Arabischen werden die Buchstaben – wie bei jeder europäischen Sprache auch –  handgeschrieben zusammengeschrieben. Während jedoch im Deutschen oder Englischen die Buchstaben in gedruckter Form alleinstehen, sind sie im Arabischen weiterhin miteinander verbunden. Das bedeutet, daß die 28 Buchstaben, je nach Position im Wort, verschiedene Formen haben.8  Es gibt jedoch einige Buchstaben – wie das waw (w, u), das lange alif (a), das d- und das dh-  –   die sich mit vorangegangenen, aber nicht mit den darauf folgenden Buchstaben verbinden lassen. Es kann dann der Eindruck entstehen, daß es sich wegen des Leerzeichens um zwei Wörter handelt. Die Verdopplung von Konsonanten (taschdid) wird bei unvokalisierten Texten manchmal gekennzeichnet, und manchmal nicht, ebenso die hamza im Anlaut. Sollte ein System technisch mit diesen formalen Problemen der Orthographie und Schreibrichtung zurecht kommen, ist es als nächstes mit der Komplexität der arabischen Morphologie konfrontiert.

Neben präfigierten, infigierten und suffigierten Morphemen besitzt das Arabische wie die ihm verwandten Sprachen stammbildende Morpheme, die die Verteilung der Vokale im Wortstamm bestimmen. Die Wurzel besteht in der Regel nur aus Konsonanten, Radikale genannt. Die Vokale sind gewöhnlich morphematisch bestimmt. Der größte Teil der Wurzeln ist 3-radikalig, ein geringer Anteil 4-radikalig. Beim Pronomen, bei einigen Partikeln und den Primärnomina sind die Vokale nicht morphematisch, sondern wurzelhaft. 
Die abtrennbaren Bildungs- und Flexionsmorpheme bilden zusammen mit den Stammbildungsmorphemen morphematische Einheiten (Wörter). Das Wort fadila (Tugend) z.B. hat den morphologischen Typ fa’ilatun, Stammbildungsmorphem ist f-d-l, Femininendung ist -at-, die Nominativendung ist -u und das Indeterminationszeichen ist das -n (Nunantion). 
Fast alle Verben und Substantive sind also auf eine drei-radikalige Wurzel zurückzuführen. Ist eines oder sind zwei der drei Radikalen ein konsonantischer Vokal (w,y) betrachtet man sie als „schwache Wurzeln“. Bei der Bildung einiger Stämme und bei der Flexion können diese Langvokale durch Kurzvokale vertreten werden oder zuweilen auch ganz schwinden. Ist das 2. und 3. Radikal identisch, bilden sie eine Geminatengruppe (radda, zurückgeben) und haben besondere Flexionsregeln. 

Es gibt zehn Verbalstämme. Das Verbum verfügt über eine Suffixkonjugation und eine Präfixkonjugation. Die Suffixkonjugation bildet das Perfekt; in der Präfixkonjugation werden Imperfekt, Konjunktiv, Apocopatus und Energicus gebildet. In beiden Konjugationen steht neben dem Aktiv ein Passiv, das sich durch Stamm- und Präfixvokale vom Aktiv unterscheidet. Für die Flexionen und Wortbildung ist der Imperfekt-Vokal wichtig und wird in Wörterbüchern immer mit angegeben. Das pronominale Subjekt ist im Verb inkorporiert (tasma’=Du hörst, dhahabu=sie gingen). 
Die pluralischen Flexionsendungen (bei gesunden Pluralen) -una/-ina, atun/-atin werden beim Substantiv nur in eingeschränktem Maße verwendet: sariquna = Diebe (männlich), sariqatun= Diebinnen (weiblich). Dualformen: qamar (Mond), qamaran (zwei Monde), sanatun (ein Jahr), sanatan (zwei Jahre). Mit solchen regelmäßigen („gesunden“) Plural-Formen konkurrieren zumeist unregelmäßige („gebrochene“) Plurale. Die Mehrheit der Substantive und Adjektive haben im Plural eigene Stammbildungsmorpheme, die nicht aus dem Singular-Morphem ableitbar sind. Das Plural von kitabun (Buch) z.B. ist kutubun, von ragulun (Mann) rigalun, von Tagirun (Kaufmann) tuggarun, von aynun (Auge) uyunun, von asa (Stock) usi, von himarun (Esel) hamir, von akkhun (Bruder) ikhwatun, von hagarun (Stein) higaratun, von dubbun (Bär), dibabatun, von qirdun (Affe) qiradatun, von khalifatun  (Kalif) khulafa’un, von katibun (Schriftsteller) kuttabun. 
Von bestimmten Wörtern wird kein Plural gebildet (al-mar’a) Frau. Suppletiv tritt nisa’, niswa und niswan als Pluralform ein). Von al-mar’ (der Mensch) gibt es auch keine Pluralform. Suppletiv tritt das Wort an-nas ein..
Ich habe hier nur Beispiele von einigen der wichtigsten morphologischen Typen aufgezählt. Kasusformen sind bei determinierten (also mit al- Präfix bestimmten) Wörtern unsichtbar, solange die Wörter unvokalisiert sind, denn nur an der Vokalisation am Wortende sind sie sichtbar), mit Ausnahme des Duals und Plurals, an deren geschriebenen Langvokal-Endungen der Kasus gekennzeichnet ist (maqta’ani Dual im Nominativ von „Ausschitt“, maqta’aini Dual im Akkusativ und Genitiv von Ausschnitt).

Die Verkleinerungsform (Diminutiv) wird morphemisch im Wortinnern gebildet, nicht wie im Deutschen als Endungssuffix -chen: kalb= Hund, kulaib (Hündchen, gabal=Berg, gubail=kleiner Berg. Zustandsakkusativ (tritt als prädikativ zum Verb und gibt einen gleichzeitigen Zustand an (er kam reitend, weinend, fliehend) wird als undeterminiertes Akkusativ mit Nunation immer mit einem langem -a geschrieben, auch wenn es unvokalisiert bleibt. 
Neben unabhängigen Personalpronomina treten auch abhängige Personalsuffixe an Substantive, Präpositionen, Verben und Partikeln auf: Einige Interrogative sind den Verben vorangestellte Fragepartikel, z.B. das „a“- in der Frage „a-tuhibbuni?“ (es ist ein Wort und bedeutet „liebst Du mich?“). 
Die Determination mit al-, at-, ath-, ad-, adh-, az-, az-, as-, as-, ash-, an- ist die am häufigsten vorkommende Form der Präfixbildung, auch in Kombination mit Präpositionen. Mit einer einfachen Trunkierung lassen sich bei weitem nicht so viele Wortformen finden wie im Deutschen oder Englischen. 

Es gibt nicht nur komplizierte Erweiterungsformen der Stämme. Ein Wort, das unvokalisiert dasteht, kann ungemein vieles bedeuten (Homonyme). Zum Beispiel das Wort salima heißt bewahrt sein von, wohlbehalten sein, gerettet sein von. Da die Verdopplung von Konsonanten in der unvokalisierten Schreibweise nicht durch schadda erkenntlich gemacht wird, kann das Wort auch im II. Stamm stehen, sallama, dann bedeutet es begrüßen, die Hände schütteln, kann aber auch heißen etw. übergeben, oder sich selbst stellen (z.B. der Polizei). Das Substantiv salam heißt Terminkauf, sillam heißt Leiter, silmun heißt Frieden, all dies und wohlmöglich mehr kann das unvokalisiert geschriebene Wort mit den drei Radikalen s-l-m bedeuten. Ein anderes Beispiel: hakima bedeutet regieren, urteilen. Das Substantiv davon hukm (Herrschaft) hat dieselbe Form, hikam ist der gebrochene Plural von hikma, was Weisheit bedeutet, hakkama bedeutet behandeln (Arzt seine Patienten), neben der Passivformen hukima und hukkima. Drittes Beispiel: zalima bedeutet ungerecht behandeln, zulm ist das Substantiv Ungerechtigkeit, zaluma bedeutet es wurde dunkel, zallama bedeutet dunkel machen (auch hier ist die Passivformen zulässig). Ebenso das Beispiel sadira: sadira heisst herausgeben (z.B. ein Buch), saddara bedeutet exportieren, sadr bedeutet Brust, sudira wäre passiv von herausgegeben, suddira das Passiv von exportieren, saddir wäre das Imerativ exportiere! 
In Verbindung mit dem Verb haben Personalsuffixe Objektfunktion (das pronominale Subjekt ist im Verb inkorporiert). „Ihr habt mich geschlagen“ wird in einem Wort geschrieben (darabtumuni). Der Satz „und sie schrieb es auf“ wäre in einem Wort geschrieben: wakatabathu: wa- steht für und, -kataba- steht für schrieb, das -t- steht für das Pronomina sie, -hu für es. Akronyme und Abkürzungen gibt es nicht im Arabischen.9  Es gibt keine Kompositas im Arabischen (nur moderne Neologismen wie maqa-m-asrahiyya, eine gemischte Literaturgattung aus Maqama und Theater in einem).
 

2.1. Probleme bei der Recherche

Die eben dargestellten Besonderheiten der arabischen Sprache machen deutlich, daß Dokumentare und Bibliothekare, die sich täglich mit der Gewinnung, Erschließung und Vermittlung von Information befassen, vor einem Problem stehen. 
Verdienstvolle Untersuchungen befassen sich mit diesen Problemen der Wortbildung und der Indexierung arabischer Texte im Hinblick auf die Frage, welche Indexat-Typen nützlicher sind: Wörter, Wortstämme oder Wurzeln (drei-radikalige Verben) oder eine Mischform.10

Wie eine Studie von Moukdad (2001) zeigt, treten die Wörter in ihrer reinen Form ohne Präfixe im Arabischen viel seltener auf als mit Präfixe. Ein weiterer Retrievaltest von ihm ergab, daß sich erwartungsgemäß auch die Zahl der gefundenen Dokumente entsprechend vergrößerte, wenn man zusätzlich nach Wörtern mit Präfixen suchte. 

Moukdad untersuchte Web-Suchmaschinen nach ihrer arabischen Retrieval-Fähigkeit. Die meisten Suchmaschinen, die hauptsächlich für das Retrieval in Englisch entwickelt sind, lassen eine Rechtstrunkierung (Suffixe), aber keine Linkstrunkierung zu. Die Suche mit Linkstrunkierung in der deutschen oder englischen Sprache ergibt oft keinen Sinn, da die entstehenden neuen Wörter in keiner semantischen Beziehung mehr zum Wortstamm stehen. Man kann mit Präfixen zum Beispiel von dem englischen Wort „position“ neue Wörter bilden wie „preposition“, „exposition“, „supposition“, „deposition“, „imposition“ usw., sie haben aber nichts mehr mit der ursprünglichen Bedeutung zu tun und können von der Recherche ausgelassen werden.
Dies ist nicht der Fall im Arabischen. Moukdad testete die Auswirkung dieses Defizits am Beispiel von 271 arabischen HTML-Seiten (weitgehend homogenen Inhalts), die er für diesen Zweck mit der Personal Version von AltaVista als test data base speicherte und indexierte. Die Suche nach Wörtern ohne Präfixe reduzierte den Recall erheblich. Einen besseren Recall konnte nur durch zusätzliche Suche nach verschiedenen präfigierten Wörtern (z.B. mit Determination al-, mit abhängigen Präpositionen) erreicht werden. Moukdad kommt zu dem Ergebnis, daß eine Linkstrunkierung für die optimale Suche im Arabischen von erheblicher Bedeutung ist und daß mehrsprachige, hauptsächlich aber für die englische Sprache entwickelten Suchmaschinen nicht für andere Sprachen geeignet sind, wie zuerst geglaubt wurde. Arabische Suchmaschinen sollten einen Mechanismus enthalten, durch den bestimmte Präfixe wie Stopwörter von der Suche automatisch ausgeschlossen werden, damit ein mit ihnen erweitertes Wort bei der Suche gefunden wird.

Zu diesem Ergebnis sind vor Moukdad schon andere Wissenschaftler gekommen, die Retrievaltests offline mit unterschiedlich indexierten Datensätzen testeten. 
Abu-Salem (1992) fütterte eine Datenbank mit 120 arabischen Abstracts, um erst eine Volltextsuche im Gegensatz zu einer Titelsuche zu gewährleisten. Er kam zu dem Ergebnis, daß eine Volltextsuche immer zu besseren Ergebnissen kommt als eine Titelsuche, unabhängig von der Art der Indexate. Als zweitens fand er heraus, daß die Suche mithilfe eines relationalen Thesaurus zum gleichen guten Ergebnis führt wie die Suche über Indexate, wenn mit Wortwurzeln statt ganzen Wörtern indexiert wird.11

Hmeidi untersuchte die Vor- und Nachteile des manuellen versus automatischen Indexieren  (er verwendet die Methoden der Recall und Precision). Die Vor- und Nachteile mehrerer Indexiermöglichkeiten werden untersucht, indem einmal ganze Wörter, ein anderes Mal Wortstämme und schließlich die drei- bzw. vier-radikalige Wurzel als Indexate verwendet. Seine Untersuchungen bestätigen die Ergebnisse, zu der schon einmal zuvor Al-Kharashi (1991, 1994) und Abu-Salem (1992) mit einer kleineren Untersuchungsmenge gekommen sind, nämlich, daß das Indexieren arabischer Texte (sowohl im manuellen als auch automatischen Indexierungsverfahren) mit Wortwurzeln (drei-radikaliger I. Stamm) sinnvoller ist, als mit kompletten Wörtern.12  Hmeidi stützte sich bei seinen Argumenten für automatisches Indexieren auf Salton, der in den 70er und 80er Jahren zahlreiche Experimente an englischen Texten machte und als Ergebnis die automatische Indexierung als die beste Lösung für die National Library of Medicine vorschlug. Dokumentare lesen und verstünden den Text, sie machen aber viele Fehler, so argumentierte er damals. Umso mehr Texte es gäbe, desto höher sei die Zahl der Indexate und desto höher die Fehlerquote. Salton verwendete Methoden der Frequency (Häufigkeit, in der Worte in einem Text vorkommen). Hmeidi untersuchte Saltons Methoden an arabischen Texten und machte bei seiner Erklärung des Verfahrens, in dem Indexate aufgrund ihrer Häufigkeit automatisch erfasst werden, auf wichtige Unterschiede aufmerksam, die der arabischen Sprache eigen sind. „The most frequent terms are discarded as too general, the least frequent as too specific, and the midrange terms are used as index terms. (…) the transfer is not a simple process since the complexities of Arabic language imply that any individual word will appear much less often, that is, the token to type ratio for Arabic is much lower than for English, and the inverse document frequency, which is central to many approaches to automatic indexing, is typically much higher. The token to type ratio is the quotient obtained by dividing the number of running words by the number of distinct words in a text“.13Offenbar kommen einzelne Wörter im Arabischen aufgrund der Wortvielfalt und komplexen Morphologie viel seltener vor als im Englischen. 

Mit einer so großen Zahl von Wörtern, die durch die Vielfalt an erweiterten Formen nur einmal vorkommen, ist es da überhaupt möglich, eine auf Häufigkeit basierende Formel zu finden, die eine automatische Indexierung ermöglicht? Ist es ausreichend, die Häufigkeitsgrenze (Maximum- und Minimum-Grenze) für die Frequency von Indexaten einfach zu reduzieren?  Die Regeln der Frequency müssten für das Arabische neu definiert werden, oder taugen sie überhaupt für eine automatische Indexierung der arabischen Texte? Hmeidi verwendete verschiedene automatische und manuelle Techniken der Indexierung und prüfte ihre Eignung für den Information Retrieval von arabischen Dokumenten. Er übernahm die Rechnungsmethode von al-Karashi (1991), dessen Algorithmen auf Keen (1972) basieren und wertet die Ergebnisse statistisch mit den von Salton & McGill angewandten „Signed Pair Test“ und „Wilcoxon Signed Ranked Test“ aus.14
Schon vor Hmeidi entwickelten al-Fedaghi & al-Anzi (1989) einen Algorithmus, durch den die Wortwurzeln (root-pattern-forms) automatisch erkannt werden. Die Muster von Wortstämmen werden mathematisch erfasst und aufgrund dessen kann der drei-radikalige Stamm zurückverfolgt werden.15  Dies wurde von Hilal in einem umfassenderen Experiment elaboriert.16  Aufgrund dieser Untersuchungen entwickelte Riyad al-Shalabi ein Programm zur praktischen Analyse morphologischer Strukturen.17  Das von ihm entwickelte Programm diente Hmeidi später für seine Untersuchung der automatischen Indexierung (Wörter, Wortstämme und Wortwurzeln). Für die Suche im Internet nach verschiedenen Formen des Wortes sind die Begriffe stemming und substring geläufig. Stemming bedeutet, daß alle Formen eines Wortes gesucht werden (bereit: bereitstellen, bereits, Bereitschaft usw) und nicht nur das Wort, das als Suchwort eingegeben wird. Substring: bedeutet Wortstamm, das heißt, verschiedene Wortendungen oder Plurale, die automatisch miterfasst werden.
Abu-Salem, Hani & al-Omari, Mahmoud & Evens, Martha W. (1999) befassten sich in einer italienisch-jordanischem Gemeinschaftsarbeit mit der Frage, wie arabische Information Retrieval Systeme verbesserbar sind. Eine Reihe von Retrievaltests mit einzelnen Wörtern, Wortstämmen und -wurzeln wurden durchgeführt. Die angewandte Methode „Mixed stemming“ errechnet den Grad der Wichtigkeit von Termini für den Suchprozeß. Mit einer Wichtigkeitsskala (weighting scheme) wird die Worthäufigkeit (term frequency) und invertierte Häufigkeit ermittelter Dokumente (Inverse Document frequency) ausgerechnet. Durch eine Systematik werden irrelevante Dokumente von der Suchmenge entfernt. Die Verwendung von Wurzeln als Indexate erwiesen sich als die beste Lösung.18

Die desolaten Verhältnisse von arabischen Archiven und Bibliotheken, wie es aus der einschlägigen Literatur herauszulesen ist,19  zeigen, daß das www auch hier Lösungen anbieten kann, die bisher kaum denkbar waren und daß sprachlich getrennte Kataloge nun international verfügbar gemacht werden können.20
 

3. Arabische Suchmaschinen

Jede Suchmaschine deckt nur einen Teil der Dokumente im Netz ab. Neben der Größe (Abdeckungsgrad des Web) muss eine Suchmaschine weitere Qualitäten vorweisen, um brauchbar zu sein: 

Aktualität des Suchmschinen-Index 
Ranking (Auflistung der relevanten Treffer an oberster Stelle)
Schnelligkeit
Möglichkeit, in einem Advanced-Search-Modus die Abfragetechnik zu verfeinern
Benutzerfreundliche Oberfläche und ansprechende Optik

So sollte man sich stets fragen, wenn man für die Recherche arabische Suchmaschine benutzt, welche Suche voreingestellt ist, AND- oder OR-Verknüpfung, ob eine Phrasensuche möglich ist, ob das System präfigierte Wortformen findet (z.B. Determination?). Sucht es bei der Eingabe eines Wortes (z.B. hurriyya, dimuqratiyya, Freiheit, Demokratie) sowohl determinierte (al-hurriyya, ad-dimuqratiyya) als auch undeterminierte (hurriyya, dimuqratiyya) Wörter? Erkennt es angehängte Wörter (wa- (=und)) oder Präpositionen ka-l-qamar (=wie der Mond)? Erkennt es Personalsuffixe als nicht dem Wort angehörende Suffixe? Findet es regelmäßige Plurale mit einfacher Trunkierung (mu’allima, mu’allimat (Lehrerinnen), muharib, muharibun (Kämpfer) oder auch unregelmäßige Plurale, bei denen sich die Wortform im Innern ändert (ustadh, asatidha) oder erkennt es keines von beiden? Kann man nach vokalisierten Wörtern genau suchen oder nur nach Wörtern in der konsonantischen Schreibung? Diese Fragen sollen unter anderem nachgegangen werden. 

Ist das Erraten der Adresse einer arabischen Webseite möglich? 

In der Regel muss man genau wissen, wie der Name (etwa einer Zeitung) in der englischen Transkription geschrieben wird, dieser ist meistens im URL enthalten. Der Top Level Domain ist in der Regel .com (steht für commercial organisation) oder .org (steht für organisation), manchmal mit zusätzlichem Länderdomain (z.B. www.ahram.org.eg). An dritter Stelle findet sich .net als Top Level Domain (z.B. http://www.aljazeera.net/). Webseiten von arabischen Organisationen und Zeitungen in Amerika haben auch oft den Generic Top-Level Domain .edu (in Zusammenarbeit mit Universitäten entstandene Web-Angebote). Da aber der URL lang sein kann, ist die Suche über Google oder einer arabischen Suchmaschine empfohlen.
Beispiel: Sie kennen die Zeitung al-Hayat, dann können Sie den URL versuchen, direkt einzugeben (der wäre http://www.alhayat.com). Manchmal ist die  Determination mit al- im URL (ohne Bindestrich http://www.alhayat.com manchmal mit Bindestrich https://web.archive.org/web/20220419011408/http://www.al-ayyam.com/), manchmal ganz ohne Determination (www.ahram.org.eg). Die al-Ahram Zeitung hat einen etwas komplizierteren URL (http://www.ahram.org.eg), auf den man nicht von selbst kommen wird. Abkürzungen von Organisationen (wie beispielsweise unesco, eu, osze) gibt es im Arabischen nicht, insofern auch generell nicht im URL. Mit der Schreibweise fängt das Problem an: al-gomhoriya, al-gumhuriyya, al-jumhuriyya? Oder akhbar al-yawm, akhbar el-yom, al-youm oder el-jom? Es gibt mehrere Zeitungen, die al-rabi heissen, und mehrere, die al-ayyam oder al-hayat oder al-jazeera heissen, mehrere, die watan und gmhuriyya heissen. Am sichersten ist in diesem Fall, den Namen der Zeitung ohne Zusätze im Google einzugeben, in den meisten Fällen wird die homepage der Zeitung schon an erster Stelle aufgeführt, unabhängig davon, ob Sie den Namen mit oder ohne al- eingeben. Von der Benutzung der URL-Suchfunktion im Netscape Navigator (durch Eingabe eines Fragezeichens und eines Leerzeichens vorweg in das Adress-Eingabefenster (? al-ahram) rate ich ab: das führt zu keine erfolgreichen Ergebnisse. Außerdem lassen sich arabische Webseiten im Explorer besser sichten, es sei denn, man verfügt über ein arabisches Netscape-Programm (Sindbad).

Diese Beispiele zeigen, daß man zur Findung einer Internet-Adresse über kurz oder lang doch  auf die Suchwerkzeuge angewiesen ist. Im folgenden werden die gängigen Suchmaschinen mit einer kurzen Beschreibung aufgeführt. Danach werden auserwählte Suchmaschinen, die Suchfragen auf Arabisch zulassen, einem Availability Test, dem Known-Item-Test, unterworfen, um Umfang und Funktionalität der einzelnen Suchmaschinen zu messen. 
 

3.2. Arabische Suchmaschinen

www.arabia.com (ehemals www.arabia.on.line)21
Ein Produkt der seit 1995 bestehenden Firma Arabia Online (Guernsey) Ltd., mit Sitz in den Vereinigten Arabischen Emiraten und mit Edition und technischem Support in Jordanien, wird arabia.com von einflussreichen Investoren wie Prinz al-Waleed Bin Talal unterstützt. Die Firma hat 65 Mitarbeiter. Gründer ist Khaldoon Tabaza. 
Die Suchmaschine wird von Google und Ayna unterstützt und ist eine der bestfunktionierendsten. Die Suchmenge kann man vorab eingrenzen (Web, arabia.com, Arab world sites, Directory, Companies, Shops, Stocks). In der Websuche greift arabia.com auf eine Milliarde von Webseiten des globalen Indexes Google. 1,5 Millionen Webseiten bilden den Umfang des eigenen Datenbestands, gepflegt von ausgebildeten Dokumentaren. Ein speziell für die Bedürfnisse der arabischen User angelegtes Verzeichnis enthält acht Millionen Webseiten (Quelle: www.arabia.com, Stand 2002).

Die voreingestellte Verknüpfung ist AND. Eine OR-Verknüpfung ist nicht möglich. Man kann Wörter durch ein vorangestelltes Minuszeichen ausklammern (NOT-Verknüpfung). Stopwörter wie „where“ und „how“ (ayna, kaifa) sowie einige alleinstehenden Ziffern und Wörter können mit einem vorangestellten Pluszeichen berücksichtigt werden. Die erweiterte Suche durch Trunkierung ist nicht möglich. Wenn man also beispielsweise „arabi“ eingibt, sucht www.arabia.com nicht auch nach „arabia“ oder „arabia.com“. Man kann nur nach der reinen (identischen) Wortform suchen. Sucht man in arabia.com und in Google nach den selben Wörtern, so erhält man in www.arabia.com genau so viele Treffer (ggf. ein bisschen mehr) wie in Google, auch das Ranking ist fast identisch. Die Suchmasken bleiben getrennt (nicht wie in Ajeeb, der automatisch nach Eingabe der Suche in eine provisorische Suchmaske die Oberfläche auf Alltheweb wechselt). Eine verfeinerte Rubrikensuche im Web-Verzeichnis von arabia.com (catergories und subcategories), die von Ayna unterstützt wird, ist unter www.daleel.arabia.com möglich (wählt man aus Wissenschaft z.B. die Rubrik Astrologie, und sucht man anschließend nach „Saturn“, erhält  man alles über Saturn, nicht zutreffende Dokumente über das Spiel Saturn oder das Auto Saturn werden automatisch ausgeschlossen. Eine integrierte Firmendatenbank von Hoover’s ist allerdings nur über die englische Suchmaske verfügbar. Weitere themenspezifische Datenbanken: Der Koran und die Hadith-Sammlung (Aussprüche des Propheten), PBUH, Länderspezifische Verzeichnisse, Ratgeber und Terminkalender.22

www.ayna.com 
Mit offiziellen Sitz in New Hampshire, USA und Graphik und Übersetzungsteam in Ägypten, ist Ayna (dt.=“Wo?“) einer der erfolgreichsten arabischen Webkataloge. In einer Rankingliste von Alexa Research (Oktober 2000) stand Ayna bei den Benutzern in Saudi-Arabien auf Platz 5 (mit 3.547.000 Nutzern für den Monat Oktober (im Vergleich die auf den beiden ersten Plätzen: MSN Arabic 44.771.000, Yahoo 44,262,000).  Heute hat Ayna enorm aufgeholt und ist von der Nutzerzahl um mehr als das Fünffache gewachsen. Im Mai 2002 stand es mit 19.445.000 Nutzern auf Platz drei (Yahoo wieder mit 182.870.000 auf Platz eins).23
Es stehen keine Booleschen Operatoren zur Verfügung. Die automatische Verknüpfung ist AND: Wenn man zwei Wörter eingibt, sucht Ayna nach beiden Wörtern zusammen und getrennt in einem Dokument. 

Ayna sucht nur im eigenen Datenbestand (allgemein oder Rubrikensuche). Am Ende der Trefferliste sind Links zu: Google, AltaVista, Search, Excite, Google Groops, HotBot, Lycos.com, Yahoo). Klickt man auf eine Suchmaschine, so wechselt er automatisch auf die Suchoberfläche der gewählten Suchmaschine um und sucht für dieselbe Anfrage dort noch einmal mit anderen Ergebnissen und neuer Suchmaske, wo man die Suche mit anderen Funktionen als in Ayna noch verfeinern kann. 

www.ajeeb.com 
Führendes arabisches Portal, von Sakhr entwickelt. Ajeeb (dt.=wunderbar, merkwürdig!) verfügt über ein breites Angebot unterschiedlicher Service-Leistungen, angefangen vom freien Wörterbuch bis zu arabischen eMail-Programme, Newsletter, aktuelle Wetterberichte, Gebetszeiten, Enzyklopädie arabischer Filme und mehr. Seine bilinguale Suchmaschine Idrisi für Arabisch/Englisch auf der Seite des Webverzeichnis http://www.aldalil.com stattet Sakhr mit einer soliden linguistischen Basis aus, die Data-Processing ermöglicht. Die Suche in Idrisi sei kein „surface Arabic string search“ sondern  „content-based linguistic search“, sagt Sakhr in der Selbstdarstellung. Wissenschaftliche Dokumentare, die sich für die Systementwicklung von arabischen Suchmaschinen interessieren, finden hier im Programm von Idrisi den hoffnungsvollen Anfang eines komplexeren Retrievalsystems, das der arabischen Sprache gerecht ist. 
Die Suchmaschine sucht zuerst ausschliesslich im eigenen Datenbestand (die Oberfläche wechselt automatisch zum Verzeichnis des Portals www.aldalil.com (nicht zu verwechseln mit dem Daleel, dem Verzeichnis von arabia.com). In www.aldalil.com kann man wählen zwischen der einfachen und der erweiterten Suche. Man kann die Art der Verknüpfung wählen (AND, OR, Phrase). Erst im erweiterten Suchmodus kann man wählen zwischen der erweiterten Suche im Verzeichnis Dalil oder im Internet (ein Screenshot von der erweiterten Suchmaske im Dalil und im Internet finden Sie weiter unten).
Die Funktionen CAM und Soundex können aktiviert werden. CAM (Current Arabic Mistakes) berücksichtigt Fehler, die bei arabischen Nutzern häufig vorkommen (das Weglassen der Hamza am Wortanfang wie in Ahmad, das Weglassen der Punkte vom langen „i“am Wortende wie in Ali, oder der Punkte auf dem „ha“ der Femininendung wie in thaqafa(h). Das Programm sucht nach der korrigierten Form. Ebenso ist es möglich, nach Wörtern einer bestimmten Vokalisierung zu suchen und somit andere mit der gleichen Form, aber einer anderen Vokalisierung, auszuschließen. Wie bereits erklärt wurde, werden im Arabischen gewöhnlich nur Konsonanten und Langvokale ausgeschrieben, es entstehen dadurch viele Wörter mit der gleichen Autographie (Homonyme). Mit dieser Funktion könnte man z.B. bei vokalisierten Texten gezielt suchen nach dem Verb alima (er wusste), oder dem Verb des II. Stammes allama (er unterrichtete), dem Passiv des I. und II. Stammes (ulima, ullima), dem Substantiv ilmun oder dem Imperativ des II. Stammes „Unterrichte!“ Dies alles sind – ohne der diakritischen Zeichen – Homonyme. Mit Soundex (case sensitivity) kann man Groß- und Kleinschreibung berücksichtigen, nur im Englischen, die arabische Sprache kennt keine Groß- und Kleinschreibung. 
Man kann wählen zwischen verschiedenen Wortformen: nach der exakten Wortform, nach Wörtern, die auf dieselbe Wurzel zurückgehen, nach Ableitungen, nach Synonymen und Antonymen und schließlich sogar nach dem Wort in englischer Übersetzung. 
Eine Testsuche nach sirr (dt.=Geheimnis) mit der Funktion „und Ableitungen“ ergab 49 Treffer, wobei auch Dokumente gefunden wurden mit Determination und Präposition im Präfix (as-sirr, li-s-sirr), Adjektive, Adjektive mit Femininendung, Substantivbildung, das Wort mit Possessivpronomina im Wortende (sirriyya, as-sirry, sirruka) und Verbformen. Die Suche mit der Funktion „Suche nach allen Wortbildungen des Stammes „sarra“ der drei Radikalen „srr““, ergab 261 Treffer, mit noch mehr erweiterten Formen z.B. Eigennamen, die aus dem Partizip aktiv gebildet werden (Firma Sarra mit alif) und unregelmäßige Plurale asrar (Rev. 4.9.2002). Eine Testsuche nach den Wörtern al-maga’a wa-l-awbi’a (Hunger und Seuchen) in Übersetzung ergab 3452 Treffer, alle Links und Annotationen in englischer Sprache (darunter z.B. „famine in Sudan“, „hunger in Horn of Africa“ etc). Die Texte der Annotationen zu den Links, die bei Ajeeb bis zu fünf Zeilen lang sein können, sind kurze Abstracts, die von Dokumentaren verfasst sind. Der Titel des Links fasst daher generell den Inhalt des Dokuments zusammen (z.B. Suchwort „Frau“, „Titel Feminismus“ in Ägypten). In der Annotation ist das Suchwort nicht hervorgehoben. Leider wird diese verfeinerte Suche (vermutlich wegen der zu großen Datenmenge) bei der erweiterten Suche im Internet nicht angeboten.

Für die Suche im www gibt es andere Kriterien, die mit den Kriterien von www.alltheweb.com übereinstimmen, da nach Ausfüllen der Suchmaske die Oberfläche auf die von Alltheweb wechselt. Man kann mit den Booleschen Operatoren operieren, die gewünschte Sprache eingeben, die Domäne definieren (-.com, -.net, -.org, -.edu, Ländercode). Weitere Filter: zusätzliche Wörter, die enthalten sein sollten, enthalten sein müssen, oder nicht enthalten sein dürfen (should include, must include, must not include) im Text, im Titel, im Linkname, im URL oder in einem Link zum URL. Das Korrektursystem scheint auch hier aktiviert zu sein, obwohl es in der www-Suchmaske nicht als Wahl angeboten wird. Den Test mit der falschen Schreibform von Ahmad ohne Hamza (bei anlautenden Vokalen) habe ich in Alltheweb wiederholt. Alltheweb sucht sowohl nach Ahmad mit Hamza als auch Ahmad ohne Hamza.
Erfolgreich fördert Ajeeb das Projekt eines open directory projects, bei dem der User animiert wird, Webseiten mit eigens verfassten Abstracts ins Verzeichnis selbst zu stellen. Die Anleitungen und entsprechende Eingabemasken sind einfach zu bedienen.

www.4arabs.com 
Wie das Portal von Ajeeb, ermutigt „For the Arabs“ die User, ihr das Web mit zu katalogisieren. Aber im Gegensatz zu Ajeeb ist die Linksammlung nur in Englisch. In der erweiterten Suche (Advanced Search) kann man mit AND, OR, SUBSTRING und Phrase operieren. Die Suche in Arabisch ist nicht möglich. Dafür verweist 4arabs auf Google, Alltheweb, AltaVista, Hotbot, Netscape, Northern Light, Yahoo. Vorteil: Gibt man auf Arabisch das Wort ein und klickt auf eine dieser Suchmaschinen, wird diese geladen und das Suchwort trägt sich automatisch in das Suchfenster ein und die Suche wird gestartet. So kann man mittels Pfeil zurück alle verschiedenen Suchmaschinen ausprobieren (die z.T. den arabischen Suchmaschinen um nichts nachstehen. 

www.arabvista.com
=www.albahhar.com
Arabvista bzw. al-Bahhar (dt.=Segler) hat mit AltaVista nichts zu tun, genauso wenig wie  Saudivista nichts mit AltaVista zu tun hat. Es sind lediglich Nachahmungen derselben, die beanspruchen, das arabische bzw. saudische AltaVista zu werden. Im Jahre 2000 von Emirates Internet & Multimedia, einer Tochterfirma der seit 1995 bestehenden Emirates Internet in den Vereinigten Arabischen Emiraten gegründet, weist Arabvista leider große Mängel auf. 
Die Suche ist automatisch auf OR-Verknüpfung eingestellt, je höher die Suchwörterzahl, desto höher die Treffermenge. Bei der Eingabe eines Suchwortes in der einfachen Suchmaske erscheint mit der Trefferanzeige die Maske der erweiterten Suche automatisch. Dort können angeblich Boolesche Operatoren eingesetzt werden (voll ausgeschriebene Worte „wa“,24 „aw“, „laisa“ und „qurb“), ferner kann die Suche nach Erscheinungsdatum, Sprache, Domain (com, net, Land etc.) eingegrenzt werden. Es ist angeblich auch möglich, neben der exakten Form des Wortes auch Ableitungen (mushtaqqat), Präfixe (lawasiq) und Wortendungen (lawahiq) zu suchen. Mit anderen Worten soll Arabvista Rechts- und Linkstrunkierung ermöglichen und Stammformen erkennen.

Trotz einer offenbar großen Datenbasis  weist Arabvista eklatante Qualitätsmängel auf. Das Programm versagt an dem Processing. Vieles scheint nicht zu funktionieren. Man kann nicht nach einer Phrase suchen (weder mit Parenthese noch die Einstellung (exact phrase) noch die AND-Verknüpfung durch die Ausschreibung „wa“ scheint zu funktionieren. Man soll theoretisch wählen können zwischen Arabvista, Internet, News und Discussion Groups, das System stürzt jedoch bei der Wahl „Internet“ hoffnungslos ab (auf der Englischen Seite wird die Wahl „Internet“ erst gar nicht angeboten). 
Auch auf der formalen Ebene gibt es viele Mängel. Die viel zu hohe Trefferzahl ist schwer zu überschauen, da weder im Titel noch in den zitierten Zeilen die Suchwörter vorkommen.

Titel der Links sind zu lang und geben den Sinn des Inhalts nicht präzise wieder. Das Suchwort, wenn es denn mal in der Trefferliste zu sehen ist, ist nicht hervorgehoben. Die Rangordnung ist zweifelhaft, selten sind relevante Treffer auf vorderen Plätzen.
Zu all diesen Mängeln kommt hinzu, daß die Adresse des Links nur in Kurzform (Leitseite) wiedergegeben wird. Wählt man eine der Links an, so verändert sich der Head in der Kopfzeile des Browsers (blaue Leiste) nicht, er zeigt immer nur www.albahhar.com an  (dies war für unsere Known-Item-Analyse sehr unpraktisch). Das einzige, was Arabvista gegenüber einigen anderen arabischen Suchmaschinen besser vorzuweisen hat, sind neben Angaben zum Umfang (in Kbs) und zur Sprache die Angaben zum Datum der letzten Aktualisierung
Offenbar haben die Entwickler sich – dem differenzierten Filter der erweiterten Suchmaske nach zu urteilen – mehr vorgenommen, als das Programm tatsächlich kann.

www.naseej.com 
Naseej, Arab Information Network, Anfang 1997 gegründet,  ist eines der ersten arabischen Webportale und gehört zu den ersten, die neben Graphiken auch mit editierbaren arabischen Schriftzeichen ins Netz gingen. Neben Newsletter, eMail- und Chat-Programmen bietet Naseej ein ausführliches Internet-Verzeichnis.

www.arabic2000.com 
Die Suchmaschine Arabic2000.com wird von Ayna unterstützt und ist offenbar noch im Aufbau, da die Suche noch nicht funktioniert (Suche auf Englisch möglich). Das Portal enthält gute Tips für arabische Internet User. 

www.arab.net 
eine Art Netz-Zeitung (man erhält Artikel aus verschiedenen Quellen, mit Kurzinfos zu arabischen Ländern. ash-Sharq al-Awsat, eine saudische Zeitung, die in England erscheint, ist offenbar Partner. Arab Net bietet außerdem ein Verzeichnis der Handelsfirmen an, die im Nahen Osten und Nordafrika Geschäfte machen, das Middle East Internet Directory (MEID).

www.murshid.com 
eines der frühen Web-Verzeichnisse mit Suchoption in Englisch. Die Domain von www.murshid.com ist später von einem fremden Anbieter gekauft worden; wie ich aus http://www.arabic2000.com/index/index.html erfuhr, war auf www.murshid.com bereits am 22. Februar 1999 nicht mehr zuzugreifen. Auch www.arabseek.net gibt es nicht mehr, www.ankaboot.com (Spinne) existiert nicht mehr, http://www.jahra.net/ wahrscheinlich auch nicht.

www.arabsites.com 
saudi-arabische Website mit Linksammlung, geordnet in Kategorien; Suchfunktion ist zweisprachig mit automatischer AND-Verknüpfung, offenbar greift www.arabsites.com aber auf keine besonders große Datenmenge zu. 

http://www.konouz.com/  und http://eyoon.fares.net/ 
verfügen auch über keine große Datenmenge.

http://www.awse.com/arabic/index.htm
Arab World Search Engine, verfügt leider auch nur über eine kleinere Datenmenge und konzentriert sich auf die Bedürfnisse von Usern aus Saudi-Arabien. 

www.raddadi.com 
Auf dem saudischen Portal www.raddadi.com werden wichtige Linklisten zu verschiedenen arabischen Suchmaschinen, Webverzeichnissen, Nachrichtenagenturen und Portalen verschiedener Art geboten (siehe unten in der Abbildung Linkliste der Suchmaschinen, mit einem laufenden Koranvers als Banner)

Globale Suchmaschinen, die eine Suche mit arabischen Schriftzeichen erlauben, sind zum Beispiel Google, AltaVista, Yahoo, Alltheweb und das arabische MSN. Die meisten dieser Suchmaschinen erlauben keine Trunkierung und sind empfindlich, was die Wortform anbetrifft (berücksichtigen keine Vokalisierung, erkennen keine Suffixe etc). MSN, führender Netzanbieter in den Golfstaaten und anderen arabischen Ländern, bietet diese Suchfunktion unter http://www.arabic.arabia.msn.com/ an. Dies habe ich erst nach den Ergebnissen meiner Known-Item-Analyse entdeckt, sonst hätte ich sie bei der Untersuchung mit aufgenommen. Auf der englischen Homepage von MSN ist die Suche mit arabischen Schriftzeichen nicht möglich und einen Verweis auf die arabische Suchmaske gibt es von dort aus nicht. Viele der arabischen Web-Verzeichnisse (insbesondere diejenigen, die über ein kleinere Datenmenge verfügen) richten eine provisorische Suchmaske ein mit Verlinkung auf diese globalen Suchmaschinen. Ayna sucht nur im eigenen Datenbestand. Hat man eine Suche gestartet, verweist Ayna am Ende der Trefferliste auf Google, AltaVista, Search, Excite, Google Groops, Hot Bot, Lycos und Yahoo. 
Die islamisch geprägte Seite http://www.sultan.org/b/ hat eine einfache Suchmaske angelegt, auf die eine Reihe solcher globalen Suchmaschinen, Datenbanken und Nachschlagewerke (Ayna, Google, Koran-Konkordanz, und islamische Suchmaschine www.Islamweb.com) integriert sind.
http://saudivista.com/  hat eine ähnliche einfach bedienbare Suchmaske integriert, die automatisch auf Ayna, Ajeeb, Naseej und Konouz wechselt.25
Bei der Eingabe des Stichworts in der einfachen Suchmaske wird automatisch auf die jeweilige Suchmaschine zugegriffen und die Suche in deren Datenmenge automatisch aktiviert.

Als kurzen Einblick wurde getestet, wie die jeweiligen Suchmaschinen auf die Wortkombination huquq al-amal (Arbeitsrecht, wörtlich „Rechte der Arbeit“) reagieren (alphabetische Reihenfolge, Rev. 1.9.2002):

Alltheweb
27.334 Treffer (Einstellung: „any language“)
24.712 Treffer (Einstellung: Arabisch)
41 Treffer (Phrasensuche: Einstellung auf Sprache „Arabisch“ und exact phrase)
Im Advanced Modus ist ein detailliertes Filtern möglich, nach Umfang, IP  Adresse, Boolesche Operatoren (AND, OR, NOT), Suche im Titel, im URL u.a. 

AltaVista 369 Treffer
Phrasensuche mit „…“ nicht möglich 
sucht automatisch beide Wörter mit AND-Verknüpfung. Man kann die Sprache aussuchen, Arabisch ist aber nicht darunter. Die erweiterte Suche im Advanced Modus ist sehr detailliert (u.a. z.B. wie alt das Dokument sein darf)

AOL  0

Arabvista  150.047 Treffer
30 Treffer (Phrasensuche mit „…“)
Suche ist automatisch auf OR-Verknüpfung eingestellt, je höher die Suchwörterzahl, desto höher die Treffermenge (huquq allein ergibt 1.872 Treffer). Bei der Suche nach den selben Suchwörtern (Arbeitsrecht) in Kombination mit „Wortableitungen“ erhält man 152.275 Treffer. 

Fire Hunt  15 Treffer 

Google  210 Treffer 
84 Treffer (Phrasensuche mit „…“)
Sucht automatisch mit AND-Verknüpfung. Sprache Arabic wählbar, ebenso gibt es die Möglichkeit einer OR-Verknüpfung im detaillierten Advanced-Search-Modus (262,000 Treffer). 

Hotbot  21 Treffer
0 (Phrasensuche mit „…“)
Ist auf AND-Verknüpfung eingestellt und sucht nach Aktualität der Dokumente (ab 1.1.2002) – im Advanced-Search-Modus modifizierbar ab 1990 (ergab aber auch nur 21 Treffer). Es gibt die Funktion „Search within these results“

Lycos  3.150.473 Treffer (alles Fehltreffer, für arabisch ungeeignet)

MSN Arabic 16.895 
27 Treffer (Phrasensuche mit „…“)
Automatische AND-Verknüpfung

Netscape Network  189 Treffer 

Northern Light 35.012.263 Treffer (alles Fehltreffer, für Arabisch ungeeignet)

Yahoo  208 Treffer
1 Treffer (Phrasensuche mit „…“) 
Im Advanced-Modus ist es möglich, alte Webseiten mit einem Filter auszuschließen

Dieser Test zeigt schon, wie groß der Unterschied der Suchmaschinen sind, zum einen von der erheblich unterschiedlichen Trefferzahl, was Rückschlüsse über die Datenmengen, auf die die jeweiligen Suchmaschinen und Webkataloge zurückgreifen, erlaubt, zum anderen in der Zulässigkeit bzw. Unzulässigkeit einer auf arabisch gestellten Suchfrage. Arabvista schnitt von der Trefferzahl am besten ab, die Suche ist jedoch auf OR-Verknüpfung eingestellt und sehr ungenau, das Ranking willkürlich. Die Suchwörter kommen nicht im Titel und nicht in der Annotation vor und wenn doch, sind sie nicht hervorgehoben. Ob die Suchmaschine tatsächlich arabische Wortableitungen suchen kann, konnte ich bei der Menge nicht sicher feststellen. Ich bezweifle es, da dies mit einem höchst komplizierten linguistischen Verfahren einhergeht. Mit Phrasensuche lässt sich die Suchfrage in Arabvista am erfolgreichsten eingrenzen. Alle anderen Funktionen sind mangelhaft bis untauglich. 
Nach Arabvista folgen in großen Abständen Alltheweb, MSN Arabic, AltaVista, Google, Yahoo, Hotbot (Lycos, Fire Hunt, AOL und Northern Light haben sich fürs Arabische als untauglich erwiesen, ebenso Infoseek und Webcrawler). Negativ zu bewerten sind Suchmaschinen, die behaupten, Arabisch lesen zu können und Ergebnisse liefern, die im Grunde beim genauen Hinsehen nur Fehltreffer bieten (z.B. Northern Light, Lycos). Der User möchte schließlich schon am Anfang wissen, woran er ist. Es ist beruhigender, bei einer Suchfrage Null Treffer zu erhalten als 1000 falsche. 

Während die Suche mit AND-Verknüpfung einiges über die Datenmenge aussagt, auf die die Suchmaschinen zurückgreifen, konnte man mit der Phrasensuche im Vergleich feststellen, ob die Suchmaschinen zum Teil auf die gleichen Quellen zurückgreifen oder nicht (mehr dazu in der Known-Item Analyse). 
 
 

4. Die Known-Item-Analyse zur Messung der 
Availability von arabischen Suchmaschinen

Nach reifer Überlegung habe ich Abstand genommen von Retrievaltests nach den Recall- und Precision-Methoden. Aufgrund der unbekannten Gesamtmenge der relevanten Dokumente im Web lässt sich der absolute Recallwert Rabs (Anteil der gelieferten relevanten Dokumente an allen in der Datenbasis vorhandenen relevanten Dokumenten in Prozent) nicht erfassen. Es gibt zwar Methoden, wie man dies umgeht (es müsste von einem relativen Recall ausgegangen werden). Auch bei der Precision (dem Anteil der relevanten Ergebnisse an allen gelieferten Ergebnissen in Prozent) müsste man folglich mit einem Cut-Off-Wert arbeiten (relativer Recall).  Ich habe großen Zweifel an der Genauigkeit dieser Tests und befürchte, daß sie bei der geringen Menge der Datenmenge, die ich im Rahmen dieser Arbeit testen kann, schnell zu falschen Schlüssen führen könnten. Ungeeignet erschienen mir diese Methoden auch, da wir es im Internet mit riesig großen Treffermengen zu tun haben. Die Überprüfung der Relevanz der Dokumente relativ zur Suchfrage ist insbesondere bei nicht genug funktionierendem Ranking ein Problem, da wir nicht davon ausgehen können, daß die ersten Treffer die relevantesten (Precision) sind. Die Relevanzbeurteilung würde außerdem viel zu viel Zeit kosten, in der auch subjektive Momente eingehen.27

Ich entschied mich für den Retrievaltest „Known-Item-System“, einem Verfahren, das – erstmals im Jahre 2000 von Mechtild und Wolfgang G. Stock an Internet-Suchwerkzeugen vorgestellt – bisher aus der Bibliothekswissenschaft bekannt war.28  In diesem Test wird von Dokumenten ausgegangen, deren Existenz bekannt ist, und die zum Zeitpunkt der Evaluation mit Sicherheit aktiv sind. Die Trefferquote zeigt die Verfügbarkeit (Availability) der Dokumente, welches in dieser Arbeit auch Kriterium für unsere Bewertung der verschiedenen Suchmaschinen sein wird. Aufgrund der Bekanntheit der Dokumente wird das Problem der Relevanzbewertung hinfällig. Getestet werden sechs Suchwerkzeuge mit arabischer Einrichtung. Es werden insgesamt 20 Known-Items gesucht, die sich innerhalb der ersten 20 Treffer befinden müssten. 

Der Messwert hat zwei Ausprägungen: das Zieldokument wird entweder gefunden oder nicht (x, -). Die Availability A eines Suchwerkzeugs errechnet sich als Quotient aus der Anzahl der gefundenen Dokumente Dgef und aller gesuchten Dokumente D in Prozent, d.h.

A=Dgef/D*100

20 bekannte Dokumente (5 je Kategorie)
Der Cut-Off-Wert ist 20, das heißt nur die ersten 20 Treffer werden berücksichtigt.
 
 

4.1. Prozedur der Known-Item-Analyse

Getestet werden sieben Suchwerkzeuge mit arabischer Spracheinrichtung (Ayna, Ajeeb, Arabvista=al-bahhar, arabia.com, Google, Yahoo, Alltheweb), wobei zwei Suchmaschinen an zwei andere gekoppelt sind (Ajeeb an Alltheweb, arabia.com an Google). Es werden insgesamt 20 Known-Items (von mir vorher ausgesuchte Webseiten) gesucht, die sich innerhalb der ersten 20 Treffer befinden müssten. Die Suchwerkzeuge werden jeweils mit derselben Suchfrage konfrontiert, nach der die Known-Items  gefunden werden sollen. Der Retrievaltestlauf umfasst 20 Dokumente. Um eine möglichst große Streubreite zu erreichen, wählte ich Webseiten zu verschiedenen Themen, Zeitungsartikel, Portale von privaten Personen, Banken- und Firmenmeldungen, Werbe-Seiten zu bestimmten Produkten (Hewlett Packard) u.a. Hierbei achtete ich darauf, keine Unterseiten der Portale der Suchmaschinen zu nehmen. Es sind sowohl Hauptseiten (Homepage) als auch Seiten, die tiefer im Verzeichnisbaum liegen (Position einer Html-Seite). Einige Fragen sind allgemein gefasst, andere spezifisch. Die Fragen sind thematisch in 4 Kategorien eingeteilt (Tabelle). 

Die Tabelle ist in folgende Bestandteile gegliedert: die URLs der zu suchenden Seiten (Known-Items); die Prozedur (Kombination arabischer Suchwörter), mit der die Seite gesucht werden soll; die Übersetzung der Suchwörter; Datum der Seite (falls bekannt); Sprache, in der der Titel der Webseite in der Kopfzeile des Browsers erscheint bzw. mit der der Titel im Head geschrieben ist, welches aus dem Quelltext ersichtlich ist (Ta steht für arabischen Titel, Te für englischen Titel); Angaben dazu, ob die Zielseite unter den ersten 20 Treffern (Cutt-Off-Wert) gefunden wurde oder nicht (- steht für nicht gefunden, x für gefunden) und schließlich die Trefferzahl in Klammern. 
 
 

4.1.1. Testanfragen der Known-Item-Untersuchung

Nachrichten

– Gesucht wird eine Meldung über die Fluten in Deutschland, der
   Tschechoslowakei und China
– Gesucht wird ein Artikel über eine amerikanische Studie von der Universität
  Hampshire, in der hervorgeht, daß die zivilen Opfer in Afghanistan doppelt so 
  viel sind wie die Opfer des 11. Septembers. 
– Gesucht wird ein Bericht zu den Gewinnen der Aktionäre der kuwaitischen 
  Bank Burqan,  und in dem der Automobilmarkt vorkommt
– Gesucht wird das arabische Verzeichnis der WM-Meisterschaften der BBC 
– Gesucht wird die Satzung des Ibn Rushd Vereins, Fund for Freedom of Thought
  Musik
– Gesucht werden Liedertexte der berühmten Sängerin Um Kulthum
– Gesucht wird ein Artikel über die Geschichte des Theaters und der Musik in 
  Jordanien
– Gesucht wird eine Rezension eines Musikabends mit dem Oud-Spieler Ahmad 
  Mukhtar, in dem die Musikgattung Maqam al-kindi auf dem Programm stand 
– Gesucht wird eine Meldung zur Aufführung von King Lear auf dem 
  Musikfestival in Jarash/Jordanien
– Gesucht wird die arabische Homepage von John Mitchell
  Literatur
– Gesucht wird eine Kurzbiographie über den mittelalterlichen Satiriker al-Jahiz, in
  dem u.a. erzählt wird, dass er als Kind mit dem Verkauf von Brot und Fisch lebte
– Gesucht wird etwas über den Volksroman al-Hallag, der lange nach dem 
  Versterben des berühmten Mystikers entstanden ist
– Gesucht wird eine Streitschrift mit der Überschrift „In Verteidigung von Adonis“
– Gesucht wird die (neue) Homepage des verstorbenen islamischen Theaterautors 
  Ali Ahmad Bakathir 
– Gesucht wird eine Kurzbiographie über die frühislamische Dichterin al-Khansa
  Firmen und Produkte
– Gesucht wird eine Fetwa, die Muslime auffordert, amerikanische und israelische
  Produkte zu boykottieren
– Gesucht wird eine Werbung für die Produkte der Firma Nibco (Besen, Pinsel, 
  Malrollen)
– Gesucht wird eine Meldung zum Aufkauf der Firma Compaq durch Hewlett 
  Packard
– Gesucht wird Information über GPS (Global positioning Overview)
– Gesucht wird eine Seite, bei der man arabische Klingelmelodien für ein Handy 
  von Nokia erhalten kann

Die Suchergebnisse sind qualitativ sowie quantitativ sehr unterschiedlich. So existieren bei einigen Suchmaschinen wie Ajeeb und Arabvista ein differenziertes Angebot an Befehlen und diversen Möglichkeiten der Feldsuche, andere wie Ayna bieten kaum Befehle an. Der Datenbestand, auf den die Suchmaschinen zurückgreifen, ist außerdem sehr unterschiedlich.
Die größte Availability erreicht Google mit 100 Prozent, mit großem Abstand folgen Alltheweb mit 45%, Ayna mit 22,5 %, gefolgt von Yahoo mit 10 % und Arabvista 5 %. 

4.1.2. Detailergebnisse der Known-Item-Analyse (Tabelle)

Mit ganz speziellen Seiten, die auch sonst mit Sicherheit auf keinem der größeren Portale zu finden sind (z. B. Werbung einer weniger bekannten Firma wie Nibco, Verzeichnis der Ergebnisse der WM-Spiele von BBC, Satzung des Vereins IBN RUSHD, arabische Homepage von John Mitchell, Bericht über die Aufführung von King Lear auf dem Festival von Jarash in Jordanien, Erklärung des Begriffs „GPS Global Positioning Overview“, Fetwa, die zum Boykott amerikanischer und israelischer Produkte aufruft) sollten jegliche Redundanzen vermieden werden und die eindeutige Findung der Seiten durch die gezielte Suchfrage garantiert sein. Bei diesen sehr gezielten Suchfragen nahm ich an, daß die Trefferzahl gering ausfallen würde. Befinden sich diese Seiten trotzdem unter der Treffermenge, kann man auf eine hohe Datenbasis schließen, auf die die Suchmaschine zurückgreift. Bei speziellen Webseiten schnitt Google mit 100% Trefferzahl ab (6 Treffer von 6 speziellen Fragen), gefolgt von Alltheweb mit 33% (2 Treffer von 6 Fragen), die restlichen Suchmaschinen konnten die gesuchte Seite nicht finden. (Tabelle)

Bei schwierigeren Aufgaben versuchte ich es in Kombination verschiedener Wörter (Suchworterweiterung in 2. und 3. Zeile)., was in den meisten Fällen kein besseres Ergebnis brachte. Wenn die Suchmaschine die Zieldatei bei mehreren Suchprozeduren (Wortkombinationen) mehrfach gefunden hatte, wie bei Google, zählte dies selbstverständlich nur einmal (Tabelle).

Der Bericht über eine Studie der Hampshire University, in der die Zahl der zivilen Todesopfer in Afghanistan mit der Zahl der Opfer der Anschläge vom 11. September verglichen werden, oder eine Streitschrift zur Verteidigung des zeitgenössischen Dichters Adonis (Suche über exakten Titel) zählen auch eher zu den spezifischeren Fragen. Der Suchende muß seine Frage so stellen, daß diese Seiten (mit einem viel diskutierten Thema: 11. September, Adonis und seine Kritiker) auffindbar sind. Über das Leben des Satirikers al-Jahiz gibt es viele Seiten, wir wollten aber die, worin vorkommt, daß er in seiner Kindheit vom „Verkauf von Brot und Fisch“ lebte (Tabelle).

Mit der Suche nach der relativ neuen Homepage des berühmten Theaterautors Bakathir (1910-1969) sollte das Ranking geprüft werden. Bewusst wurde das Suchwort auf dem Namen des Autors eingegrenzt, um zu sehen, ob das System von selbst unter erwartet vielen Treffern die Homepage an erster Stelle in der Rangordnung setzt. Nur bei Google und Alltheweb befand sich die Homepage ganz am Anfang der 20 ersten Treffer. Mit erstaunlicher Treffsicherheit „verstehen“ diese beiden Suchmaschinen bei einer vagen Fragenformulierung „Ali Ahmad Bakathir“ „den Kern“ der Frage. 
Bei der Biographie von weniger häufig vorkommenden Personen beließ ich es mit den Stichwörtern „Name, wurde geboren“, um überhaupt Treffer zu bekommen (Beispiel die frühislamische Dichterin al-Khansa). Bei der Frage zur Theater- und Musikgeschichte Jordaniens konnte ich die Suchwörter ebenso allgemein halten, da es relativ wenig über das Thema gibt und sich evtl. von der übersichtlichen Treffermenge etwas über das Ranking sagen ließe. Tatsächlich fand ich heraus, daß das Kown-Item bei Google von insgesamt 108 Treffern an 1. Stelle kommt, bei Alltheweb auch an erster Stelle (von 95 Treffern) und bei Ayna an 12. Stelle von insgesamt 39. Um dies genau zu untersuchen schaute ich mir das Ranking an und danach bei Google und Alltheweb das Dokument, das an zweiter Stelle nach dem Known-Item kommt, ebenso das bei Ayna, welches an erster Stelle kommt. Aufgefallen ist, daß Ayna bevorzugte Quellen aus Presseberichten nutzt (al-Sharq al-Awsat, die Kairoer Presse, arabiyat.com, erst nach dem Known-Item an 13. Stelle ein Link auf eine Kulturseite (www.cultural.org) und erst viel später jordanische Quellen. Google dagegen zitiert in den ersten Reihen viele Links mit jordanischer Länderdomain (.jo), auch offizielle jordanische Kulturseiten (www.culture.gov.jo). Unter den ersten Treffern bei Alltheweb befanden sich keine Seiten mit jordanischem Domain. Natürlich definieren die Suchmaschinen die Wichtigkeit unterschiedlich. Und einen tiefen Einblick in den Algorithmus der Wichtigkeitsstufung der jeweiligen Maschinen können wir nicht auf den ersten Blick gewinnen. Trotzdem lohnte sich  ein Blick. 
Im Known-Item-Dokument, 1. Treffer bei Google und Alltheweb sind die Suchwörter folgendermaßen verteilt: „al-masrah“ (Theater) taucht achtmal auf, einmal davon im Titel, „al-urdun“ (Jordanien) taucht zweimal auf, einmal davon im Titel, „al-arabi“ einmal (nur im Titel), „al-musiqa“ (Musik) einmal. Drei der Suchwörter kommen also im Titel vor. Im Vergleich dazu kommt im Dokument, das bei Google an zweiter Position steht das Wort „al-arabi“ dreimal vor, „al-musiqa“ zweimal, „al-masrah“ einmal, „al-urdun“ einmal. Der zweite Treffer bei Alltheweb hat „al-musiqa“ im Titel, ebenso im Titel das feminine Adjektiv von „al-arabi“, also „al-arabiyya“. „Al-Arabi“ kommt im Text fünfmal vor, „l-masrah“ zweimal, „l-urdun“ keinmal. Die an erster und zweiter Stelle aufgeführten Dokumente bei Ayna sind Webseiten älteren Datums, die auf der Homepage der Zeitung al-Sharq al-Awsat liegen. Überprüfen konnte ich den Inhalt nicht mehr, da beim Anwählen der Seite man automatisch auf die Startseite der Zeitung gelangt und diese natürlich aktuell ist (landet auf https://web.archive.org/web/20081025004823/http://www.asharqalawsat.com:80/index.htm statt auf http://www.asharqalawsat.com/pcdaily/13-02-2001/people/people.html). Der dritte Treffer ist eine gewisse Seite sechs aus der Zeitung thawra, wählt man jedoch den Link an, so erscheint die Seite sechs mit einem ganz anderen Inhalt, der Link ist der gleiche, offenbar hat die Zeitung den Namen einer älteren Datei für einen neuen Atikel benutzt. Daran ist zu sehen, daß Ayna den Datenbestand nicht aktualisiert und daß evtl. auch andere Ranking-Kriterien verwendet werden als bei den anderen Suchmaschinen gängig ist. Der hohe Anteil der Webseiten aus dem Bereich der arabischen Presse zeigt, daß ein Ranking evtl. von der Quelle abhängig ist (mit Bevorzugung der einen Zeitung vor der anderen). Mir scheint, die Häufigkeit, in der Suchworte im Text auftauchen, ist nicht das einzige Kriterium. Wie wir bei Google gesehen haben, suchen manche Systeme, wenn der Name eines Landes eingegeben wird, an erster Stelle Dokumente mit dem Länderdomain ab. 

Known-Items mit aktuellen Inhalt (Nachrichtenmeldung über die Fluten in China, der Tschechoslowakei und Deutschland, den Jahresbericht einer kuwaitischen Bank, Fetwa eines islamischen Gelehrten mit dem Aufruf zum Boykott amerikanischer und israelischer Produkte) sollen vor allem prüfen, wie gut die Suchmaschinen ihren Datenbestand aktualisiert. Hier schnitten alle Suchmaschinen – mit Ausnahme von Google – gleich schlecht ab (Tabelle). 
Von Dateien, die sich im Unterverzeichnis eines bekannteren oft zitierten Portals befinden (Portale also, die von den Suchmaschinen häufig abgefragt werden, die also sozusagen die abonnierten Informationslieferanten sind) ist eine höhere Trefferquote anzunehmen. Das Musikportal www.kubbar.com und die Online-Bibliothek von www.maraya.net sind zwei Beispiele für vielzitierte Webseiten im Bereich der Kultur, ebenso das Portal www.cultural.org.ae (Tabelle). Die Findung des Known-Items sollte sozusagen bei der Auswahl schon erleichtert werden, da man bei Web-Verzeichnissen und Web-Katalogen wie Ayna, Ajeeb und Arabvista nicht erwarten kann, daß sie jede beliebige Seite finden können. Erwartungsgemäß befand sich der Buchtitel „Volksroman des al-Hallag“ (im Maraya-Verzeichnis) unter den ersten 20 Treffern bei 4 Suchmaschinen, die Liedertexte von Umm Kulthum (aus Kubbar) nur bei Ayna und Google (Tabelle). 

Gesucht sollte auch nach Webseiten, auf die man von möglichst vielen Portalen aus durch Links hinkommt. Sie sollten trotzdem spezieller Natur sein (sonst wird man sie ja schließlich nicht finden). Ein Beispiel wäre die Werbung von Nokia für arabische Melodien ihres Mobiles zum downloaden. Das Ergebnis war jedoch dürftig, wieder fanden die Seite nur Google und Alltheweb . Es ist nicht so einfach, festzustellen, ob eine Seite über genügend Website-Referrers verfügt (Verlinkungen führen zu dieser Webseite, aber nicht notwendigerweise umgekehrt) und somit für den Test geeignet sind. Eine führende Zeitung oder Fernsehstation (der Link zur Startseite von  al-Jazeera TV Channel befindet sich beispielsweise auf zahlreichen Portalen) wollte ich deshalb nicht nehmen, da diese sich wiederum in Unterseiten so tief verzweigt und über ein breites Informationsangebot verfügt, so daß ein Treffer der gewünschten Zielseite meistens verfehlt. Außerdem werden die Texte auf der Homepage stündlich aktualisiert, die Suche nach einem Stichwort mag an den einen Tag zu einer gewissen Stunde funktionieren, an dem nächsten Tag schon nicht mehr. Homepages von Portalen eignen sich daher nicht als Known-Item. 

Die Ranking-Kriterien der Webwerkzeuge lassen zu wünschen übrig. Man gewinnt den Eindruck, dass arabische Suchmaschinen zuerst in bestimmten Quellen suchen und die Treffer eventuell nach einem Quellen-abhängigen Ranking-Prinzip auflisten (Zeitungen, Portale von Geschäftspartnern in den Golfstaaten). Bei Ayna z.B. tauchen immer wieder Artikel aus www.asharqalawsat.comwww.islamweb.netwww.aljazeera.net, www.albayan.co.ae, www.alriyadh.com.sa auf. Bei Arabvista sind es www.maraya.netwww.islamweb.net. www.albayan.co.ae, www.suhuf.netwww.Qaradawi.net, www.sirah.al-islam.com, www.rafid.netwww.asharqalawsat.comwww.khayma.comwww.naseej.com etc. Ayna scheint eher presseorientiert zu sein, Arabvista auch, ist aber zudem islamisch ausgeprägt und orientiert sich an den Golfstaaten.
Viele Portale mit Suchfunktion suchen nur in den eigenen Datenbeständen. Dies wird nicht ausreichend genug kenntlich gemacht (z.B. bei www.islamonline.net). Auch die professionellen Suchmaschinen suchen immer zuerst in ihren eigenen Datenbeständen, wenn man nicht die Suchmenge auf das Web per Mausklick ausweitet. 
Bei Arabvista kann man „theoretisch“ wählen zw. Arabvista, Internet, News und Discussion Groups. Bei der Wahl „Internet“ stürzt Arabvista ab. Die Wahl der Suchmenge „Internet“ gibt es auf der englischen Seite des Portals nicht. Die voreingestellte OR-Verknüpfung bleibt weiter aktiv, auch wenn man in der erweiterten Suche die Einstellung „Deckungsgleich mit Wort“ wählt. Umso mehr Wörter eingegeben wurden, um etwas z.B. über al-Jahiz zu finden, desto mehr erhöhte sich die Trefferzahl, von 17.357 auf  65.147 nach Erweiterung des Stichworts Al-Jahiz auf „wurde geboren, lebte vom Verkauf von Brot und Fisch“. Als aber der Satzteil „lebte vom Verkauf von Brot und Fisch“ mit „…“ paraphrasiert wurde, reduzierte sich die Treffermenge auf 0 (Tabelle). Bei dem Volksroman von Hallag war Arabvista dann endlich fündig geworden, offenbar, da www.maraya.net ein Portal ist, das Arabvista häufig aufsucht (Tabelle). Spezifische Seiten von nicht geläufigen  Zeitungen, Portale und Webkataloge findet er nicht oder sie befinden sich nicht in der ersten Wahl. Ein weiterer Nachteil bei  Arabvista (www.albahhar.com) ist die unübersichtliche Anzeigeliste der Treffer. Er zeigt nicht den vollständigen Link, wählt man eine der Seiten an, so verändert sich der „Head“ in der Kopfzeile des Browsers nicht, er zeigt immer nur die Titelseite von al-bahhar an. Die auffällige Tatsache, daß das Ergebnis trotz großer Datenbasis unter Zuhilfenahme einer Phasensuche nicht verbessert werden konnte, lässt Zweifel über Quellen und technische Funktionalität von Sucheinstellungen aufkommen.

Es ließ sich kein Zusammenhang erkennen zwischen der Position einer HTML-Seite hinsichtlich ihrer Hierarchie (Tiefe im Verzeichnisbaum) und ihrer Availability. Bei sehr vielen Webseiten mit eingebauten Frames ist es störend, daß die Leisten der Frames zum auf und abblättern des Bildes links sind. Arabische User schreiben zwar von rechts nach links, sie sind aber keine Linkshänder. Die Maus liegt rechts und besser wäre daher, wenn die Frames auch rechts stünden. 

Aus 20 Suchfragen nach Known-Items lässt sich natürlich nicht auf die „wahre“ Abdeckung des gesamten arabischen Webs schließen. Trotzdem deckt Google offenbar beachtliche Mengen der arabischen Webseiten ab. Mit 100 % Availability schneidet Google sehr gut ab, gefolgt von Alltheweb. Bei der kleinen Datenbasis der restlichen Suchmaschinen dürften unsere Ergebnisse dennoch realistisch sein. Bedauerlicherweise konnte MSN Arabic nicht mehr in die Untersuchung mit aufgenommen werden. Dies sollte in einem wiederholten Test unbedingt nachgeholt werden.
Ayna, Ajeeb, Arabvista sind Web-Verzeichnisse (Ajeeb und Ayna fördern wie dmos das Projekt eines open directory projects, in dem der User eine Webseite selbst ins Verzeichnis mit eigens verfasstem Abstract setzt). Der Sortieralgorithmus ist da ein ganz anderer als der eines Spiders (Google, Alltheweb). Insofern sollte man nicht dieselben Ansprüche stellen. Für Dokumentare höchst interessant ist die erweiterte von Sakhr entwickelte Suchmaske in Ajeeb. Sie ist ausschließlich für die Suche nach Dokumenten, die auf dem eigenen Portal verlinkt sind (Al-dalil=Verzeichnis), verwendbar. 
 
 

5. Zusammenfassung und Schluß

Ziel der Arbeit ist es gewesen, einen allgemeinen Überblick über das vorhandene Angebot arabischer Webseiten und die Möglichkeiten des Recherchierens im Internet zu schaffen. Der Umfang dieser Arbeit erlaubte nur eine qualitative Auswertungstechnik, keine quantitative.  Unter Berücksichtigung der Probleme der arabischen Sprache wurden Tests durchgeführt, die zum Teil die bisherigen Forschungsergebnisse über die durch komplexe Morphologie und Häufung der Präfix-Bildungen entstehenden Retrievalprobleme bestätigt haben. Auch in dieser Arbeit wurde klar, daß eine arabische Suchmaschine unbedingt eine Linkstrunkierung erlauben muß, um eine optimale Trefferquote zu bekommen. Ebenso wurde klar, dass die Entwicklung eines Systems, das die Suche nach Wortstämmen und Wurzeln erlaubt, für die wissenschaftliche Dokumentation von unschätzbaren Wert sein könnte. Ein solches Retrievalsystem gibt es derzeitig im kleinen, die Suchmaschine von www.ajeeb.com, entwickelt von Sakhr für die Suche im eigenen Web-Katalog Dalil. Wie die Known-Item-Analyse zeigt, steht Google von der Datenmenge und Genauigkeit der Suche an vorderster Stelle, gefolgt von Alltheweb und arabia.com. Angesichts der Tatsache, daß ein Spider nicht mit einem Webkatalog zu vergleichen ist, sollten die schlechteren Ergebnisse von Ayna und Arabvista relativiert werden. 
 
 

6. Bibliographie

Abu-Salem, Hani: A Microcomputer based Arabic bibliographic information retrieval systems with relational thesauri. Unpublished doctoral dissertation, Computer Science Department, llinois Institute of Technology, Chicago 1992.

Abu-Salem, Hani & al-Omari, Mahmoud & Evens, Martha W.: „Stemming Methodologies Over Individual Query Words for an Arabic Information Retrieval System“ in Journal of the American Society for Information Science 50 Heft 6(1999): 524-529.

Ashoor, Saleh M.: „Planning the electronic library – suggested guidelines for the Arabian Gulf region“ in The Electronic Library, 18 Heft 1(2000): 29-39.

Boualem, Malek & Stéphane Harié: „MtScript: A multilingual text editor“ in Computers and the Humanities 31(1997): 135-151.

Clews, John, „Information handling in foreign languages and scripts“ in Journal of Document and Text Management 2 Heft 3(1994): 186-200.

Dresel, Robin, Daniel Hörnig (et al): „Evaluation deutscher Web-Suchwerkzeuge“ in nfd 52 Heft 7(Oktober/November 2001): 381-392.

Fahrenkrog, Gabriele, Oliver Marahrens & Ewald Bittner: „Des Surfers Leid, des Surfers Freud: Web Usability und wie man sie testet“ in nfd 53(März 2002): 73-81.

Al-Fedaghi, S. & Al-Anzi, F.: „A new algorithm to generate Arabic root-pattern forms.“ Proseedings of the 11th National Computer Conference and Exhibition (März 1989): 391-400. 

Feiler, Gil: „Middle East Online Sources: Problems and solutions from a database builder and user“ in Online Information 98 Proceedings: 22nd International Online Information Meeting, London 8-10 December 1998: 207-211.

Fischer, Wolfdietrich: Grammatik des klassischen Arabisch. Otto Harrassowitz, Wiesbaden 1987.

Hamdorf, Kai: „Wer katalogisiert das Web? Dokumentarische Arbeit als Big Business und Freiwilligen-Projekt“ in nfd 52 Heft 5(Juli/August 2001): 263-270. 

Harms, Ilse & Werner Schweibenz: „Testing Web Usability“ in Information Management & Consulting 15 Heft 3(2000): 61-66,

Hilal, Y.: Morphological analysis of Arabic speech. Computer Proceedings of the Arabic Language (Workshop Papers), 1(April 1985).

Hilal, Y.: „Automatic processing of the Arabic language and its application“ in Proceedings of the First Kuwait Computer Conference (März 1989): 145-171.

Hill, Carole & Karen D. Loch (et al): „A Qualitative Assessment of Arab Culture and Information Technology Trensfer“ in Journal of Global Information Management, 6 Heft 3(1998): 29-38.

Hmeidi, Ismail: „Design and Implementation of Automatic Indexing for Information Retrieval with Arabic Documents“, in Journal of the American Society for Information Science 48 Heft 10(Oktober 1997): 867-881.

Houissa, Ali: „The Internet predicament in the Middle East and North Africa: Connectivity, access and censorship“ in Journal of Librarianship and Information Science, 32 Heft 2(Juni 2000): 56-63.

Keen, E.M. „Prospects for classification suggested by evaluation tests carried out 1957-1970“ in A. Malthby (Ed), Classification in the 1970s, Hamden CT, 1972, S. 193-210.

Al-Kharashi, I.: Micro-Airs: Microcomputer based Arabic information retrieval systems, comparing words, stems, roots as index terms. Unpublished doctoral dissertation, Computer Science Department, Illinois Institute of Technology, Chicago 1991.

Al-Kharashi, I.  Evens, M.: „Words, stems and roots in an Arabic information retrieval system,“ Journal of the American Society for Information Science 45 (1994): 548-560.

Moukdad, Haidar: „Information Retrieval from Full-Text Arabic Databases: Can Search Engines Designed for English Do the Job?“ in Libri 51(2001): 63-74.

Petras, Vivien & Matthias Bank: „Vergleich der Suchmaschinen AltaVista und HotBot bezüglich Treffermengen und Aktualität“ in nfd 49(1998): 453-458.

Qari, Abdulghafoor A.: „Electronic Library and Library and Information Science Departments in the Arabian Gulf Region“, in Journal of Education for Library and Information Science 39 Heft 1(1998): 28-37.

Ray, Kenneth and James R. Driscoll: „New Directions for Microcomputer-Based Systems“ in The Magazine of Database Reference and Review 13 Heft 4(1990): 60-64.

Rose, Gregory & Straub, Detmar: „Predicting General IT Use: Applying TAM to the Arabic World“ in Journal of Global Information Management 6, Heft 3(1998): 39-46.

Salton, G. The SMART retrieval sytenm experiments in automatic document processing. Englewood Cliffs 1972.

Salton, G. A Theory of Indexing. Regional Conference Series in Applied Mathematics. Nr 18, Philadelphia 1975.

Salton, G. Automatic Text Processing: The transformation, analysis, and retrieval of information by computer, Reading 1989

Salton, G. & McGill, M.J. (1983). Introduction to Modern Information Retrieval. New York 1983.

Schulz, Ursula: „Usability-Kriterien für Suchmaschinen“ in nfd 52(Dezember 2001): 467-469.

Al-Shalabi, R. Design and Implementation of an Arabic morphological system to support natural language processing. Unpublished doctoral dissertation, Computer Science Department, Illinois Institute of Technology, Chicago 1996.

Vassie, Roderic: „Improving access in bilingual, biscript catalogues through Arabised authority control“ in Online Information Review, 24 Heft 6(2000): 420-428.

Vassie, Roderic: „MARC time: the future of Arabic bibliography“ in Information Development, 6 Heft 2(2000).

Wien, C. „Nine problems concerning Arabic“ in Byrum, J.D. Jr. and Madison, O. (Eds): Multi-script, multi-lingual, Multi-character Issues for the Online Environment, München 1998.

Yahya, A.H.: On the complexity of the initial stages of Arabic text processing. Birzeit University, Birzeit, West Bank/Israel 1989.

nfd= Information Wissenschaft und Praxis, Nachrichten für Dokumentation
 

Web Evaluation & Usability:
http://www.library.cornell.edu/okuref/research/webeval.html
http://lib.nmsu.edu/instruction/eval.html
http://lib.nmsu.edu/instruction/evalcrit.html
http://servercc.oakton.edu/~wittman/find/eval.htm
http://www.namss.org.uk/evaluate.htm
http://www.lib.uidaho.edu/library/guides/webeval1.html
http://www.vuw.ac.nz/~agsmith/evaln/evaln.htm
http://vax.wcsu.edu/library/gd_eval_websites.html
http://www.fccj.org/lr/top11_97.htm
http://scout.cs.wisc.edu/report/sr/criteria.html (9.8.2002, 29.8.2002 nicht mehr)
http://usability.is.uni-sb.de (Uni Saarland Norm: 203 Fragen zur Qualitätmessung von 
Webseiten)
 

Einzelne Online-Archive:

Al-Hayat:
http://www.alhyat.com
In der Suchmaske kann nach arabischen Stichwörtern im Volltext gesucht werden zurück bis 22.7.2001. Die Suche ist sehr einfach und sehr schnell, weil die Zeitung von  PDF-Dateien auf Text umgestiegen ist Nur die ersten 200 Treffer werden angezeigt, chronologisch vom neusten Datum. Frühere Texte sind als PFD-Dateien herunterzuladen (bis 1998).
Es besteht die Möglichkeit, den Zeitraum der Suche zu definieren
(Rev. 31.8.2002)

Al-Quds
http://www.alquds.co.uk/
Man kann entweder im Volltext suchen oder ganze Seiten im PDF-Format herunterladen (Volltextsuche ab ca. 18.10.2001). Es werden maximal die ersten 300 Treffer angezeigt.

Wählt man ein Land in der Länderpalette, dann erscheinen alle aktuellen Artikel, die in der Datenbank mit dem Ländercode versehen sind, in chronologischer Reihenfolge (bis ca. drei Wochen zurück). Ferner kann man über die Rubrikensuche die Artikel der aktuellen Tagesausgabe nach Themen einsehen. Leider ist diese drei Funktionen (Suche im Volltext, nach Ländern und Rubriken) separate Funktionen, die nicht miteinander kombinierbar sein.
(Rev. 31.8.2002)

www.awse.com
Advanced Search Modus der an Saudi-Arabien orientierten Arab World Search Engine (www.awse.com) mit den Verknüpfungen AND/OR-Verknüpfung und den Auswahlkriterien Länder und Rubriken
 

Kultur:
www.cultural.org.ae, neben www.alwarraq.com eine der größten arabischen Online-Bibliotheken für Literatur.
Al-Warraq bedeutet: Antiquierte Bezeichnung für Papierhersteller, Altpapierhändler, Kopist von Handschriften. Das Verzeichnis verfügbarer Bücher ist nach Themen geordnet: eine umfangreiche Werkliste mit den Kapitelüberschriften der jeweils markierten Buchtitel.

www.darelkotob.org
Das neue Portal von Dar al-Kutub, der großen Nationalbibliothek Ägyptens Egyptian Libraries Net: Die Online-Kataloge von 154 ägyptische Bibliotheken, mit 1135217 bibliographische Einträge (neu). Die englische Seite ist noch im Aufbau, http://www.library.idsc.gov.eg/

www.arabtime.com
Skandalzeitung www.arabtime.com (USA), in den meisten arabischen Ländern ist diese Seite gesperrt. erbotene Bücher, Private Geschichten aus den Königshäusern, Bestechlichkeit ranghoher Politiker etc (betrieben von einem Palästinenser, der vor einigen Jahren im Golf gearbeitet hatte).
Das Verzeichnis der „Verbotenen Bücher“ in Arabtime: unterteilt in Gesamtliste, verschollene Bücher, Dschinne und Teufel, Sex und Skandale, islamisch verbotene Bücher, zensierte Bücher, Unruhe stiftende Bücher, neue Bücher.

Social media & sharing icons powered by UltimatelySocial