Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Suchmaschine für Dokumente

Mitglied: Praktikantin

Praktikantin (Level 1) - Jetzt verbinden

29.09.2007 um 15:06 Uhr, 3325 Aufrufe

Vektor Space Modell

Hallo zusammen,
ich muss dieses System anfertigen:
Ziel dieser Arbeit ist die Planung und das laufen eines Systems zu der Suche von Informationen basierend auf dem vector model.Der Benutzer des Systems kann seine Fragen durch eine graphische Seite (html) formulieren und das System gibt die Texte wieder anhand der Relativität, mit erstem dem Text der die meiste Relevanz zu der Frage hat .
Damit die Schätzung der Leistung des Systems möglich ist, müssen Sie die Texte der Ansammlung CACM (Archiv cacm.tar.gz, cacm.all) benutzen. Es sind Zusammenfassungen von 3204 Artikeln, die in der anerkannten Zeitschrift Communications of the ACM veröffentlicht worden sind. Jeder Text besitzt eine Gruppe von Feldern. Zwischen diesen Feldern sind der Titel des Artikels, die Autoren sowie die Zusammenfassung am wichtigsten vom Text des Artikels. Diese Ansammlung besitzt auch 64 Fragen (information requests) die im Zusammenhang mit dem Inhalt der Texte der Ansammlung stehen (Archiv query.text). Haben Sie auch werden dem Verwandten Die relevanten für jede Frage Texte sind festgestellt und in dieser Datei gespeichert(Archiv qrels.text).
Mit Hilfe dieser Informationen der relativen Texte auf jeder Frage, schätzen Sie die Leistung des Systems mit der Herstellung eines Precision/Recall Diagramms für jede Frage. Es soll auch das Diagramm der “Average Precision at Seen Relevant Documents” erstellt werden. Die graphische Darstellung von allen Informationen über die Leistung des Systems kann vom gleichen System oder Alternativ mit Hilfe irgendeines Außenprogramms dargestellt werden (z.B. Excel).

Details zur herstellung

Bevor ein Information Retrieval System läuft, müssen zuerst die Schlüsselwörter (keywords ) festgelegt werden mit Hilfe derer die Suche in der Ansammlung der Texte beginnen kann. In dieser Ansammlung, für den Export der Fachwörter müssen Sie sich ausschließlich auf die Bezeichnungen, die Zusammenfassungen, auf den Titeln, sowie auf den Namen der Verfasser basieren und den Rest der Felder der Texte ignorieren.

Sie müssen außerdem die Wörter ignorieren, die in das Archiv common_words.txt enthalten werden ignorieren. Dieses Archiv enthält eine Liste von den allgemeinen Wörtern, die fast in den meisten Texten auftauchen und keinen bestimmten Wert für den Inhalt der Suche haben werden. Für den selben Grund müssen Sie auch die alle Wörter in denen Zahlen auftauchen ignorieren, das heißt sie enthalten nicht andere nicht numerische Buchstaben.

Für die Verbesserung der Qualität der Resultate der Suche, wird Ihnen empfohlen einen
stemming Algorithmus zu verwenden, einen Algorithmus also der die grammatischen Wurzeln von den Wörtern exportiert. Die Bekannteste stemming Algorithmus ist der Algorithmus von Porter und es ist einfach so einen zu finden und zu anfertigen.

Ein anderer wichtiger Parameter, der in den Ersten Schritten des Entwerfens des Systems der Wiederherstellung von Informationen festgestellt werden muss, ist die Struktur von Daten, mit derer die Schlüsselwörter des Wörterbuchs der Ansammlung organisiert werden wird. Die Struktur der Inverted Files, ist die Struktur die die bessere Leistung in den IR Systemen erzielt. In einer solchen Struktur, wird für jedes Schlüsselwort eine Liste von Texten gespeichert in der das jeweilige Schlüsselwort erscheint. Spezifisch für das Vector Modell wird auch alles wesentliche zu der vorbildlichen Information gespeichert das heißt, die Zahl der Texte in denen jedes Schlüsselwort erscheint, und die Frequenz des jeweiligen Schlüsselwortes in jedem Text.
Das ist die Arbeit. Die Archive befinden sich hier:http://rapidshare.com/files/59055129/cacm.tar.gz

Diese Seite kann auch sehr hilfreich sein:
http://www.hray.com/5264/find.htm

Ich willnur ein einfaches IR System dass die Texte durchsucht und die Relevanten findet. Wenn jemmand irgdwann in seinem Leben so etwas gemacht oder infos darüber kennt,bitte ich ihm mir zu helfen.Ich bin einfach zu dumm un unerfahren und in der Klasse hatten wir nur Theorie dazu!

Viele Grüße

die Praktikantin
Ähnliche Inhalte
Windows 7

Löschen der unerwünschten Suchmaschine "amisite" über Programmentfernung

gelöst Frage von wiedhalmWindows 72 Kommentare

Hallo Experten! Irgendwie habe ich mir "amisite" eingefangen, welche sich auf meinem Firefox eingenistet hat und welche auch mehreren ...

Windows 10

Windows 10: Microsoft Edge: Wie ändert man die Standard-Suchmaschine?

Anleitung von FrankWindows 107 Kommentare

Im neuen Microsoft Edge Browser ist "Bing" die Standard-Suchmaschine. Wie stellt man nun die Suchmaschine z.B. auf Administrator.de oder ...

Internet

Eureka - ? neue Europäische Suchmaschine, die Ihre Privatsphäre schützt

Frage von itfreak007Internet6 Kommentare

kennt jemand eureka ? "die neue Europäische Suchmaschine, die Ihre Privatsphäre schützt." kommt mir seltsam vor, kein hinweis auf ...

IDE & Editoren

Programm zum Bearbeiten von HTML Dokumenten

Frage von MarcysIDE & Editoren9 Kommentare

Hallo, in der Firma haben wir ein Intranet. Bestandteil des Intranets sind u. a. Verfahrensanweisungen. Die Verfahrensanweisungen sind HTML ...

Neue Wissensbeiträge
Ausbildung

Linux-Ausstieg in Niedersachsen - Windows statt Bugfix

Information von StefanKittel vor 2 TagenAusbildung35 Kommentare

Sind ja nur Steuergelder

Speicherkarten

Neuer Speicherkartentyp - zunächst nur für Huawei-Smartphones (künftig auch für Notebooks u. Tablets?)

Tipp von VGem-e vor 4 TagenSpeicherkarten5 Kommentare

Servus, als ob das "Chaos" i.S. Speicherkarten noch nicht groß genug wäre?! Evtl. kommt dieser neue Kartentyp bald auch ...

Sicherheit

Diverse D-Link-Router durch drei Schwachstellen kompromittierbar

Information von kgborn vor 4 TagenSicherheit1 Kommentar

Hat jemand D-Link-Router in Verwendung? Einige Modelle sind sicherheitstechnisch offen wie ein Scheunentor. Äußerst unschöne Sache, aber nichts neues ...

Hardware

100.000 Mikrotik-Router ungefragt von Hacker abgesichert

Information von 7Gizmo7 vor 5 TagenHardware4 Kommentare

Hallo zusammen, da hier ja öfters mal von Mikrotik gesprochen wird. Trotz Updates klafft eine Sicherheitslücke in Hundertausenden Mikrotik-Routern. ...

Heiß diskutierte Inhalte
Windows Userverwaltung
Passwortwechsel Zeitpunkt festlegen
Frage von Looser27Windows Userverwaltung27 Kommentare

Guten Morgen liebe Kolleginnen und Kollegen, da es eine Userin in meinem Urlaub geschafft hat, sich vom AD vollständig ...

Windows Server
Probleme im AD am Außenstandort
gelöst Frage von emeriksWindows Server19 Kommentare

Hi, wir haben ein Problem mit AD und GPO am Außenstandort und ich stehe momentan mächtig auf dem Schlauch. ...

Switche und Hubs
POE-Switche
gelöst Frage von MiStSwitche und Hubs13 Kommentare

Guten Morgen, ich überlege ob ich in unserem Netzwerk die aktuellen Switche (D-LINK DGS-1210-28) durch PoE-Switche ersetzen soll. Der ...

Windows Server
DNS - Bedingte Weiterleitung
gelöst Frage von m8ichaelWindows Server11 Kommentare

Guten Tag zusammen, ich stehe gerade bzgl. einer bedingten DNS-Weiterleitung etwas auf dem Schlauch: Ich möchte, dass für bestimmte ...