Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit
GELÖST

Wie filtere ich eine Textdatei auf Dubletten

Frage Entwicklung

Mitglied: 16568

16568 (Level 4)

22.07.2006, aktualisiert 16.01.2007, 8179 Aufrufe, 7 Kommentare

Wer kennt das nicht:
Rechtschreibprüfung bei Word hat bei einer Grundinstallation kein einziges Wort in der Benutzer.dic

Das möchte ich jetzt per Default ändern.

Dazu habe ich mir aus div. Bibliotheken (was es nicht alles unter GNU gibt...) ziemlich viele Wörter zusammenklabustert.
Negativ is nur, daß manche doppelt vorkommen.

Alle Wörter habe ich jetzt in einer Textdatei, jedes Wort in einer eigenen Zeile.

Da es weit mehr als 60.000 sind, war eine Filterung über Excel auch nicht mehr drin (sonst wäre es ein Leichtes gewesen, Makro drüber, fertich...).


Weiß jemand eine Möglichkeit, irgendwie die Dubletten aus dem File zu killen?

Textdatei-Größe 2 MB, stelle ich nach Filterung gerne zur freien Verfügung...


Lonesome Walker
edit: 156498 Wörter...
Mitglied: filippg
22.07.2006 um 22:03 Uhr
Hallo,

ich glaube ich würde es über eine Datenbank versuchen. Bieten ja alle irgendeinen Massenimport...

Filipp
Bitte warten ..
Mitglied: 16568
22.07.2006 um 22:25 Uhr
Und wie exportiere ich dann wieder, damit auch wieder jedes einzelne Wort in einer Zeile steht?


Lonesome Walker
PS: Bitte sag' nicht, ich soll dann Wort für Wort mit \r\n in die Textdatei zurückschreiben...
Bitte warten ..
Mitglied: filippg
22.07.2006 um 23:52 Uhr
Und wie exportiere ich dann wieder, damit
auch wieder jedes einzelne Wort in einer
Zeile steht?
Naja, entweder gibt es einen Massenexport, oder im schlimmsten Fall schreibst du schnell ein kleines PHP-Skript.

Filipp
Bitte warten ..
Mitglied: Biber
22.07.2006 um 23:53 Uhr
Moin Lomesome Walker,

was soll der Geiz... wenn das Ganze eine einmalige Aktion ist, nicht regelmäßig wiederholt werden soll und weder dem Stockholmer Nobelpreiskomitee noch der Geschäftsleitung schmackhaft gemacht werden muss, dann mach es doch mit (irgend-)einer SQL sprechenden Datenbank.

Selbst dieses MSACCESS, das ja auch immer scherzhaft in einem Atemzug mit relationalen Datenbanksystemen genannt wird, wäre dafür ausreichend.
(Beispiel-)Vorgehen mit Access 2003:
1. Menü "Datei"->"Externe Daten"->"Importieren"->
->(als Importformat auswählen) "Textdateien" ->Deine Rohdatendatei mit Dubletten angeben;
als Trennzeichen "Leerzeichen" angeben
2. Daraufhin wird automatisch eine Tabelle "Rohdatendatei" angelegt mit der Struktur "ID", "Feld1"
3. Damit machst du eine Billigst-Abfrage
01.
SELECT distinct Rohdatendatei.Feld1 
02.
FROM Rohdatendatei;
...speicherst diese Abfrage und hast alles dublettenfrei z.B. in der Abfrage "DistinctWords",
4. Als letzten Schritt kann Du diese Abfrage über Menüpunkt "Datei" ->"Exportieren" wieder als Text-Datei rausschreiben.

Das war's... die Wartezeit nicht mitgerechnet hast Du circa 2 Minuten zu tun für ein paar Mausklicks, ein paar Mal "Enter" drücken und das Eintippen des Select-Statements.

Würde ich bei dieser Aufgabenstellung genauso stumpf, unelegant und stressarm erledigen.

Gruß
Biber
Bitte warten ..
Mitglied: 16568
23.07.2006 um 09:48 Uhr
Moinmoin Biber,

*grml* Hast ja recht, hätte da selbst drauf kommen müssen.

Ich habs mit PHP und MySQL realisiert, da ich Deinen Beitrag zu spät gelesen hab' ...


Wer die Benutzer.dic haben möchte, kann sich per PN melden; wenn's wider Erwarten doch sooo viele sind, stell' ich einen http-Download zur Verfügung.


Lonesome Walker
Bitte warten ..
Mitglied: AxelHahn
16.01.2007 um 16:37 Uhr
... eigentlich suche ich grad was anderes ... mein Senf:
von Kommandozeile unter Linux oder GNU-Tools auch Win (CYGWIN):

01.
sort [Textfile] | uniq >[Ausgabedatei]

Viele Grüsse
-= Axel =-
Bitte warten ..
Mitglied: 16568
16.01.2007 um 17:00 Uhr
Nun ja, ich mußte das alles einstellen, weil Word mit so einer großen Datei leider nicht mehr zu Rande kommt, jedoch ist Dein Senf wohl der eleganteste.

Schade, daß ich keine Wertung mehr geben kann


Lonesome Walker
Bitte warten ..
Ähnliche Inhalte
Batch & Shell
Filtern von Textdatei
gelöst Frage von MaxPauerBatch & Shell2 Kommentare

Hallo Zusammen, ich hätte ein Problem bei welchem ihr mir hoffendlich helfen könnt. Ich ich will eine Liste erstellen ...

Batch & Shell
Powershell Filtern Filtern Filtern
gelöst Frage von H41mSh1C0RBatch & Shell10 Kommentare

Aloa in die Runde, ich brech mir gerade wieder etwas die Finger ^^ am Freitag. DataTable einmal durchlaufen und ...

Windows Netzwerk
Netzwerktraffic Filtern
Frage von tomi93Windows Netzwerk9 Kommentare

Guten Morgen, wir haben zurzeit bei uns im Netzwerk das Problem das unsere Firewall ständig Netzwerktraffic von unserem DC ...

Batch & Shell
Ausgabe filtern
gelöst Frage von DoktorApfelBatch & Shell2 Kommentare

Hallo zusammen, Ich schreib gerade an einem Skript für Abfragen aus dem Programm Device42, mit Hilfe folgendes Befehles Erhalte ...

Neue Wissensbeiträge
Windows 10

Autsch: Microsoft bündelt Windows 10 mit unsicherer Passwort-Manager-App

Tipp von kgborn vor 15 StundenWindows 102 Kommentare

Unter Microsofts Windows 10 haben Endbenutzer keine Kontrolle mehr, was Microsoft an Apps auf dem Betriebssystem installiert (die Windows ...

Sicherheits-Tools

Achtung: Sicherheitslücke im FortiClient VPN-Client

Tipp von kgborn vor 17 StundenSicherheits-Tools

Ich weiß nicht, wie häufig die NextGeneration Endpoint Protection-Lösung von Fortinet in deutschen Unternehmen eingesetzt wird. An dieser Stelle ...

Internet

USA: Die FCC schaff die Netzneutralität ab

Information von Frank vor 1 TagInternet3 Kommentare

Jetzt beschädigt US-Präsident Donald Trump auch noch das Internet. Der neu eingesetzte FCC-Chef Ajit Pai ist bekannter Gegner einer ...

DSL, VDSL

ALL-BM200VDSL2V - Neues VDSL-Modem mit Vectoring von Allnet

Information von Lochkartenstanzer vor 1 TagDSL, VDSL2 Kommentare

Moin, Falls jemand eine Alternative zu dem draytek sucht: Gruß lks

Heiß diskutierte Inhalte
TK-Netze & Geräte
VPN-fähige IP-Telefone
Frage von the-buccaneerTK-Netze & Geräte16 Kommentare

Hi! Weiss noch jemand ein VPN-fähiges IP-Telefon mit dem man z.B. einen Heimarbeitsplatz gesichert anbinden könnte? Habe nur einen ...

Windows Server
GPO nur für bestimmte Computer
Frage von Leo-leWindows Server13 Kommentare

Hallo Forum, gern würde ich ein Robocopy script per Bat an eine GPO hängen. Wichtig wäre aber dort der ...

Windows Server
KMS Facts for Client configuration
Frage von winlinWindows Server13 Kommentare

Hey Leute, wir haben in unserem Netz nun einen neuen KMS Server. Haben Bestands-VMs die noch nicht aktiviert sind. ...

Windows Tools
Software-Tool zum Entfernen von bösartigem Windows
Frage von emeriksWindows Tools11 Kommentare

Hi, siehe Betreff hat das jemals irgendjemand schonmal sinnvoll eingesetzt? (MRT) E.