Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Fuzzy OCR Plugin für Spamassassin, erkennt keinen Text. Tipps oder Alternativen gesucht.

Mitglied: mr.quickly

mr.quickly (Level 1) - Jetzt verbinden

06.12.2006, aktualisiert 16:07 Uhr, 5408 Aufrufe, 10 Kommentare

Hallo Zusammen,

nachdem dem wir vor einiger Zeit das Greylisting eingeführt hatten, sind wir mittlerweile sehr verwöhnt was die SPAM-Filterung anbelangt.
In letzter Zeit bekommen wir nun aber immer häufiger SPAM E-Mails in denen der SPAM innerhalb eines Bild steht.
Diese werden von E-Mail Server nicht gefiltert, was auch verständlich ist, da der Text in diesen E-Mails auch nichts zur Filterung hergibt.

Jetzt haben wir gestern ein Plugin für Spamassassin gefunden namens "Fuzzy OCR". Mit diesem soll es möglich sein mittels OCR-Erkennung
SPAM in Bildern zu finden. Haben das schon mit einem Bild getestet welches wir unter Paint erstellt hatten.

Das funktionierte auch. Nur leider erkennt er keinen Text in den Bildern unserer jetzigen SPAM M-Mails.

Die Bilder in den E-Mails sehen so aus:

http://x5.freeshare.us/126fs1076994.gif

http://x5.freeshare.us/126fs1076869.gif

Weiß jemand wie man dem Herr werden kann? Kann man bei FuzzyOCR ggf. noch mehr einstellen oder gibt es Alternativen?
Mitglied: AndreasHoster
06.12.2006 um 13:11 Uhr
FuzzyOCR ließt nur Bilder innerhalb der Mail aus, lädt aber keine von extern nach.
Was Du hast sind nur Links auf Bilder im Internet, die werden also nicht ausgewertet.
Ich denke mit FuzzyOCR wirst Du da nicht weiterkommen.
Bitte warten ..
Mitglied: denny
06.12.2006 um 13:27 Uhr
Hallo !
Wir nutzen selbst FuzzyOcr.
Klappt auch ganz gut, natürlich haben wir auch "Spam-Bilder" die noch nicht korrekt ausgelesen werden. Da bleibt eigentlich nur das manuelle Probieren verschiedener Scansets an dem betreffenden Bild, bis mit einer bestimmten Routine die Wörter erkannt werden.
Da experimentiere ich aber selbst noch.

Wenn jemand eine Alternative hat, würde die mich auch sehr interessieren.
An FuzzyOcr stört mich am meisten, dass der seine Wörter aus Wortfetzen und Buchstaben des ganzen Textes zusammensucht. So passiert es schnell mal, dass er verfängliche Worte erkennt die aber garnicht da sind.

MfG
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 13:36 Uhr
Sorry Andreas, habe mich falsch ausgedrückt. Die Bilder sind innerhalb der E-Mail zu sehen.

Was ich schon mal probiert habe ist, die Bilder in S/W zu wandeln, dann erkennt er die Texte.

Nun muss ich mal sehen wie ich FuzzyOCR beibringen, dass die Bilder erst in S/W konvertiert und dann gescannt werden.
Bitte warten ..
Mitglied: denny
06.12.2006 um 13:40 Uhr
Experimentiere mit pnmnorm, pnmquant usw.

(Wenn er sie in Schwarz-weiß erkennt, dann binde das doch einfach als Scanset ein)

In der Konfigdatei sind Beispiele wie man verschiede Kommandos pipen kann.
Bitte warten ..
Mitglied: AndreasHoster
06.12.2006 um 13:55 Uhr
Meinerseits sorry, ich habe beim ersten Lesen nur die URLs die Du auf die Bilder bei Freshare gesetzt hast gesehen (mein Browser hat die Bilder nicht nachgeladen).
Deswegen dachte ich, Du hättest URLs in den Mails.
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 15:10 Uhr
Dennny, weißt du wie der Befehl heißt um aus einem Bild ein Graustufen oder Schwarz/Weiß Bild zu machen?
Bitte warten ..
Mitglied: denny
06.12.2006 um 15:21 Uhr
Also "pnmquant 2" reduziert z.B das Bild auf 2 Farben. Ansonsten schau mal hier:
Wie gesagt ich experimentiere ebenfalls noch.

nach denen solltest du mal Googlen:
pnmcolormap, pnmremap, ppmquantall, pamdepth, ppmdither, ppmquant, pnm, pnminvert


Alles Programme aus dem Netpbm Paket.

MfG
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 15:26 Uhr
Habe jetzt mal folgendes probiert:

"ppmquant 2 test.pnm > test.pnm" probiert und anschließend "pnmtojpeg test.pnm > test.jpg"

Danach hat das Bild nur noch 2 Farben, aber ich fände es noch besser wenn es in graustufen umgewandelt würde.
Bitte warten ..
Mitglied: denny
06.12.2006 um 15:31 Uhr
hast du mit "gocr" mal ein scan über das 2 farben Bild gemacht ? Ist die Erkennungsrate schon besser ? Wenn nicht hau mal ein pnminvert drüber.
Wie es direkt in S/W umgewandelt wird weiß ich adhoc nicht. Solltest du es rausfinden, lass es mich bitte wissen.

MfG
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 16:07 Uhr
habe gerade mal einen scan über das bild gemacht mit gocr.

[3566] dbg: FuzzyOcr: Found word "million" in line
[3566] dbg: FuzzyOcr: "eilllontxetherewsisogiig"
[3566] dbg: FuzzyOcr: with fuzz of 0.2857 scanned with scanset pnminvert $pfile 2> $efile | $gocr -l 180 -d 2 -i -
[3566] dbg: FuzzyOcr: Found word "company" in line
[3566] dbg: FuzzyOcr: "moerdoaolimpanyreprer"
[3566] dbg: FuzzyOcr: with fuzz of 0.2857 scanned with scanset pnminvert $pfile 2> $efile | $gocr -l 180 -d 2 -i -
[3566] dbg: FuzzyOcr: Message is spam, score = 4.000
[3566] dbg: FuzzyOcr: Words found:
[3566] dbg: FuzzyOcr: "million" in 1 lines
[3566] dbg: FuzzyOcr: "company" in 1 lines
[3566] dbg: FuzzyOcr: (2 word occurrences found)

Habe gedacht, dass er bei dem Grautufenbild mehr findet, ist aber nicht so.

Hatte mir eins unter Windows erzeugt und getestet.
Bitte warten ..
Ähnliche Inhalte
Voice over IP
Alternative zu Cisco ClickToCall gesucht
Frage von rana-mpVoice over IP1 Kommentar

Hallo zusammen, Wir haben unseren Cisco Callmanager auf eine neue Version (10.5) gebracht. Jetzt haben wir einen User, der ...

Microsoft
Serverablösung Alternativen gesucht
gelöst Frage von MilordMicrosoft80 Kommentare

Hallo zusammen, ich brauche mal euren Rat, da ich in einer kleinen Firma einen alten 2003 Server ablösen soll. ...

Windows Server
Schnelle Robocopy-Alternative gesucht
gelöst Frage von Der-PhilWindows Server11 Kommentare

Hallo! Ich spiegle jeden Tag die Daten eines Servers (Windows 2016) auf ein anderes System (Windows 2012 R2), um ...

Firewall

Kasperky Internetsecurity Alternative gesucht

Frage von Intruder0001Firewall3 Kommentare

Hallo zusammen derzeit verwenden wir Kaspersky Internetsecurity auf jedem User PC da es mittlerweile fast 50 Rechner sind, ist ...

Neue Wissensbeiträge
Peripheriegeräte
Unterschrank für HP Drucker
Tipp von NixVerstehen vor 3 TagenPeripheriegeräte3 Kommentare

Als kurzen Freitags-Tipp möchte ich gerne meinen neuen Drucker-Unterschrank Modell Amica KS 15423W vorstellen. Das Gerät eignet sich hervorragend ...

Windows 10
Windows 10 - Probleme mit Point-And-Print
Tipp von emeriks vor 4 TagenWindows 103 Kommentare

Hi, wir kämpfen z.Z. mit einigen Druckertreibern, welche unter Win10 beim Verbinden eines Druckers von Printserver mit dem Dialog ...

Windows 10

Windows 10 1803 - Ihr Roamingbenutzerprofil wurde nicht vollständig synchronisiert

Anleitung von Deepsys vor 4 TagenWindows 101 Kommentar

Bei allen Windows 10 1803 PCs traten Probleme mit den Servergespeicherten Profilen auf. Das Abmelden dauerte sehr lange und ...

Exchange Server
Exchange - Fehler mit 2018-07 Sicherheitsupdate
Tipp von ArnoNymous vor 6 TagenExchange Server7 Kommentare

Hallo, es gibt mal wieder Freude mit den MS-Updates. KB4338814 führt dazu, dass der Exchange keine Mails mehr zustellt. ...

Heiß diskutierte Inhalte
Server-Hardware
DL380p Gen8 LEDs Laufwerksaktivität funktionieren nicht
gelöst Frage von Cisco7971Server-Hardware29 Kommentare

Hallo zusammen, ich habe hier ein seltsames Problem: Die LEDs an den Smart Carriern, die bei Laufwerksaktivität rotieren, tun ...

Windows Server
Leistungsindikatoren WS2012R2
Frage von Der.ITlerWindows Server20 Kommentare

Hallo Gemeinde, seit gestern habe ich auf zwei von meinem 8 Hardwareservern folgendes Problem, dass die Leistungsindikatoren nicht gestartet ...

VB for Applications
VBA - Vergleich eine Zelle mit einem Bereich
gelöst Frage von SilvanaSabauVB for Applications17 Kommentare

Hallo zusammen, ich hoffe es gibt jemanden der mir helfen kann !! das folgende Beispiel entspricht zwar nicht mein ...

Server-Hardware
Einsteigerfragen zu HP ProLiant DL380p Gen 8
gelöst Frage von brain2011Server-Hardware15 Kommentare

Hallo, ich habe mir einen HP ProLiant DL380p Gen 8 zugelegt, um mich grundlegend mit dieser Geräteklasse und der ...