Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Fuzzy OCR Plugin für Spamassassin, erkennt keinen Text. Tipps oder Alternativen gesucht.

Mitglied: mr.quickly

mr.quickly (Level 1) - Jetzt verbinden

06.12.2006, aktualisiert 16:07 Uhr, 5383 Aufrufe, 10 Kommentare

Hallo Zusammen,

nachdem dem wir vor einiger Zeit das Greylisting eingeführt hatten, sind wir mittlerweile sehr verwöhnt was die SPAM-Filterung anbelangt.
In letzter Zeit bekommen wir nun aber immer häufiger SPAM E-Mails in denen der SPAM innerhalb eines Bild steht.
Diese werden von E-Mail Server nicht gefiltert, was auch verständlich ist, da der Text in diesen E-Mails auch nichts zur Filterung hergibt.

Jetzt haben wir gestern ein Plugin für Spamassassin gefunden namens "Fuzzy OCR". Mit diesem soll es möglich sein mittels OCR-Erkennung
SPAM in Bildern zu finden. Haben das schon mit einem Bild getestet welches wir unter Paint erstellt hatten.

Das funktionierte auch. Nur leider erkennt er keinen Text in den Bildern unserer jetzigen SPAM M-Mails.

Die Bilder in den E-Mails sehen so aus:

http://x5.freeshare.us/126fs1076994.gif

http://x5.freeshare.us/126fs1076869.gif

Weiß jemand wie man dem Herr werden kann? Kann man bei FuzzyOCR ggf. noch mehr einstellen oder gibt es Alternativen?
Mitglied: AndreasHoster
06.12.2006 um 13:11 Uhr
FuzzyOCR ließt nur Bilder innerhalb der Mail aus, lädt aber keine von extern nach.
Was Du hast sind nur Links auf Bilder im Internet, die werden also nicht ausgewertet.
Ich denke mit FuzzyOCR wirst Du da nicht weiterkommen.
Bitte warten ..
Mitglied: denny
06.12.2006 um 13:27 Uhr
Hallo !
Wir nutzen selbst FuzzyOcr.
Klappt auch ganz gut, natürlich haben wir auch "Spam-Bilder" die noch nicht korrekt ausgelesen werden. Da bleibt eigentlich nur das manuelle Probieren verschiedener Scansets an dem betreffenden Bild, bis mit einer bestimmten Routine die Wörter erkannt werden.
Da experimentiere ich aber selbst noch.

Wenn jemand eine Alternative hat, würde die mich auch sehr interessieren.
An FuzzyOcr stört mich am meisten, dass der seine Wörter aus Wortfetzen und Buchstaben des ganzen Textes zusammensucht. So passiert es schnell mal, dass er verfängliche Worte erkennt die aber garnicht da sind.

MfG
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 13:36 Uhr
Sorry Andreas, habe mich falsch ausgedrückt. Die Bilder sind innerhalb der E-Mail zu sehen.

Was ich schon mal probiert habe ist, die Bilder in S/W zu wandeln, dann erkennt er die Texte.

Nun muss ich mal sehen wie ich FuzzyOCR beibringen, dass die Bilder erst in S/W konvertiert und dann gescannt werden.
Bitte warten ..
Mitglied: denny
06.12.2006 um 13:40 Uhr
Experimentiere mit pnmnorm, pnmquant usw.

(Wenn er sie in Schwarz-weiß erkennt, dann binde das doch einfach als Scanset ein)

In der Konfigdatei sind Beispiele wie man verschiede Kommandos pipen kann.
Bitte warten ..
Mitglied: AndreasHoster
06.12.2006 um 13:55 Uhr
Meinerseits sorry, ich habe beim ersten Lesen nur die URLs die Du auf die Bilder bei Freshare gesetzt hast gesehen (mein Browser hat die Bilder nicht nachgeladen).
Deswegen dachte ich, Du hättest URLs in den Mails.
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 15:10 Uhr
Dennny, weißt du wie der Befehl heißt um aus einem Bild ein Graustufen oder Schwarz/Weiß Bild zu machen?
Bitte warten ..
Mitglied: denny
06.12.2006 um 15:21 Uhr
Also "pnmquant 2" reduziert z.B das Bild auf 2 Farben. Ansonsten schau mal hier:
Wie gesagt ich experimentiere ebenfalls noch.

nach denen solltest du mal Googlen:
pnmcolormap, pnmremap, ppmquantall, pamdepth, ppmdither, ppmquant, pnm, pnminvert


Alles Programme aus dem Netpbm Paket.

MfG
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 15:26 Uhr
Habe jetzt mal folgendes probiert:

"ppmquant 2 test.pnm > test.pnm" probiert und anschließend "pnmtojpeg test.pnm > test.jpg"

Danach hat das Bild nur noch 2 Farben, aber ich fände es noch besser wenn es in graustufen umgewandelt würde.
Bitte warten ..
Mitglied: denny
06.12.2006 um 15:31 Uhr
hast du mit "gocr" mal ein scan über das 2 farben Bild gemacht ? Ist die Erkennungsrate schon besser ? Wenn nicht hau mal ein pnminvert drüber.
Wie es direkt in S/W umgewandelt wird weiß ich adhoc nicht. Solltest du es rausfinden, lass es mich bitte wissen.

MfG
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 16:07 Uhr
habe gerade mal einen scan über das bild gemacht mit gocr.

[3566] dbg: FuzzyOcr: Found word "million" in line
[3566] dbg: FuzzyOcr: "eilllontxetherewsisogiig"
[3566] dbg: FuzzyOcr: with fuzz of 0.2857 scanned with scanset pnminvert $pfile 2> $efile | $gocr -l 180 -d 2 -i -
[3566] dbg: FuzzyOcr: Found word "company" in line
[3566] dbg: FuzzyOcr: "moerdoaolimpanyreprer"
[3566] dbg: FuzzyOcr: with fuzz of 0.2857 scanned with scanset pnminvert $pfile 2> $efile | $gocr -l 180 -d 2 -i -
[3566] dbg: FuzzyOcr: Message is spam, score = 4.000
[3566] dbg: FuzzyOcr: Words found:
[3566] dbg: FuzzyOcr: "million" in 1 lines
[3566] dbg: FuzzyOcr: "company" in 1 lines
[3566] dbg: FuzzyOcr: (2 word occurrences found)

Habe gedacht, dass er bei dem Grautufenbild mehr findet, ist aber nicht so.

Hatte mir eins unter Windows erzeugt und getestet.
Bitte warten ..
Ähnliche Inhalte
Voice over IP
Alternative zu Cisco ClickToCall gesucht
Frage von rana-mpVoice over IP1 Kommentar

Hallo zusammen, Wir haben unseren Cisco Callmanager auf eine neue Version (10.5) gebracht. Jetzt haben wir einen User, der ...

Microsoft
Serverablösung Alternativen gesucht
Frage von MilordMicrosoft80 Kommentare

Hallo zusammen, ich brauche mal euren Rat, da ich in einer kleinen Firma einen alten 2003 Server ablösen soll. ...

Microsoft
Alternative zu chromepass gesucht
Frage von DerWoWussteMicrosoft

Moin Kollegen. Wer hat ein Tool zur Hand, das aus einem Backup des Windows-Userverzeichnisses die in Chrome gespeicherten Kennwörter ...

Multimedia
Alternative für Flickr gesucht
gelöst Frage von honeybeeMultimedia2 Kommentare

Hallo, ich suche eine gute Alternative für Flickr, da ich mich bald von meinem Yahoo-Account verabschieden werde. Was könnt ...

Neue Wissensbeiträge
Humor (lol)

WhatsApp-Nachrichten endlich auch per Bluetooth versendbar

Information von BassFishFox vor 3 StundenHumor (lol)1 Kommentar

Genau darauf habe ich gewartet! ;-) Der beliebte Messaging-Dienst WhatsApp erhält eine praktische neue Funktion: Ab dem nächsten Update ...

Google Android

Googles "Android Enterprise Recommended" für Unternehmen

Information von kgborn vor 16 StundenGoogle Android3 Kommentare

Hier eine Information, die für Administratoren und Verantwortliche in Unternehmen, die für die Beschaffung und das Rollout von Android-Geräten ...

Sicherheit

Intel gibt neue Spectre V2-Microcode-Updates frei (20.02.2018)

Information von kgborn vor 16 StundenSicherheit

Intel hat zum 20. Februar 2018 weitere Microcode-Updates für OEMs freigegeben, um Systeme mit neueren Prozessoren gegen die Spectre ...

Microsoft
ARD-Doku - Das Microsoft Dilemma
Tipp von Knorkator vor 20 StundenMicrosoft3 Kommentare

Hallo zusammen, vor einigen Tagen lief in der ARD u.a. Reportage. Das Youtube Video dazu dürfte länger verfügbar sein. ...

Heiß diskutierte Inhalte
Windows Server
AD DS findet Domäne nicht, behebbar?
Frage von schapitzWindows Server40 Kommentare

Guten Tag, ich habe bei einem Kunden ein Problem mit den AD DS. Umgebung ist folgende: Windows Server 2016 ...

Router & Routing
LANCOM VPN CLIENT einrichten
Frage von Finchen961988Router & Routing27 Kommentare

Hallo, ich habe ein Problem und hoffe ihr könnt mir helfen, wir haben einen Kunden der hat einen Speedport ...

Router & Routing
ISC DHCP 2 Subnetze
gelöst Frage von janosch12Router & Routing19 Kommentare

Hallo, ich betreibe bei mir im Netzwerk einen ISC DHCP Server auf Debian, der DHCP verwaltet aktuell ein /24 ...

Switche und Hubs
Cisco SG350X-48 AdminIP in anderes VLAN
Frage von lcer00Switche und Hubs14 Kommentare

Hallo zusammen, ich habe ein Problem mir einem Cisco SG350X-48 bei der Erstinstallation wurde eine IP 192.168.0.254 (Default VLAN ...