Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Fuzzy OCR Plugin für Spamassassin, erkennt keinen Text. Tipps oder Alternativen gesucht.

Frage Internet E-Mail

Mitglied: mr.quickly

mr.quickly (Level 1) - Jetzt verbinden

06.12.2006, aktualisiert 16:07 Uhr, 5323 Aufrufe, 10 Kommentare

Hallo Zusammen,

nachdem dem wir vor einiger Zeit das Greylisting eingeführt hatten, sind wir mittlerweile sehr verwöhnt was die SPAM-Filterung anbelangt.
In letzter Zeit bekommen wir nun aber immer häufiger SPAM E-Mails in denen der SPAM innerhalb eines Bild steht.
Diese werden von E-Mail Server nicht gefiltert, was auch verständlich ist, da der Text in diesen E-Mails auch nichts zur Filterung hergibt.

Jetzt haben wir gestern ein Plugin für Spamassassin gefunden namens "Fuzzy OCR". Mit diesem soll es möglich sein mittels OCR-Erkennung
SPAM in Bildern zu finden. Haben das schon mit einem Bild getestet welches wir unter Paint erstellt hatten.

Das funktionierte auch. Nur leider erkennt er keinen Text in den Bildern unserer jetzigen SPAM M-Mails.

Die Bilder in den E-Mails sehen so aus:

http://x5.freeshare.us/126fs1076994.gif

http://x5.freeshare.us/126fs1076869.gif

Weiß jemand wie man dem Herr werden kann? Kann man bei FuzzyOCR ggf. noch mehr einstellen oder gibt es Alternativen?
Mitglied: AndreasHoster
06.12.2006 um 13:11 Uhr
FuzzyOCR ließt nur Bilder innerhalb der Mail aus, lädt aber keine von extern nach.
Was Du hast sind nur Links auf Bilder im Internet, die werden also nicht ausgewertet.
Ich denke mit FuzzyOCR wirst Du da nicht weiterkommen.
Bitte warten ..
Mitglied: denny
06.12.2006 um 13:27 Uhr
Hallo !
Wir nutzen selbst FuzzyOcr.
Klappt auch ganz gut, natürlich haben wir auch "Spam-Bilder" die noch nicht korrekt ausgelesen werden. Da bleibt eigentlich nur das manuelle Probieren verschiedener Scansets an dem betreffenden Bild, bis mit einer bestimmten Routine die Wörter erkannt werden.
Da experimentiere ich aber selbst noch.

Wenn jemand eine Alternative hat, würde die mich auch sehr interessieren.
An FuzzyOcr stört mich am meisten, dass der seine Wörter aus Wortfetzen und Buchstaben des ganzen Textes zusammensucht. So passiert es schnell mal, dass er verfängliche Worte erkennt die aber garnicht da sind.

Mit freundlichen Grüßen
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 13:36 Uhr
Sorry Andreas, habe mich falsch ausgedrückt. Die Bilder sind innerhalb der E-Mail zu sehen.

Was ich schon mal probiert habe ist, die Bilder in S/W zu wandeln, dann erkennt er die Texte.

Nun muss ich mal sehen wie ich FuzzyOCR beibringen, dass die Bilder erst in S/W konvertiert und dann gescannt werden.
Bitte warten ..
Mitglied: denny
06.12.2006 um 13:40 Uhr
Experimentiere mit pnmnorm, pnmquant usw.

(Wenn er sie in Schwarz-weiß erkennt, dann binde das doch einfach als Scanset ein)

In der Konfigdatei sind Beispiele wie man verschiede Kommandos pipen kann.
Bitte warten ..
Mitglied: AndreasHoster
06.12.2006 um 13:55 Uhr
Meinerseits sorry, ich habe beim ersten Lesen nur die URLs die Du auf die Bilder bei Freshare gesetzt hast gesehen (mein Browser hat die Bilder nicht nachgeladen).
Deswegen dachte ich, Du hättest URLs in den Mails.
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 15:10 Uhr
Dennny, weißt du wie der Befehl heißt um aus einem Bild ein Graustufen oder Schwarz/Weiß Bild zu machen?
Bitte warten ..
Mitglied: denny
06.12.2006 um 15:21 Uhr
Also "pnmquant 2" reduziert z.B das Bild auf 2 Farben. Ansonsten schau mal hier:
Wie gesagt ich experimentiere ebenfalls noch.

nach denen solltest du mal Googlen:
pnmcolormap, pnmremap, ppmquantall, pamdepth, ppmdither, ppmquant, pnm, pnminvert


Alles Programme aus dem Netpbm Paket.

Mit freundlichen Grüßen
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 15:26 Uhr
Habe jetzt mal folgendes probiert:

"ppmquant 2 test.pnm > test.pnm" probiert und anschließend "pnmtojpeg test.pnm > test.jpg"

Danach hat das Bild nur noch 2 Farben, aber ich fände es noch besser wenn es in graustufen umgewandelt würde.
Bitte warten ..
Mitglied: denny
06.12.2006 um 15:31 Uhr
hast du mit "gocr" mal ein scan über das 2 farben Bild gemacht ? Ist die Erkennungsrate schon besser ? Wenn nicht hau mal ein pnminvert drüber.
Wie es direkt in S/W umgewandelt wird weiß ich adhoc nicht. Solltest du es rausfinden, lass es mich bitte wissen.

Mit freundlichen Grüßen
denny
Bitte warten ..
Mitglied: mr.quickly
06.12.2006 um 16:07 Uhr
habe gerade mal einen scan über das bild gemacht mit gocr.

[3566] dbg: FuzzyOcr: Found word "million" in line
[3566] dbg: FuzzyOcr: "eilllontxetherewsisogiig"
[3566] dbg: FuzzyOcr: with fuzz of 0.2857 scanned with scanset pnminvert $pfile 2> $efile | $gocr -l 180 -d 2 -i -
[3566] dbg: FuzzyOcr: Found word "company" in line
[3566] dbg: FuzzyOcr: "moerdoaolimpanyreprer"
[3566] dbg: FuzzyOcr: with fuzz of 0.2857 scanned with scanset pnminvert $pfile 2> $efile | $gocr -l 180 -d 2 -i -
[3566] dbg: FuzzyOcr: Message is spam, score = 4.000
[3566] dbg: FuzzyOcr: Words found:
[3566] dbg: FuzzyOcr: "million" in 1 lines
[3566] dbg: FuzzyOcr: "company" in 1 lines
[3566] dbg: FuzzyOcr: (2 word occurrences found)

Habe gedacht, dass er bei dem Grautufenbild mehr findet, ist aber nicht so.

Hatte mir eins unter Windows erzeugt und getestet.
Bitte warten ..
Neuester Wissensbeitrag
Humor (lol)

Linkliste für Adventskalender

(3)

Information von nikoatit zum Thema Humor (lol) ...

Ähnliche Inhalte
Microsoft Office
gelöst Wie kann man die Standard-Schriftart bei einfügen von Text in Word 2013 festlegen? (3)

Frage von Rene1976 zum Thema Microsoft Office ...

Xenserver
Citrix plugin 12.3 upgrade auf Receiver 4.x

Frage von meanmachine zum Thema Xenserver ...

Heiß diskutierte Inhalte
Router & Routing
gelöst Ipv4 mieten (22)

Frage von homermg zum Thema Router & Routing ...

Windows Server
DHCP Server switchen (20)

Frage von M.Marz zum Thema Windows Server ...

Exchange Server
gelöst Exchange 2010 Berechtigungen wiederherstellen (20)

Frage von semperf1delis zum Thema Exchange Server ...

Hardware
gelöst Negative Erfahrungen LAN-Karten (19)

Frage von MegaGiga zum Thema Hardware ...