Score:9

รับข้อความสีดำที่เครื่องพิมพ์พร้อมบนพื้นหลังสีขาวในไฟล์ pdf ที่สแกน (ลบพื้นหลังสีเทาหรือสีออก)

ธง br

ฉันจะเปลี่ยนภาพถ่ายเอกสารที่เป็นกระดาษเป็นเอกสารที่สแกนได้อย่างไร มีความเกี่ยวข้อง แต่ไม่เหมือนกันในขณะที่ฉันกำลังพูดถึงไฟล์ pdf การประมวลผลภาพดูเหมือนซับซ้อนในคำตอบภายใต้คำถามที่เชื่อมโยง โดยเฉพาะอย่างยิ่งเนื่องจากเกี่ยวข้องกับ ประมวลผลแต่ละภาพแยกกัน: ที่ให้ไว้ ไฟล์ PDF ของฉันมีหลายร้อยหน้าวิธีแก้ปัญหาที่ฉันคาดหวังไม่ใช่การประมวลผล/แก้ไขรูปภาพ แต่เป็นของ สแกนภาพถ่ายและเอกสารดิจิทัลในแบบที่เป็นของจริง. ฉันหมายถึงบางอย่างเช่น "เครื่องสแกนเสมือน" ซึ่งอินพุตจะเป็นไฟล์ pdf หรือชุดภาพถ่ายและเอาต์พุตเป็นเอกสารสแกน "ปกติ" (นอกจากนี้ สแกนเทเลอร์ แนะนำเครื่องมือ - เช่นกัน ที่นี่ - ดูเหมือนว่าจะไม่มีเวอร์ชั่น Linux ในตอนนี้)


นี่คือ ไม่ เกี่ยวกับ OCR และ ไม่ เกี่ยวกับการแปลงรูปภาพเป็นข้อความ

เพื่อชี้แจงความหมาย ฉันจะโพสต์ตัวอย่างบางส่วน

มี ไฟล์ pdf ตามข้อความไม่ใช่รูปภาพ และเป็นไฟล์ข้อความ (เช่น docx หรือ odt) ที่ส่งออกเป็น pdf ดูพร้อมที่จะพิมพ์:

ป้อนคำอธิบายรูปภาพที่นี่

ข้างต้นคือ ไม่ สิ่งที่ฉันพูดถึงที่นี่

สิ่งที่ฉันสนใจคือไฟล์ PDF ในภาพด้านล่าง ซึ่งก็คือความแตกต่างระหว่างหน้าข้อความที่สแกนซึ่งดูเหมือนรูปภาพมากเกินไปกับหน้าข้อความที่สแกนที่ดูเหมือนข้อความดิจิทัล

แบบแรกประกอบด้วยภาพที่ดูเหมือน ภาพที่ถ่าย หน้าหนังสือ:

ป้อนคำอธิบายรูปภาพที่นี่

หรือ

ป้อนคำอธิบายรูปภาพที่นี่

สำเนาดังกล่าว ไม่สามารถพิมพ์ซ้ำบนกระดาษได้เนื่องจากพื้นหลังจะถูกพิมพ์ด้วย

คนที่สองคือสิ่งที่คาดหวังจาก สแกนแล้ว ข้อความและสามารถพิมพ์:

ป้อนคำอธิบายรูปภาพที่นี่

หรือ

ป้อนคำอธิบายรูปภาพที่นี่

ไฟล์ PDF ที่เหมือนรูปภาพอาจได้รับการประมวลผล OCR แล้วและสามารถค้นหาข้อความได้ และยังดูเหมือนคอลเล็กชันของภาพถ่าย (หน้า): OCR ไม่ใช่ปัญหาที่นี่

สิ่งที่ฉันต้องการคือรูปลักษณ์ขาวดำที่ชัดเจนของไฟล์ PDF ที่ "สแกน" และการลบรายละเอียด "จริง" ทั้งหมด (โดยเฉพาะเงา) ซึ่งเป็นเรื่องปกติในภาพถ่าย แต่ไม่ควรอยู่ในหน้าที่พิมพ์


ตามที่ @vanadium สังเกตเห็นในความคิดเห็น ฉันเป็น กำลังมองหาโซลูชันซอฟต์แวร์ที่จะล้างรูปภาพของเอกสารโดยอัตโนมัติ ซึ่งคล้ายกับ Google Scan บนสมาร์ทโฟน.

ตามที่ @ user535733 กล่าวในความคิดเห็น ปัญหาที่นี่ดูเหมือนจะเป็นอย่างน้อยในระดับหนึ่ง ของการแปลง ระดับสีเทา (สแกน/รูปภาพ) ข้อความ เป็นขาวดำ.

pLumo avatar
in flag
ก่อนอื่น ฉันไม่คิดว่าคำถามของคุณเกี่ยวข้องกับ Ubuntu วิธีแก้ไขนั้นค่อนข้างง่ายตามลิงก์ในคำถามอื่น แต่คุณต้องการให้งานเป็นแบบอัตโนมัติ ดังนั้นคำถามของคุณจึงเป็นงานการเขียนโปรแกรมมากกว่า ซึ่งจะเหมาะสมกับไซต์อื่นๆ บนเครือข่ายมากกว่า นอกจากนี้ คุณยังไม่ได้ให้สิ่งที่คุณได้ลองหรือไม่มีแนวคิดว่าจะเริ่มอย่างไร และฉันก็ไม่เข้าใจว่าเหตุใด PDF ที่ใช้ JPEG จึงแตกต่างจากรูปภาพ ดังนั้นการประมวลผลรูปภาพจึงเป็นคำตอบที่ถูกต้อง แม้ว่าจะไม่ใช่ด้วยตนเองก็ตาม
br flag
@pLumo - ฉันกำลังมองหาเครื่องมือ Ubuntu เพื่อสแกนเอกสารดิจิทัลในแบบที่สแกนเนอร์จริงทำกับเอกสารจริง
Thomas Weller avatar
ru flag
IMHO คุณต้องการสิ่งที่เป็นไปไม่ได้: คุณไม่ต้องการการประมวลผลภาพ แต่นั่นคือสิ่งที่เครื่องสแกนเสมือนต้องทำ Linux และ Ubuntu ทำให้ง่ายต่อการเรียกใช้ยูทิลิตี้บนไดเร็กทอรีที่เต็มไปด้วยไฟล์ การเปลี่ยนแปลงความคมชัดและความสว่างก็เพียงพอแล้ว
Thomas Weller avatar
ru flag
BTW: ตัวอย่างที่ค่อนข้างเทาไม่ใช่ภาพถ่าย: เป็นการสแกน เมื่อพับหนังสือ แสงจะสะท้อนและเนื่องจากมุมสะท้อน แสงจะสว่างขึ้นเมื่อเข้าไปด้านใน แม้ว่าแสงจะอยู่ห่างจากแหล่งกำเนิดแสงมากกว่า และใคร ๆ ก็คาดหวังว่าหนังสือจะมืดกว่านี้ สิ่งนี้จะไม่เกิดขึ้นกับการถ่ายภาพ วิธีหนึ่งคือสแกนทีละหน้าเท่านั้นแทนที่จะสแกนสองหน้า ผู้คนสร้างเครื่องสแกนพิเศษเพื่อรองรับสิ่งนี้: หนังสือจะไม่ถูกวางราบ
br flag
@ThomasWeller - ฉันไม่ได้หมายความว่าฉันปฏิเสธการประมวลผลภาพใด ๆ เพียงแค่ปรับวิธีแนะนำ GIMP ด้วยตนเอง จริง ๆ แล้วฉันกำลังมองหาบางอย่างเช่นการสแกนอย่างง่ายหรือ skanlite แต่นั่นจะป้อนเอกสารดิจิทัลแทนเอกสารจริงจากสแกนเนอร์จริง (และความจริงที่ว่าในหน้าเอกสารนั้นถูกสแกนจริง ๆ แล้วแค่ *ดูเหมือน* เหมือนรูปถ่ายไม่ใช่ปัญหา: ฉันต้องทำให้ดูเหมือนข้อความที่สแกนเปล่า / เรียบง่ายมากขึ้น)
vanadium avatar
cn flag
@ThomasWeller ไม่ใช่สิ่งที่เป็นไปไม่ได้เลย เป็นสิ่งที่มีอยู่ในสมาร์ทโฟโต้ OP กำลังมองหาโซลูชันซอฟต์แวร์ที่จะล้างรูปภาพของเอกสารโดยอัตโนมัติ ซึ่งเหมือนกับ Google Scan บนสมาร์ทโฟน
user535733 avatar
cn flag
ดูเหมือนว่าคุณต้องการใช้ *ภาพโทนสีเทา* ที่มีหลายหน้าและ *ประมวลผลภาพนั้น* แยกหน้าแต่ละหน้า ปรับหน้าให้ตรง แปลงโทนสีเทาเป็นขาวดำ และเพิ่มความสามารถในการอ่าน สิ่งนี้ไม่จำเป็นต้องใช้คำว่า "สแกน" ที่ทำให้เกิดความสับสนในชื่อหรือเนื้อหาของคำถาม
vn flag
สิ่งนี้ตอบคำถามของคุณหรือไม่ [ฉันจะลบพื้นหลังหน้าระดับสีเทาของเอกสาร PDF ที่สแกนในขณะที่รักษาข้อความได้อย่างไร (ไบนาไรเซชัน)](https://askubuntu.com/questions/396437/how-can-i-remove-the-gray-scale-page-background-of-a-pdf-document-scan- while-pre)
karel avatar
sa flag
@PabloBianchi ฉันโหวตให้เปิดคำถามนี้และปิดโหวตคำถามที่ซ้ำกันที่เชื่อมโยงของคุณเป็นคำถามที่ซ้ำกันของคำถามนี้เนื่องจากคำตอบของคำถามนี้เป็นข้อมูลล่าสุด
karel avatar
sa flag
@cipricus โปรดปิดการลงคะแนน [คำถามนี้] (https://askubuntu.com/q/396437/) เป็นคำถามที่ซ้ำกันกับคำถามล่าสุดของคุณ
vn flag
@karel คุณแน่ใจหรือว่าคำตอบที่นี่เป็นปัจจุบันมากขึ้น? ฉันมีความประทับใจตรงกันข้าม นอกจากนี้ยังมีคุณภาพที่ต่ำกว่า..
Score:10
ธง in

ช่างตัดเสื้อ ไม่ได้รับการดูแลอีกต่อไป แต่คุณยังสามารถสร้างจากแหล่งที่มาและใช้งานได้

อย่างไรก็ตาม พื้นที่เก็บข้อมูลเดิม ความต้องการ qt4ซึ่งไม่สามารถติดตั้งได้ง่ายใน Ubuntu เวอร์ชันล่าสุด คุณสามารถใช้เช่น ส้อมนี้ ที่ได้ปรับให้เข้ากับ qt5.

ข้อกำหนดเบื้องต้น:

sudo apt ติดตั้ง libjpeg-dev zlib1g-dev libpng-dev libtiff-dev libboost-dev libxrender-dev libboost-all-dev

การติดตั้ง:

โคลนคอมไพล์ https://github.com/victl/scantailor
ช่างสแกนซีดี
ซมเมค.
ทำ
sudo ทำการติดตั้ง

ข้อจำกัดความรับผิดชอบ: ฉันไม่รู้จักผู้ดูแลส้อมนี้ และไม่สามารถพูดอะไรเกี่ยวกับความปลอดภัยของเวอร์ชันนี้ได้


อีกทางเลือกหนึ่ง จะใช้ Scantailor ขั้นสูง. คุณสามารถติดตั้งผ่าน ตะครุบ ...

sudo snap ติดตั้ง scantailor ขั้นสูง

... หรือ แฟลตพัค.

...หรือทาง อปป้า.

sudo add-apt-repository ppa:alex-p/scantailor
อัปเดต sudo apt
sudo apt ติดตั้ง scantailor # หรือ scantailor-advanced

การทดสอบด่วน:

ป้อนคำอธิบายรูปภาพที่นี่

br flag
ฉันพบวิธีแก้ปัญหาที่ใช้งานได้โดยตรงกับไฟล์ pdf และโพสต์ไว้พร้อมคำตอบ "เสริม" ของฉัน
Score:2
ธง br

เป็นวิธีแก้ปัญหาโดยตรงบน PDF (ไม่มีการแยกรูปภาพด้วยตนเอง):

โดยใช้ ocrmypdf เพื่อกู้คืน OCR (ตามที่กล่าวไว้ในตอนท้ายของไฟล์ เสริม ส่วนหนึ่งของคำตอบนี้) ฉันสังเกตเห็นว่า ocrmypdf -h แสดงตัวเลือกที่ฟังดูเหมือนสิ่งที่ถามทุกประการ:

--remove-background พยายามลบพื้นหลังออกจากหน้าสีเทาหรือหน้าสี โดยตั้งค่าเป็นสีขาว

ไฟล์ PDF เริ่มต้นมี OCR อยู่แล้ว ซึ่งทำให้เกิดข้อผิดพลาด เว้นแต่จะใช้ตัวเลือกใดตัวเลือกหนึ่งต่อไปนี้:

-f, --force-ocr แรสเตอร์ข้อความหรือวัตถุเวกเตอร์ใดๆ ในแต่ละหน้า ใช้ OCR และบันทึกเอาต์พุตแรสเตอร์ (สิ่งนี้เขียน PDF ใหม่)

หรือ

-s, --skip-text ข้าม OCR ในหน้าใดๆ ที่มีข้อความอยู่แล้ว แต่รวมหน้านั้นไว้ในผลลัพธ์สุดท้าย มีประโยชน์สำหรับ PDF ที่มีรูปภาพ หน้าข้อความ และ/หรือหน้า OCRed ก่อนหน้านี้ผสมกัน

การใช้แต่ละไฟล์แยกจากกันกับไฟล์ขนาดใหญ่ไฟล์หนึ่งของฉันซึ่งมีหน้าเว็บหลายร้อยหน้าที่ OCR หยุดทำงานไปแล้ว

ทางออกที่ดีที่สุด ดูเหมือนว่าฉันจะเป็นอันดับแรก พิมพ์เป็น pdf ไฟล์เริ่มต้น (ซึ่งลบ OCR) แล้วทำ

ocrmypdf input.pdf output.pdf -l <LANG> --remove-background -v

สำหรับภาษาอังกฤษ, the -l ตัวเลือกไม่จำเป็น -v มีไว้สำหรับรายละเอียดอย่างละเอียดในเทอร์มินัล

ไฟล์ PDF ที่ได้มีขนาดใหญ่กว่าอินพุต (เนื่องจากไฟล์ --ลบพื้นหลัง ตัวเลือก): ลดขนาดตามที่กล่าวไว้ด้านล่าง


เกี่ยวกับ Scan Tailor เป็นส่วนเสริมของ คำตอบหลัก

แม้แต่ไอคอนก็แสดงให้เห็นถึงความจริงที่ว่ามีไว้สำหรับสิ่งที่ถามที่นี่:

![ใส่คำอธิบายรูปภาพที่นี่

นี่คือวิธีใช้ Scan Tailor กับ pdf:

  1. แยกหน้า pdf ทั้งหมดเป็นไฟล์รูปภาพ - เนื่องจากเครื่องมือนี้ไม่ได้ประมวลผล pdf โดยตรงและต้องการรูปภาพ Master PDF Editor สามารถทำได้ แต่ในเครื่องของฉันมันหยุดทำงานหลังจากแยกรูปภาพประมาณ 80 รูป แต่ก็ยังสามารถใช้งานได้โดยตั้งค่ากลุ่ม/ช่วงของหน้าใหม่ที่จะแยกออกมา (PDF Mod ขัดข้องก่อนการประมวลผลใดๆ) สิ่งที่ฉันชอบหลังจากการทดลองใช้สองสามครั้งคือ CLI ที่เชื่อถือได้แม้ว่าจะเป็นวิธีที่ช้ากว่า โดยมีคำสั่งเช่น: pdftoppm MY_PDF.pdf NAME -tiff.pdf - อย่างที่บอก ที่นี่. â สามารถใช้ตัวแปรอื่นแทนได้ ทิฟ (ซึ่งจะช่วยให้ ทิฟ ไฟล์) ตัวอย่างเช่น png หรือ JPEG. ดูชุดการทำงานของเมนูบริการ Dolphin สำหรับตัวเลือกการสกัดต่างๆ ที่นี่:
[รายการเดสก์ท็อป]
ประเภท=บริการ
ServiceTypes=KonqPopupMenu/Plugin
MimeType=ใบสมัคร/pdf;
Actions=pdf;tif;jpeg;
X-KDE-Submenu=การทำงานของ PDF: แยกหน้าทั้งหมด
ไอคอน = ใบสมัคร-pdf

[การดำเนินการเดสก์ท็อป pdf]
Name=แยกหน้าเป็น pdf
ไอคอน = ใบสมัคร-pdf
Exec=bash -c 'pdf=$(pdftk "%u" ระเบิด); kdialog --title "แยกหน้า" --msgbox "แยกแล้ว! $pdf";';

[เดสก์ท็อปการดำเนินการ tif]
Name=แยกหน้าเป็น tif
ไอคอน = ใบสมัคร-pdf
Exec=ทุบตี -c 'f="%u"; pdf=$(pdftoppm "$f" "${f%%.*}" -tiff); kdialog --title "แยกหน้า" --msgbox "แยกแล้ว! $pdf";';


[เดสก์ท็อปการกระทำ jpeg]
Name=แยกหน้าเป็น jpeg
ไอคอน = ใบสมัคร-pdf
Exec=ทุบตี -c 'f="%u"; pdf=$(pdftoppm "$f" "${f%%.*}" -jpeg); kdialog --title "แยกหน้า" --msgbox "แยกแล้ว! $pdf";';
  1. โหลดและประมวลผลภาพผลลัพธ์ใน Scan Tailor. ใส่ไฟล์ภาพที่ได้ลงในโฟลเดอร์แยกต่างหาก และเพิ่มโฟลเดอร์นั้นภายใต้ New Project>Input Directory ใน Scan Tailor (ฉันติดตั้งโปรแกรมนั้นแล้ว จาก ส.ป.กดังที่กล่าวไว้ในความคิดเห็นโดย @ N0rbert ใต้คำตอบหลัก) บางหน้าที่มีรูปภาพจริงและไม่ใช่ข้อความอาจดูดีกว่าถ้า สำหรับแต่ละคน ถูกเลือกเป็น "โทนสีเทาและสี" แทนที่จะเป็นค่าเริ่มต้น "ขาวดำ" (หมายถึงข้อความที่นี่) รันทีละขั้นตอนตามรายการ ตรวจสอบหน้าก่อนที่จะรันหน้าสุดท้าย ("เอาต์พุต")

ป้อนคำอธิบายรูปภาพที่นี่

  1. สร้างไฟล์ PDF ใหม่จากภาพที่ได้. (ตรวจสอบผลลัพธ์ก่อน ทิฟ ไฟล์ได้ตามที่คุณต้องการ) มีหลายวิธีในการสร้าง pdf ใหม่ เป็นอีกครั้งที่เครื่องมือ GUI ที่ฉันได้ลองใช้งานล้มเหลวในไม่ช้าหรือให้ผลลัพธ์ที่แปลกประหลาด ดังนั้นฉันจึงเลือกที่จะใส่ผลลัพธ์ลงไป ทิฟ ไฟล์ในโฟลเดอร์แยกต่างหากและรันคำสั่งที่นั่น img2pdf *.tif -o out.pdf - อย่างที่บอก ที่นี่. (อาจต้องตั้งชื่อ/กำหนดหมายเลขไฟล์ให้ถูกต้อง ข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ ที่นี่.)

ไฟล์ PDF ที่ "ปรับแต่งแล้ว" ที่ได้จะมีขนาดเล็กกว่าไฟล์ PDF เริ่มต้น แต่เปอร์เซ็นต์ของการลดขนาดจะแตกต่างกันไปขึ้นอยู่กับปัจจัยต่างๆ ที่ฉันเพิกเฉย (แต่ฉันคิดว่าหน้าที่อยู่ในไฟล์ PDF เริ่มต้นควรแยกออก â ในขั้นตอนที่ 1 â ในรูปแบบที่พวกเขามีอยู่แล้ว ฉันคิดว่า JPEG และ ทิฟ ควรใช้แทน png; ใช้ pdfimages - รายชื่อของคุณ.pdf ในเทอร์มินัลเพื่อดูรายละเอียดรูปแบบ dpi และรายละเอียดอื่นๆ ก่อนประมวลผลด้วยคำสั่งด้านบนและด้านล่าง)

ไฟล์ PDF สุดท้ายสามารถลดลงได้อีกโดยใช้คำสั่งเช่น:

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook \
-dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

รายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนั้น ที่นี่.

นี่คือชุดของการดำเนินการเมนูบริการ Dolphin ตามลิงค์ด้านบน:

[รายการเดสก์ท็อป]
ประเภท=บริการ
ServiceTypes=KonqPopupMenu/Plugin
MimeType=ใบสมัคร/pdf;
การกระทำ = หด; หด0; หด1; หด2;
X-KDE-Submenu=การทำงานของ PDF: ย่อ
ไอคอน = ใบสมัคร-pdf

[เดสก์ท็อปแอ็คชันย่อขนาด]
Name=ลดขนาด PDF เป็น "เครื่องพิมพ์" ขนาด 300dpi
ไอคอน = ใบสมัคร-pdf
Exec=ทุบตี -c 'f="%u"; pdf=$(gs -dQUIET -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/printer -sOutputFile="${f%.pdf}_printer.pdf" "$f"); kdialog --title "Shrink" --msgbox "Done! $pdf";';

[เดสก์ท็อปแอ็คชันหดตัว 0]
Name=ย่อไฟล์ PDF เป็น "เตรียมพิมพ์" ขนาด 300dpi
ไอคอน = ใบสมัคร-pdf
Exec=ทุบตี -c 'f="%u"; pdf=$(gs -dQUIET -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress -sOutputFile="${f%.pdf}_prepress.pdf" "$f"); kdialog --title "Shrink" --msgbox "Done! $pdf";';


[เดสก์ท็อปแอ็คชันย่อขนาด 1]
Name=ย่อไฟล์ PDF เป็น "ขนาด ebook, 150dpi
ไอคอน = ใบสมัคร-pdf
Exec=ทุบตี -c 'f="%u"; pdf=$(gs -dQUIET -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/ebook -sOutputFile="${f%.pdf}_small.pdf" "$f"); kdialog --title "Shrink" --msgbox "Done! $pdf";';

[เดสก์ท็อปแอ็คชันหดตัว 2]
Name=ย่อไฟล์ PDF เป็น "หน้าจอ" ขนาด 72dpi
ไอคอน = ใบสมัคร-pdf
Exec=ทุบตี -c 'f="%u"; pdf=$(gs -dQUIET -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/screen -sOutputFile="${f%.pdf}_smaller.pdf" "$f"); kdialog --title "Shrink" --msgbox "Done! $pdf";';

ฉันได้รับความช่วยเหลือจาก นี้ ตอบด้วยนะครับ


OCR (ความสามารถในการค้นหาและคัดลอกข้อความ) จะหายไป ระหว่างขั้นตอนข้างต้น หากมีอยู่ใน pdf เริ่มต้น ในการรับ OCR ให้ใช้ ocrmypdf อินพุต.pdf เอาต์พุต.pdf สำหรับภาษาอังกฤษอย่างที่กล่าว ที่นี่. สำหรับภาษาอื่นๆ ให้ค้นหาด้วย apt-cache ค้นหา tesseract-ocrและติดตั้ง เพิ่ม -l <LANG> ในตอนท้ายของคำสั่งสำหรับภาษาเฉพาะ มากกว่า ที่นี่; ดูชื่อของพวกเขาด้วย ที่นี่.

นี่คือการดำเนินการเมนูบริการ Dolphin สำหรับ OCR ของโรมาเนียที่มีสองตัวเลือก (อันหนึ่งที่มีความคืบหน้าในเทอร์มินัลและชื่อเอาต์พุตคงที่ ส่วนอีกอันมีกระบวนการพื้นหลัง แต่มีชื่อเอาต์พุตตามอินพุต ฉันต้องการให้ทั้งสองกระบวนการในเทอร์มินัลและชื่อเอาต์พุตตาม ในอินพุต แต่ไม่รู้วิธี ถ้าใครทำได้โปรดโพสต์ที่นี่!) สำหรับภาษาอังกฤษ ให้แทนที่ "โรมาเนีย" และลบ -l รอน ตัวแปร:

[รายการเดสก์ท็อป]
ประเภท=บริการ
ServiceTypes=KonqPopupMenu/Plugin
MimeType=ใบสมัคร/pdf;
การดำเนินการ=ocr1;ocr2;
X-KDE-Submenu=การทำงานของ PDF: ใช้ OCR
ไอคอน = ใบสมัคร-pdf

[การกระทำของเดสก์ท็อป ocr1]
Name=Apply OCR Romanian (ดูความคืบหน้าในเทอร์มินัล; ชื่อเอาต์พุต: ocr_ro.pdf!)
ไอคอน = ใบสมัคร-pdf
Exec=konsole --noclose -e ocrmypdf "%u" ocr_ro.pdf -l รอน

[การกระทำของเดสก์ท็อป ocr2]
Name=Apply OCR Romanian (กระบวนการเบื้องหลัง: NO terminal! input>output name)
ไอคอน = ใบสมัคร-pdf
Exec=ทุบตี -c 'f="%u"; ocrmypdf "$f" "${f%.pdf}_ocr.pdf" -l รอน;'

(การแยกและประมวลผลรูปภาพ รวมถึง 'การพิมพ์เป็น pdf' จะลบ OCR แต่ลดขนาดด้วย ghostscript ตามด้านบน ไม่ดังนั้นจึงสามารถใช้ "การหดตัว" ก่อนหรือหลัง OCR ได้)

Score:1
ธง tr

ฉันได้ผลลัพธ์ที่ค่อนข้างดีโดยใช้ imageMagick และสคริปต์ต่อไปนี้ http://www.fmwconcepts.com/imagemagick/shadowhighlight/index.php

นี่คือผลลัพธ์โดยใช้พารามิเตอร์ต่อไปนี้:

./shadowhighlight -ma 100 -sa 100 -ha 00 -hw 0 -bc 20 inputFile.png OutputFile.png

ป้อนคำอธิบายรูปภาพที่นี่

br flag
คุณหมายความว่าคุณสามารถใช้การสแกนอย่างง่ายเพื่อป้อนภาพดิจิทัลที่มีอยู่แล้วได้ใช่ไหม
tr flag
คุณไม่ได้มองหาโปรแกรมสแกนเนอร์ แต่เป็นซอฟต์แวร์ประมวลผลภาพอัตโนมัติ ถ้าเป็นเช่นนั้น ให้ดูที่ https://imagemagick.org/ มันจะทำงาน แต่คุณจะต้องค้นหาการตั้งค่าที่เหมาะสม
br flag
เราสามารถใช้คำสั่งนั้นกับหลายร้อยหน้าพร้อมกันได้หรือไม่?
Score:1
ธง by

เพียงติดตั้ง Gimp (ควรใช้ appimage) ต่อไปนี้เป็นตัวเลือก:

  1. เลือก Color>Thresold เป็นอันเสร็จ ภาพของคุณจะเป็นขาวดำ สำหรับสิ่งนี้คุณต้องทำในแต่ละหน้า

ตัวเลือกที่สอง 2) เลือก Image>Mode>Indexed>Use black and white 1 bit palette

ไฟล์ PDF ของคุณมีกี่หน้าก็ได้ ซึ่งจะแปลงทั้งหมดเป็นขาวดำ 1 บิต

แก้ไขเมื่อ 02/11/2021: ตามแบบสอบถามที่ยกขึ้นโดย ซิปิริคัส

นี่คือขั้นตอนที่ฉันปฏิบัติตาม:

  1. สแกนหน้าด้วย "simple scan" หรือ Xsane (ฉันพบว่าการสแกนอย่างง่ายทำงานได้ดีกว่าในสี) หรือใช้ pdf ที่สแกนแล้ว
  2. ไฟล์>เปิดหรือลากและวางไฟล์ pdf ใน GIMP ที่นี่คุณต้องกำหนดความกว้าง X ความสูงของภาพที่คุณต้องการ (ตรวจสอบว่าต้องการ dpi เท่าไหร่ 150 dpi หรือ 300 dpi ให้ค่าความกว้างตามนั้น)
  3. ตอนนี้ไฟล์ pdf ที่มีมากกว่า 1 หน้าเปิดเป็นเลเยอร์
  4. ไปที่ Image>Mode>Indexed>Use black and white 1 bit palette
  5. ตอนนี้ฉันส่งออกไฟล์ PDF โดยใช้ไฟล์> "ส่งออกเป็น"
  6. ตรวจสอบว่าแต่ละหน้าของไฟล์ PDF ที่ส่งออกเป็นไปตามข้อกำหนดหรือไม่ หากไม่ใช่ ฉันจะดำเนินการแต่ละหน้าที่มีข้อบกพร่องด้วยวิธีต่อไปนี้: ก) เลือก Image>Mode>Grayscale b) (หากหน้ามีสีเทา/จุดรบกวนมากเกินไป) เลือก Color > Exposure แล้วปรับตามต้องการ c) เลือก Colour> Thresold และเสร็จสิ้นภาพของคุณจะเป็นขาวดำ สำหรับสิ่งนี้คุณต้องทำมันสำหรับแต่ละหน้าที่มีข้อบกพร่องเพื่อให้ตรงกับคุณภาพที่ต้องการ d) ตอนนี้ฉันแทรกหน้าที่แก้ไขนี้ในชั้นของชั้นไฟล์ pdf ดั้งเดิมและลบชั้นของหน้าที่บกพร่อง และส่งออก pdf อีกครั้ง หวังว่านี่จะช่วยได้
br flag
คุณหมายความว่าตัวเลือกที่สองสามารถเลือกและประมวลผลหน้า/รูปภาพได้หลายร้อยหน้าใช่หรือไม่
Ajay avatar
by flag
ใช่ จริง ๆ แล้วในตัวเลือกที่สองไม่จำเป็นต้องเลือกหน้า คุณจะเพียงแค่เปลี่ยนสีจาก RGB หรือ Grey หรือ CMYK เป็น 1 บิตขาวดำ ดังนั้นจะมีเพียงสองเฉดสีดำหรือขาวเหมือนถ่ายเอกสาร
br flag
เห็นได้ชัดว่ามีเพียงตัวเลือกที่สองเท่านั้นที่สามารถนับได้ที่นี่ (การประมวลผลแต่ละหน้าในไฟล์ PDF มากกว่า 400 หน้าไม่สามารถทำได้) คุณช่วยอธิบายเพิ่มเติมเกี่ยวกับตัวเลือกที่ 2 ได้ไหม วิธีดำเนินการ pdf? ควรแยกหน้าเป็นรูปภาพก่อนหรือไม่ หรือควรเปิดไฟล์ PDF เช่นนี้ใน Gimp?

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา