本篇內(nèi)容主要講解“如何使用pdfbox實現(xiàn)pdf文本提取和合并功能”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何使用pdfbox實現(xiàn)pdf文本提取和合并功能”吧!
有時我們需要對PDF文件進行一些處理,提取文本、合并等。以前我們使用A-PDF Text Extractor免費工具,為什么不自己寫一個呢?
現(xiàn)在我們可以使用PDFBox-0.7.3這個開源類庫. 下載解包后引用:
復制代碼 代碼如下:
PDFBox-0.7.3.dll
IKVM.GNU.Classpath.dll
新建一個項目,代碼很簡單:
復制代碼 代碼如下:
public static string ParseToTxtStringUsingPDFBox(string filename){
PDDocument doc = PDDocument.load(filename);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}
獲得這個textString,再把它們寫成磁盤文件就可以了, 像這樣的方法:
復制代碼 代碼如下:
public static void WriteToTextFile(string str,string txtpath)
{
if (string.IsNullOrEmpty(txtpath))
throw new ArgumentNullException("Output file path should not be Null");
using (var txtWriter = new StreamWriter(txtpath))
{
txtWriter.Write(str);
txtWriter.Close();
}
}
其它的功能您可以自行發(fā)揮了. 這個類庫目前支持:
PDF to text extraction
Merge PDF Documents
PDF Document Encryption/Decryption
Lucene Search Engine Integration
Fill in form data FDF and XFDF
Create a PDF from a text file
Create images from PDF pages
Print a PDF
到此,相信大家對“如何使用pdfbox實現(xiàn)pdf文本提取和合并功能”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)建站,更多相關內(nèi)容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!
當前名稱:如何使用pdfbox實現(xiàn)pdf文本提取和合并功能-創(chuàng)新互聯(lián)
當前URL:http://chinadenli.net/article16/dcphgg.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設、Google、App開發(fā)、定制網(wǎng)站、微信公眾號、App設計
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容