利用PDFBox读取pdf文件文本

PDFBox下载地址:http://sourceforge.net/projects/pdfbox/postdownload?source=dlp


解压下载到的rar .拿到源码中bin文件夹下的 四个dll 

IKVM.GNU.Classpath.dll

IKVM.Runtime.dll

PDFBox-0.7.3.dll

FontBox-0.1.0-dev.dll

在使用的项目中添加这4个dll的引用。



       /// <summary>
       /// 将PDF转换成txt
       /// </summary>
       /// <param name="file"></param>
       /// <param name="txtfile"></param>
      public void pdf_txt(FileInfo file,FileInfo txtfile)  
        {  
            PDDocument doc = PDDocument.load(file.FullName);  
            PDFTextStripper pdfStripper = new PDFTextStripper();  
            string text = pdfStripper.getText(doc);  
            StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));  
            swPdfChange.Write(text); 
            swPdfChange.Close();  
        }  


 调用方式:

       FileInfo pdffile = new FileInfo(@"E:\work\Analyzer\4_develop\trunk\IsAnalyzer\UploadFile\1.txt");  //此处加载的是读取出来的文本存放的txt文件
        pdf_txt(file, pdffile);
       StreamReader  sr = new StreamReader(pdffile.FullName, Encoding.GetEncoding("gb2312"));        

        StringBuilder sb=new StringBuilder();

        while (!sr.EndOfStream)
         {
               sb.Append(sr.ReadLine());
         }

  

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值