poi读取ppt的例子,不只是读取ppt里面的文字,还要又文字的样式,布局,图片等。poi包从官网下载即可。
HSLF是POI读写PPT的API,例子见官方文档。
http://poi.apache.org/slideshow/quick-guide.html
文档格式
http://poi.apache.org/slideshow/ppt-file-format.html
操作Shape的API
http://poi.apache.org/slideshow/how-to-shapes.html
1 提取PPT文字
public class PPTReader {
public static void main(String[] args) throws Exception {
InputStream is = new FileInputStream(new File("2003.ppt"));
PowerPointExtractor extractor = new PowerPointExtractor(is);
String ppString = extractor.getText();
System.out.println(ppString);
}
PPT如下:
2 抽取PPT图片
public void findpIC() {
try{
SlideShow ppt = new SlideShow(new HSLFSlideShow("2003.ppt"));
//将所有图片提取出来保存到PictureData[]
PictureData[] pDatas= ppt.getPictureData();
for (int i = 0; i < pDatas.length; i++) {
PictureData pict =pDatas[i];
// 获得每张图片的数据
byte[] data = pict.getData();
//获得每张图片的类型
int type = pict.getType();
String ext;
switch (type) {
case Picture.JPEG: ext=