beh! è molto più semplice del previsto.

Librerie necessarie:

apache poi – java api to access microsoft format files

[ The POI project consists of APIs for manipulating various file formats based upon Microsoft’s OLE 2 Compound Document format using pure Java. In short, you can read and write MS Excel files using Java. Soon, you’ll be able to read and write Word, PowerPoint and Visio files using Java. POI is your Java Excel solution as well as your Java Word solution.]

includere le librerie

poi-3.0.2-FINAL-20080204.jar
poi-contrib-3.0.2-FINAL-20080204.jar
poi-scratchpad-3.0.2-FINAL-20080204.jar

visto che il package hwps che si occupa dell’accesso da java ai file microsoft word è perennemente in lavorazione e non penso giungerà mai ad una versione stabile.
Vorrà dire che ci accontentiamo della versione beta 🙁

La funzione che ho preparato è questa:

public String parseFile(String path){
    String contents = "";
    try{
        org.apache.poi.poifs.filesystem.POIFSFileSystem fs =
             new org.apache.poi.poifs.filesystem.POIFSFileSystem(
                    new FileInputStream(path));
        org.apache.poi.hwpf.extractor.WordExtractor we =
             new org.apache.poi.hwpf.extractor.WordExtractor(fs);
        contents = we.getText();
    }catch(IOException e){
        e.printStackTrace();
    }
    return contents;
}

è tutto!

🙂