package feedback; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.io.PrintWriter; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.StringTokenizer; import java.util.HashMap; import java.util.Random; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.index.FilterIndexReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.queryParser.QueryParser; import org.apache.lucene.search.HitCollector; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.QueryTermVector; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.Searcher; import org.apache.lucene.search.TopDocCollector; import org.apache.lucene.search.Similarity; import org.apache.lucene.index.Term; import org.apache.lucene.index.TermFreqVector; /** * * @author greg */ public class AutoRank { public static ArrayList scores = new ArrayList(); public static ArrayList fakeScores = new ArrayList(); public static HashMap noiseCache = new HashMap(); public static void main(String[] args) throws Exception { String usage = "Usage:\tYou didn't enter any arguments. Try again."; if (args.length > 0 && ("-h".equals(args[0]) || "-help".equals(args[0]))) { System.out.println(usage); System.exit(0); } String index = "index"; String field = "contents"; String queryFile=""; String outputFile="output.txt"; String newQuery=""; boolean raw = true; String normsField = null; int hitsPerPage = 10; String relevant = ""; String irrelevant = ""; String skipped = ""; int numRel = 0; int numIr = 0; int numRanked=0,numRounds=0; int rankMode=1; int topTerms=10; float a=1; float b=1; float c=1; int numPerRound=1; IndexReader reader = IndexReader.open(index); int numDocs= reader.numDocs(); int maxResults=numDocs; ArrayList targetMethods = new ArrayList(); for (int i = 0; i < args.length; i++) { if ("-index".equals(args[i])) { index = args[i + 1]; i++; } else if ("-a".equals(args[i])){ a=Float.parseFloat(args[i+1]); i++; } else if ("-b".equals(args[i])){ b=Float.parseFloat(args[i+1]); i++; } else if ("-c".equals(args[i])){ c=Float.parseFloat(args[i+1]); i++; } else if ("-rank".equals(args[i])) { numPerRound=Integer.parseInt(args[i+1]); i++; } else if ("-maxDocs".equals(args[i])) { maxResults=Integer.parseInt(args[i+1]); i++; }else if ("-field".equals(args[i])) { field = args[i + 1]; i++; } else if ("-norms".equals(args[i])) { normsField = args[i + 1]; i++; }else if ("-includeTerms".equals(args[i])) { rankMode=Integer.parseInt(args[i + 1]); topTerms=Integer.parseInt(args[i+2]); i+=2; }else if("-query".equals(args[i])){ queryFile=args[i+1]; i++; }else if("-output".equals(args[i])){ outputFile=args[i+1]; i++; } } System.out.println("Your settings: a="+a+" b="+b+" c"+c+" methods per round="+numPerRound+ "\nmax similar results="+maxResults+" term ranking= method "+rankMode+","+topTerms+" top terms."); int numTerms=0; HashMap termDict=new HashMap(0); for(int g=0;g=3){ for(int i=0;i newTerms = new ArrayList(); ArrayList newFreqs = new ArrayList(); //Remove terms with df of 0 (aka: aren't in the corpus) for(int i=0;i0){ newTerms.add(queryTerms[i]); newFreqs.add(queryFreqs[i]); } } String revisedQuery=""; for(int j=0;j ranks=sortAndDisplay(numDocs, reader,maxResults, rel, ir, skip,0); String command = ""; String rate = ""; int docNum = 0; String rating = ""; //Get initial positions ArrayList positions = findTargets(ranks,targetMethods,maxResults); System.out.println("The initial position(s) of your target method(s) are:"); for(int i=0;i testRanks,testPositions; Query testQuery2; int improvement,bestImprovement,bestOption,fakeNumRel,fakeNumIr, gx,hx,test; Boolean stillRating=true; String rep=""; while(stillRating&&numRanked<50){ bestOption=-1; bestImprovement=0; for(int l=0;ltest) improvement=100000000; if(improvement=50)){ for(int j=0;j=50) { System.out.println("Fifty methods ranked. Quitting."); done=true; } } relevant = ""; irrelevant = ""; skipped=""; for (int j = 0; j <= numDocs; j++) { if (rel[j] == 1) { relevant = relevant + " " + j; } if (ir[j] == 1) { irrelevant = irrelevant + " " + j; } if (skip[j] == 1) { skipped = skipped + " " + j; } } System.out.println("\nA total of "+numRanked+" methods were ranked over "+numRounds+" rounds."); System.out.println("Relevant Documents:" + relevant); System.out.println("Irrelevant Documents:" + irrelevant); System.out.println("Skipped Documents:"+ skipped); System.out.println("\nThe final position(s) of your target method(s) are:"); String finalTars=""; for(int i=0;i sortAndDisplay(int numDocs, IndexReader reader, int maxResults, int[] rel, int[] ir, int[] skip, int testMode) throws Exception{ ArrayList copy; if(testMode==0) copy = scores; else copy = fakeScores; ArrayList cantBe = new ArrayList(); ArrayList ranks = new ArrayList(); float max; int maxDoc; int numDisplayed=0; //Filter out previously rated documents for(int i=0;i<=numDocs;i++){ if(rel[i]==1||ir[i]==1||skip[i]==1){ cantBe.add(i); } } while((cantBe.size()<=numDocs)&&(numDisplayed<=maxResults)){ maxDoc=-1; max=0; for(int i=0;imax)&&(cantBe.indexOf(i)==-1)){ max=copy.get(i); maxDoc=i; } } if(maxDoc!=-1){ Document doc = reader.document(maxDoc); //System.out.println("Document #"+maxDoc+" "+doc.get("title")+", Score: "+max); numDisplayed++; ranks.add(maxDoc); } cantBe.add(maxDoc); } return ranks; } /* * Simple method to find the target methods */ public static ArrayList findTargets(ArrayList ranks,ArrayList targets, int maxResults){ ArrayList where = new ArrayList(); for(int k=0;k newTerms = new ArrayList(); ArrayList newFreqs = new ArrayList(); ArrayList newQueryTerms = new ArrayList(); ArrayList newQueryFreqs = new ArrayList(); ArrayList removeTerms = new ArrayList(); ArrayList removeFreqs = new ArrayList(); //Load in terms/freqs from original query for(int i=0;i0||numDisliked>0){ for(int j=0;j rankScores=new ArrayList(); ArrayList bestTerms = new ArrayList(); //switch based on sort order if(rankMode==1){ //compute noise for(int n=0;nbest&&(!bestTerms.contains(newTerms.get(n)))){ best=rankScores.get(n); pos=n; } } if(pos>=0){ bestTerms.add(newTerms.get(pos)); //System.out.println(newTerms.get(pos)); }else{ break; } } //Add relevant terms if they are high ranked for(int n=0;n0){ if(bestTerms.contains(term)){ if(newQueryTerms.indexOf(term)==-1){ newQueryTerms.add(term); newQueryFreqs.add(freq); //System.out.println("Term added "+term+"-"+freq); }else{ float oldFreq=newQueryFreqs.get(newQueryTerms.indexOf(term)); freq+=oldFreq; newQueryFreqs.set(newQueryTerms.indexOf(term),freq); //System.out.println("Rel term already there: "+term+"-"+freq); } } } } //Remove irrelevant terms for(int n=0;n0){ if(newQueryTerms.indexOf(term)!=-1){ float oldFreq=newQueryFreqs.get(newQueryTerms.indexOf(term)); oldFreq-=freq; newQueryFreqs.set(newQueryTerms.indexOf(term),oldFreq); //System.out.println("Ir term:"+term+"-"+freq+" now:"+oldFreq); } } } //Now, build the string for(int n=0;n hits.length) { System.out.println("Only results 1 - " + hits.length + " of " + numTotalHits + " total matching documents collected."); System.out.println("Collect more (y/n) ?"); String line = in.readLine(); if (line.length() == 0 || line.charAt(0) == 'n') { break; } collector = new TopDocCollector(numTotalHits); searcher.search(query, collector); hits = collector.topDocs().scoreDocs; } end = Math.min(hits.length, start + hitsPerPage); for (int i = start; i < end; i++) { if (raw) { // output raw format System.out.println("doc=" + hits[i].doc + " score=" + hits[i].score); continue; } Document doc = searcher.doc(hits[i].doc); String path = doc.get("path"); if (path != null) { System.out.println((i + 1) + ". " + path); String title = doc.get("title"); if (title != null) { System.out.println(" Title: " + doc.get("title")); } } else { System.out.println((i + 1) + ". " + "No path for this document"); } } if (!interactive) { break; } if (numTotalHits >= end) { boolean quit = false; while (true) { System.out.print("Press "); if (start - hitsPerPage >= 0) { System.out.print("(p)revious page, "); } if (start + hitsPerPage < numTotalHits) { System.out.print("(n)ext page, "); } System.out.println("(q)uit or enter number to jump to a page."); String line = in.readLine(); if (line.length() == 0 || line.charAt(0) == 'q') { quit = true; break; } if (line.charAt(0) == 'p') { start = Math.max(0, start - hitsPerPage); break; } else if (line.charAt(0) == 'n') { if (start + hitsPerPage < numTotalHits) { start += hitsPerPage; } break; } else { int page = Integer.parseInt(line); if ((page - 1) * hitsPerPage < numTotalHits) { start = (page - 1) * hitsPerPage; break; } else { System.out.println("No such page"); } } } if (quit) { break; } end = Math.min(numTotalHits, start + hitsPerPage); } } } }