package feedback; import java.io.BufferedReader; import java.io.FileReader; import java.io.IOException; import java.io.PrintWriter; import java.io.FileWriter; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.StringTokenizer; import java.util.HashMap; import java.util.Random; import java.util.Calendar; import java.text.SimpleDateFormat; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.index.FilterIndexReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.queryParser.QueryParser; import org.apache.lucene.search.HitCollector; import org.apache.lucene.search.Hits; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.QueryTermVector; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.Searcher; import org.apache.lucene.search.TopDocCollector; import org.apache.lucene.search.Similarity; import org.apache.lucene.index.Term; import org.apache.lucene.index.TermFreqVector; /** * * @author greg */ public class RatingTool { public static ArrayList scores = new ArrayList(); public static ArrayList fakeScores = new ArrayList(); public static HashMap noiseCache = new HashMap(); public static void main(String[] args) throws Exception { String usage = "Usage:\tYou didn't enter any arguments. Try again."; if (args.length > 0 && ("-h".equals(args[0]) || "-help".equals(args[0]))) { System.out.println(usage); System.exit(0); } String index = "index"; String field = "contents"; String newQuery=""; boolean raw = true; String normsField = null; int hitsPerPage = 10; String relevant = ""; String irrelevant = ""; String skipped = ""; int numRel = 0; int numIr = 0; int numRanked=0,numRounds=1, numUndo=0, numReranked=0; int rankMode=5; int topTerms=20; int target=-1; float a=(float)0.25; float b=(float)0.25; float c=(float)0.75; int numPerRound=1; Boolean display=false; IndexReader reader = IndexReader.open(index); int numDocs= reader.numDocs(); int maxResults=1000; ArrayList targetMethods = new ArrayList(); String queryFile=""; for (int i = 0; i < args.length; i++) { if ("-index".equals(args[i])) { index = args[i + 1]; i++; } else if ("-a".equals(args[i])){ a=Float.parseFloat(args[i+1]); i++; } else if ("-b".equals(args[i])){ b=Float.parseFloat(args[i+1]); i++; } else if ("-c".equals(args[i])){ c=Float.parseFloat(args[i+1]); i++; } else if ("-rank".equals(args[i])) { numPerRound=Integer.parseInt(args[i+1]); i++; } else if ("-maxDocs".equals(args[i])) { maxResults=Integer.parseInt(args[i+1]); i++; }else if ("-field".equals(args[i])) { field = args[i + 1]; i++; } else if ("-norms".equals(args[i])) { normsField = args[i + 1]; i++; }else if ("-includeTerms".equals(args[i])) { rankMode=Integer.parseInt(args[i + 1]); topTerms=Integer.parseInt(args[i+2]); i+=2; }else if("-display".equals(args[i])){ display=true; }else if("-query".equals(args[i])){ queryFile=args[i+1]; i++; } } System.out.println("Your settings: a="+a+" b="+b+" c"+c+" methods per round="+numPerRound+ "\nmax similar results="+maxResults+" term ranking= method "+rankMode+","+topTerms+" top terms."); int numTerms=0; HashMap termDict=new HashMap(0); for(int g=0;g=3){ targetMethods.add(Integer.parseInt(cline)-839); } } }finally{ qf.close(); } //Parse query. Query query = parser.parse(line); QueryTermVector queryTermVector = new QueryTermVector( line, analyzer ); String[] queryTerms = queryTermVector.getTerms(); int[] queryFreqs = queryTermVector.getTermFrequencies(); ArrayList newTerms = new ArrayList(); ArrayList newFreqs = new ArrayList(); ArrayList log = new ArrayList(); //Remove terms with df of 0 (aka: aren't in the corpus) for(int i=0;i0){ newTerms.add(queryTerms[i]); newFreqs.add(queryFreqs[i]); } } String revisedQuery=""; for(int j=0;j ranks=sortAndDisplay(numDocs, reader,maxResults, rel, ir, skip,0); String command = ""; String rate = ""; int docNum = 0; String rating = ""; //Get initial positions ArrayList positions = findTargets(ranks,targetMethods,maxResults); String out="The initial position(s) of your target method(s) are:"; for(int i=0;i thisRound = new ArrayList(); for(int ranked=0;ranked "); String ranking = in.readLine(); if((ranking.toLowerCase().equals("r"))||(ranking.toLowerCase().equals("relevant"))){ rel[ranks.get(ranked+unknown)]=1; ir[ranks.get(ranked+unknown)]=0; skip[ranks.get(ranked+unknown)]=0; numRel++; out=out+" = Relevant"; cal = Calendar.getInstance(); out=sdf.format(cal.getTime())+" "+out; log.add(out); numRanked++; } else if((ranking.toLowerCase().equals("i"))||(ranking.toLowerCase().equals("irrelevant"))){ rel[ranks.get(ranked+unknown)]=0; ir[ranks.get(ranked+unknown)]=1; skip[ranks.get(ranked+unknown)]=0; numIr++; out=out+" = Irrelevant"; cal = Calendar.getInstance(); out=sdf.format(cal.getTime())+" "+out; log.add(out); numRanked++; } else if((ranking.toLowerCase().equals("s"))||(ranking.toLowerCase().equals("skip"))){ rel[ranks.get(ranked+unknown)]=0; ir[ranks.get(ranked+unknown)]=0; skip[ranks.get(ranked+unknown)]=1; out=out+" = Skipped"; cal = Calendar.getInstance(); out=sdf.format(cal.getTime())+" "+out; log.add(out); unknown++; ranked--; numRanked++; }else if((ranking.toLowerCase().equals("t"))||(ranking.toLowerCase().equals("target"))){ target=ranks.get(ranked+unknown); out=out+" = Target Method"; cal = Calendar.getInstance(); out=sdf.format(cal.getTime())+" "+out; log.add(out); done=true; numRanked++; break; }else if((ranking.toLowerCase().equals("undo"))||(ranking.toLowerCase().equals("u"))){ ranked--; numUndo++; String rerank=""; int changed=0; while(!rerank.toLowerCase().equals("done")){ System.out.println("\nHere are the documents you have previously rated.\n"+ "To change the rating, type the document number followed by R, I, S, or T and press enter. (Ex: 12345 R)\n"+ "To view the source code of a method, type the document number followed by show.\n"+ "Type done when finished rerating.\n"); for(int docCounter=0;docCounter "); rerank=in.readLine(); if(!rerank.toLowerCase().equals("done")){ int num = Integer.parseInt(rerank.substring(0,rerank.indexOf(" "))); num= Math.abs(num); String rank=rerank.substring(rerank.indexOf(" ")+1); if((num0){ queryTermVector = new QueryTermVector( originalQuery, analyzer); } }else{ System.out.println("That wasn't an acceptable rating."); ranked--; } if(done==true) break; } //Build new query if(done==false){ System.out.println("Building a new query. Please be patient.\n"); newQuery= buildNewQuery(queryTermVector,reader, rel,ir,a,b,c, numDocs,numRel,numIr, maxResults,numTerms,termDict, rankMode,topTerms); newQuery = newQuery.trim(); query = parser.parse(newQuery); queryTermVector = new QueryTermVector( newQuery, analyzer ); doStreamingSearch(searcher, query); ranks=sortAndDisplay(numDocs, reader,maxResults, rel, ir, skip,0); positions = findTargets(ranks,targetMethods,maxResults); out="The new position(s) of your target method(s) are:"; for(int i=0;i=50) { out="Fifty methods ranked. Quitting."; System.out.println(out); log.add(out); done=true; } } } relevant = ""; irrelevant = ""; skipped=""; for (int j = 0; j <= numDocs; j++) { if (rel[j] == 1) { relevant = relevant + " " + j; } if (ir[j] == 1) { irrelevant = irrelevant + " " + j; } if (skip[j] == 1) { skipped = skipped + " " + j; } } out="\nA total of "+numRanked+" methods were ranked over "+numRounds+" rounds."; System.out.println(out); log.add(out); out="Relevant Documents:" + relevant; System.out.println(out); log.add(out); out="Irrelevant Documents:" + irrelevant; System.out.println(out); log.add(out); out="Skipped Documents:"+ skipped; System.out.println(out); log.add(out); out="Target Method:"+target; System.out.println(out); log.add(out); out="\nThe final position(s) of your target method(s) are:"; String finalTars=""; Boolean id=false; for(int i=0;i0&&cline.indexOf(";")==-1) printing=true; } } override=false; }else if(firstWord.equals("@Override")){ override=true; } if(firstWord.equals("//{{{")){ if(wordList[wordList.length-1].equals("method")||wordList[wordList.length-1].equals("class")||wordList[wordList.length-1].equals("members")) printing=false; } if(printing==true) System.out.println(printVer); } }finally{ qf.close(); } } public static ArrayList sortAndDisplay(int numDocs, IndexReader reader, int maxResults, int[] rel, int[] ir, int[] skip, int testMode) throws Exception{ ArrayList copy; if(testMode==0) copy = scores; else copy = fakeScores; ArrayList cantBe = new ArrayList(); ArrayList ranks = new ArrayList(); float max; int maxDoc; int numDisplayed=0; //Filter out previously rated documents for(int i=0;i<=numDocs;i++){ if(rel[i]==1||ir[i]==1||skip[i]==1){ cantBe.add(i); } } while((cantBe.size()<=numDocs)&&(numDisplayed<=maxResults)){ maxDoc=-1; max=0; for(int i=0;imax)&&(cantBe.indexOf(i)==-1)){ max=copy.get(i); maxDoc=i; } } if(maxDoc!=-1){ Document doc = reader.document(maxDoc); //System.out.println("Document #"+maxDoc+" "+doc.get("title")+", Score: "+max); numDisplayed++; ranks.add(maxDoc); } cantBe.add(maxDoc); } return ranks; } /* * Simple method to find the target methods */ public static ArrayList findTargets(ArrayList ranks,ArrayList targets, int maxResults){ ArrayList where = new ArrayList(); for(int k=0;k newTerms = new ArrayList(); ArrayList newFreqs = new ArrayList(); ArrayList newQueryTerms = new ArrayList(); ArrayList newQueryFreqs = new ArrayList(); ArrayList removeTerms = new ArrayList(); ArrayList removeFreqs = new ArrayList(); //Load in terms/freqs from original query for(int i=0;i0||numDisliked>0){ for(int j=0;j rankScores=new ArrayList(); ArrayList bestTerms = new ArrayList(); //switch based on sort order if(rankMode==1){ //compute noise for(int n=0;nbest&&(!bestTerms.contains(newTerms.get(n)))){ best=rankScores.get(n); pos=n; } } if(pos>=0){ bestTerms.add(newTerms.get(pos)); //System.out.println(newTerms.get(pos)); }else{ break; } } //Add relevant terms if they are high ranked for(int n=0;n0){ if(bestTerms.contains(term)){ if(newQueryTerms.indexOf(term)==-1){ newQueryTerms.add(term); newQueryFreqs.add(freq); //System.out.println("Term added "+term+"-"+freq); }else{ float oldFreq=newQueryFreqs.get(newQueryTerms.indexOf(term)); freq+=oldFreq; newQueryFreqs.set(newQueryTerms.indexOf(term),freq); //System.out.println("Rel term already there: "+term+"-"+freq); } } } } //Remove irrelevant terms for(int n=0;n0){ if(newQueryTerms.indexOf(term)!=-1){ float oldFreq=newQueryFreqs.get(newQueryTerms.indexOf(term)); oldFreq-=freq; newQueryFreqs.set(newQueryTerms.indexOf(term),oldFreq); //System.out.println("Ir term:"+term+"-"+freq+" now:"+oldFreq); } } } //Now, build the string for(int n=0;n hits.length) { System.out.println("Only results 1 - " + hits.length + " of " + numTotalHits + " total matching documents collected."); System.out.println("Collect more (y/n) ?"); String line = in.readLine(); if (line.length() == 0 || line.charAt(0) == 'n') { break; } collector = new TopDocCollector(numTotalHits); searcher.search(query, collector); hits = collector.topDocs().scoreDocs; } end = Math.min(hits.length, start + hitsPerPage); for (int i = start; i < end; i++) { if (raw) { // output raw format System.out.println("doc=" + hits[i].doc + " score=" + hits[i].score); continue; } Document doc = searcher.doc(hits[i].doc); String path = doc.get("path"); if (path != null) { System.out.println((i + 1) + ". " + path); String title = doc.get("title"); if (title != null) { System.out.println(" Title: " + doc.get("title")); } } else { System.out.println((i + 1) + ". " + "No path for this document"); } } if (!interactive) { break; } if (numTotalHits >= end) { boolean quit = false; while (true) { System.out.print("Press "); if (start - hitsPerPage >= 0) { System.out.print("(p)revious page, "); } if (start + hitsPerPage < numTotalHits) { System.out.print("(n)ext page, "); } System.out.println("(q)uit or enter number to jump to a page."); String line = in.readLine(); if (line.length() == 0 || line.charAt(0) == 'q') { quit = true; break; } if (line.charAt(0) == 'p') { start = Math.max(0, start - hitsPerPage); break; } else if (line.charAt(0) == 'n') { if (start + hitsPerPage < numTotalHits) { start += hitsPerPage; } break; } else { int page = Integer.parseInt(line); if ((page - 1) * hitsPerPage < numTotalHits) { start = (page - 1) * hitsPerPage; break; } else { System.out.println("No such page"); } } } if (quit) { break; } end = Math.min(numTotalHits, start + hitsPerPage); } } } }