Real-life queries, and some scripts to analyze them
[pazpar2-moved-to-github.git] / heikki / queries / process1.pl
1 #!/usr/bin/perl -w
2 # Analyzing DBC's example queries
3 # Step 1: Split the file, merge nexpage queries
4
5
6 open F, "searches.csv" or die "could not open searches.csv: $!\n";
7
8 open OUT, ">x1" or die "could not open x1 for writing: $!\n";
9 print OUT "#query ; hits; pages\n";
10
11 my $thisline = "";
12 my $pagecount = 1; # how many next-page searches (same query)
13 while ( <F> ) {
14     next unless /^[0-9]/;
15     my ( $lineno, $query, $ccl, $hits, $timing ) = split (';');
16     if ( $thisline eq $lineno ){
17         $pagecount ++;
18     } else {
19         print OUT "$query ; $hits ; $pagecount\n";
20         #print "$query ; $hits ; $pagecount\n";
21         $pagecount = 1;
22         $thisline = $lineno;
23     }
24
25     #die "STOPPING EARLY " if $lineno > 5000;
26 }