ICU charmap files.
authorAdam Dickmeiss <adam@indexdata.dk>
Thu, 13 Dec 2007 18:10:35 +0000 (18:10 +0000)
committerAdam Dickmeiss <adam@indexdata.dk>
Thu, 13 Dec 2007 18:10:35 +0000 (18:10 +0000)
tab/Makefile.am
tab/icu.idx [new file with mode: 0644]
tab/phrases-icu.xml [new file with mode: 0644]
tab/words-icu.xml [new file with mode: 0644]

index 8e0369c..f882707 100644 (file)
@@ -1,4 +1,4 @@
-## $Id: Makefile.am,v 1.9 2006-06-28 13:26:18 adam Exp $
+## $Id: Makefile.am,v 1.10 2007-12-13 18:10:35 adam Exp $
 
 tabdatadir = $(datadir)/$(PACKAGE)$(PACKAGE_SUFFIX)/tab
 tabdata_DATA = bib1.att dan1.att danmarc.abs danmarc.mar \
@@ -9,7 +9,7 @@ tabdata_DATA = bib1.att dan1.att danmarc.abs danmarc.mar \
  nwi.flt refer.flt scan.chr sgml.flt soif.flt string.chr summary.abs \
  summary.tag tagsetg.tag tagsetm.tag urx.chr usmarc.abs usmarc-b.est \
  usmarc.flt usmarc.mar usmarc.tag var1.var wais.abs wais-b.est \
- wais-variant.est marc21.abs
+ wais-variant.est marc21.abs words-icu.xml phrases-icu.xml icu.idx
 
 EXTRA_DIST = $(tabdata_DATA)
 
diff --git a/tab/icu.idx b/tab/icu.idx
new file mode 100644 (file)
index 0000000..fa53318
--- /dev/null
@@ -0,0 +1,30 @@
+# ICU indexing for words and phrases.. Otherwise similar
+# to default.idx .
+# $Id: icu.idx,v 1.1 2007-12-13 18:10:35 adam Exp $
+
+# Traditional word index
+# Used if completenss is 'incomplete field' (@attr 6=1) and
+# structure is word/phrase/word-list/free-form-text/document-text
+index w
+completeness 0
+position 1
+alwaysmatches 1
+firstinfield 1
+icuchain words-icu.xml
+# debug 1
+
+# Phrase index
+# Used if completeness is 'complete {sub}field' (@attr 6=2, @attr 6=1)
+# and structure is word/phrase/word-list/free-form-text/document-text
+index p
+completeness 1
+icuchain phrases-icu.xml
+# debug 1
+
+# Sort register
+sort s
+completeness 1
+charmap string.chr
+
+# Staticrank (uncomment to enable)
+#staticrank r
diff --git a/tab/phrases-icu.xml b/tab/phrases-icu.xml
new file mode 100644 (file)
index 0000000..0fe3664
--- /dev/null
@@ -0,0 +1,7 @@
+<icu_chain locale="en">
+  <transform rule="[:Control:] Any-Remove"/>
+  <tokenize rule="s"/>
+  <transform rule="[:Punctuation:] Remove"/>
+  <display/>
+  <casemap rule="l"/>
+</icu_chain>
diff --git a/tab/words-icu.xml b/tab/words-icu.xml
new file mode 100644 (file)
index 0000000..1b0e9e2
--- /dev/null
@@ -0,0 +1,7 @@
+<icu_chain id="en:word" locale="en">
+  <transform rule="[:Control:] Any-Remove"/>
+  <tokenize rule="l"/>
+  <transform rule="[[:WhiteSpace:][:Punctuation:]] Remove"/>
+  <display/>
+  <casemap rule="l"/>
+</icu_chain>