Fixed a bug regarding ISAMB tree splitting. Code fixed in similar way
[idzebra-moved-to-github.git] / data1 / d1_absyn.c
index e2434c4..f19edbf 100644 (file)
@@ -1,4 +1,4 @@
-/* $Id: d1_absyn.c,v 1.5 2002-12-16 22:59:34 adam Exp $
+/* $Id: d1_absyn.c,v 1.9.2.8 2006-08-14 10:38:51 adam Exp $
    Copyright (C) 1995,1996,1997,1998,1999,2000,2001,2002
    Index Data Aps
 
@@ -15,9 +15,9 @@ FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
 for more details.
 
 You should have received a copy of the GNU General Public License
-along with Zebra; see the file LICENSE.zebra.  If not, write to the
-Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
-02111-1307, USA.
+along with this program; if not, write to the Free Software
+Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
+
 */
 
 #include <stdio.h>
@@ -28,6 +28,7 @@ Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
 #include <yaz/oid.h>
 #include <yaz/log.h>
 #include <data1.h>
+#include <zebra_xpath.h>
 
 #define D1_MAX_NESTING  128
 
@@ -75,12 +76,15 @@ void data1_absyn_destroy (data1_handle dh)
     while (p)
     {
         data1_absyn *abs = p->absyn;
-        data1_xpelement *xpe = abs->xp_elements;
-        while (xpe) {
-            logf (LOG_DEBUG,"Destroy xp element %s",xpe->xpath_expr);
-            if (xpe->dfa) {  dfa_delete (&xpe->dfa); }
-            xpe = xpe->next;
-        } 
+       if (abs)
+       {
+           data1_xpelement *xpe = abs->xp_elements;
+           while (xpe) {
+               logf (LOG_DEBUG,"Destroy xp element %s",xpe->xpath_expr);
+               if (xpe->dfa) {  dfa_delete (&xpe->dfa); }
+               xpe = xpe->next;
+           } 
+       }
         p = p->next;
     }
 }
@@ -282,44 +286,82 @@ void fix_element_ref (data1_handle dh, data1_absyn *absyn, data1_element *e)
       /      ->    none
 
    pop, 2002-12-13
+
+   Now [] predicates are supported
+
+   pop, 2003-01-17
+
  */
 
-const char * mk_xpath_regexp (data1_handle dh, char *expr) 
+static const char * mk_xpath_regexp (data1_handle dh, const char *expr) 
 {
-    char *p = expr;
+    const char *p = expr;
     int abs = 1;
-    int i;
-    int e=0;
-    
-    static char *stack[32];
-    static char res[1024];
-    char *r = "";
+    int e = 0;
+    char *stack[32];
+    char *res_p, *res = 0;
+    size_t res_size = 1;
     
-    if (*p != '/') { return (""); }
+    if (*p != '/')
+       return ("");
     p++;
-    if (*p == '/') { abs=0; p++; }
-    
-    while (*p) {
-        i=0;
-        while (*p && !strchr("/",*p)) { i++; p++; }
-        stack[e] = (char *) nmem_malloc (data1_nmem_get (dh), i+1);
-        memcpy (stack[e],  p - i, i);
-        stack[e][i] = 0;
+    if (*p == '/') 
+    { 
+       abs =0;
+       p++;
+    }
+    while (*p)
+    {
+       int is_predicate = 0;
+       char *s;
+       int i, j;
+        for (i = 0; *p && !strchr("/",*p); i++, p++)
+           ;
+       res_size += (i+3); /* we'll add / between later .. */
+        stack[e] = (char *) nmem_malloc(data1_nmem_get(dh), i+1);
+       s = stack[e];
+       for (j = 0; j < i; j++)
+       {
+           const char *pp = p-i+j;
+           if (*pp == '[')
+               is_predicate=1;
+           else if (*pp == ']')
+               is_predicate=0;
+           else 
+           {
+               if (!is_predicate) {
+                   if (*pp == '*') 
+                       *s++ = '.';
+                   *s++ = *pp;
+               }
+           }
+       }
+       *s = 0;
         e++;
-        if (*p) {p++;}
+        if (*p)
+           p++;
     }
-    e--;  p = &res[0]; i=0;
-    sprintf (p, "^"); p++;
-    while (e >= 0) {
-        /* !!! res size is not checked !!! */
-        sprintf (p, "%s/",stack[e]);
-        p += strlen(stack[e]) + 1;
-        e--;
+    res_p = res = nmem_malloc(data1_nmem_get(dh), res_size + 10);
+
+    *res_p = '\0';
+    if (stack[e-1][0] == '@')  /* path/@attr spec (leaf is attribute) */
+       strcpy(res_p, "/");
+    else
+       strcpy(res_p, "[^@]*/");  /* path .. (index all cdata below it) */
+    res_p = res_p + strlen(res_p);
+    while (--e >= 0) {
+       sprintf(res_p, "%s/", stack[e]);
+       res_p += strlen(stack[e]) + 1;
     }
-    if (!abs) { sprintf (p, ".*"); p+=2; }
-    sprintf (p, "$"); p++;
-    r = nmem_strdup (data1_nmem_get (dh), res);
-    return (r);
+    if (!abs)
+    {
+       sprintf(res_p, ".*"); 
+       res_p += 2;
+    }
+    sprintf (res_p, "$");
+    res_p++;
+    yaz_log(LOG_DEBUG, "Got regexp: %s", res);
+    return res;
 }
 
 /* *ostrich*
@@ -330,28 +372,57 @@ const char * mk_xpath_regexp (data1_handle dh, char *expr)
    pop, 2002-12-13
  */
 static int parse_termlists (data1_handle dh, data1_termlist ***tpp,
-                           char *p, const char *file, int lineno,
+                           char *cp, const char *file, int lineno,
                            const char *element_name, data1_absyn *res,
                            int xpelement)
 {
     data1_termlist **tp = *tpp;
-    do
+    while(1)
     {
        char attname[512], structure[512];
        char *source;
-       int r;
-       
-       if (!(r = sscanf(p, "%511[^:,]:%511[^,]", attname,
-                        structure)))
+       int r, i;
+       int level = 0;
+       structure[0] = '\0';
+       for (i = 0; cp[i] && i<sizeof(attname)-1; i++)
+           if (strchr(":,", cp[i]))
+               break;
+           else
+               attname[i] = cp[i];
+       if (i == 0)
        {
-           yaz_log(LOG_WARN,
-                   "%s:%d: Syntax error in termlistspec '%s'",
-                   file, lineno, p);
-           return -1;
+           if (*cp)
+               yaz_log(LOG_WARN,
+                       "%s:%d: Syntax error in termlistspec '%s'",
+                       file, lineno, cp);
+           break;
        }
+       attname[i] = '\0';
+       r = 1;
+       cp += i;
+       if (*cp == ':')
+           cp++;
+
+       for (i = 0; cp[i] && i<sizeof(structure)-1; i++)
+           if (level == 0 && strchr(",", cp[i]))
+               break;
+           else
+           {
+               structure[i] = cp[i];
+               if (cp[i] == '(')
+                   level++;
+               else if (cp[i] == ')')
+                   level--;
+           }
+       structure[i] = '\0';
+       if (i)
+           r = 2;
+       cp += i;
+       if (*cp)
+           cp++;  /* skip , */
 
        *tp = (data1_termlist *)
-         nmem_malloc(data1_nmem_get(dh), sizeof(**tp));
+           nmem_malloc(data1_nmem_get(dh), sizeof(**tp));
        (*tp)->next = 0;
         
        if (!xpelement) {
@@ -384,11 +455,38 @@ static int parse_termlists (data1_handle dh, data1_termlist ***tpp,
                nmem_strdup (data1_nmem_get (dh), structure);
        tp = &(*tp)->next;
     }
-    while ((p = strchr(p, ',')) && *(++p));
+
     *tpp = tp;
     return 0;
 }
 
+/* quinn
+ * Converts a 'melm' field[$subfield] pattern to a simple xpath
+ */
+static int melm2xpath(char *melm, char *buf)
+{
+    char *dollar;
+    char *field = melm;
+    char *subfield;
+    char *fieldtype;
+    if ((dollar = strchr(melm, '$'))) {
+       *dollar = '\0';
+       subfield = ++dollar;
+    } else
+       subfield = "";
+    if (field[0] == '0' && field[1] == '0')
+       fieldtype = "controlfield";
+    else
+       fieldtype = "datafield";
+    sprintf(buf, "/*/%s[@tag=\"%s\"]", fieldtype, field);
+    if (*subfield) 
+       sprintf(buf + strlen(buf), "/subfield[@code=\"%s\"]", subfield);
+    else if (field[0] != '0' || field[1] != '0')
+       strcat(buf, "/subfield");
+    yaz_log(LOG_DEBUG, "Created xpath: '%s'", buf);
+    return 0;
+}
+
 const char *data1_systag_lookup(data1_absyn *absyn, const char *tag,
                                 const char *default_value)
 {
@@ -399,6 +497,48 @@ const char *data1_systag_lookup(data1_absyn *absyn, const char *tag,
     return default_value;
 }
 
+#define l_isspace(c) ((c) == '\t' || (c) == ' ' || (c) == '\n' || (c) == '\r')
+
+int read_absyn_line(FILE *f, int *lineno, char *line, int len,
+                   char *argv[], int num)
+{
+    char *p;
+    int argc;
+    int quoted = 0;
+    
+    while ((p = fgets(line, len, f)))
+    {
+       (*lineno)++;
+       while (*p && l_isspace(*p))
+           p++;
+       if (*p && *p != '#')
+           break;
+    }
+    if (!p)
+       return 0;
+    
+    for (argc = 0; *p ; argc++)
+    {
+       if (*p == '#')  /* trailing comment */
+           break;
+       argv[argc] = p;
+       while (*p && !(l_isspace(*p) && !quoted)) {
+         if (*p =='"') quoted = 1 - quoted;
+         if (*p =='[') quoted = 1;
+         if (*p ==']') quoted = 0;
+         p++;
+       }
+       if (*p)
+       {
+           *(p++) = '\0';
+           while (*p && l_isspace(*p))
+               p++;
+       }
+    }
+    return argc;
+}
+
+
 data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
                                int file_must_exist)
 {
@@ -451,7 +591,7 @@ data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
     res->main_elements = NULL;
     res->xp_elements = NULL;
     
-    while (f && (argc = readconf_line(f, &lineno, line, 512, argv, 50)))
+    while (f && (argc = read_absyn_line(f, &lineno, line, 512, argv, 50)))
     {
        char *cmd = *argv;
        if (!strcmp(cmd, "elm") || !strcmp(cmd, "element"))
@@ -582,23 +722,35 @@ data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
           maybe we should use a simple sscanf instead of dfa?
            
           pop, 2002-12-13
+
+          Now [] predicates are supported. regexps and xpath structure is
+          a bit redundant, however it's comfortable later...
+
+          pop, 2003-01-17
        */
 
-       else if (!strcmp(cmd, "xelm")) {
+       else if (!strcmp(cmd, "xelm") || !strcmp(cmd, "melm")) {
 
            int i;
            char *p, *xpath_expr, *termlists;
            const char *regexp;
-           int type, value;
            struct DFA *dfa = dfa = dfa_init();
            data1_termlist **tp;
+           char melm_xpath[128];
             
            if (argc < 3)
            {
                yaz_log(LOG_WARN, "%s:%d: Bad # of args to xelm", file, lineno);
                continue;
            }
-           xpath_expr = argv[1];
+           
+           if (!strcmp(cmd, "melm")) {
+               if (melm2xpath(argv[1], melm_xpath) < 0)
+                   continue;
+               xpath_expr = melm_xpath;
+           } else {
+               xpath_expr = argv[1];
+           }
            termlists = argv[2];
            regexp = mk_xpath_regexp(dh, xpath_expr);
            i = dfa_parse (dfa, &regexp);
@@ -624,7 +776,17 @@ data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
            
            dfa_mkstate (dfa);
            cur_xpelement->dfa = dfa;
+
+#ifdef ENHANCED_XELM 
+            cur_xpelement->xpath_len =
+                zebra_parse_xpath_str(xpath_expr, 
+                                      cur_xpelement->xpath, XPATH_STEP_COUNT,
+                                      data1_nmem_get(dh));
             
+           /*
+           dump_xp_steps(cur_xpelement->xpath,cur_xpelement->xpath_len);
+           */
+#endif
            cur_xpelement->termlists = 0;
            tp = &cur_xpelement->termlists;
             
@@ -873,7 +1035,6 @@ data1_absyn *data1_read_absyn (data1_handle dh, const char *file,
        }
         else if (!strcmp(cmd, "systag"))
         {
-            struct data1_systag *st;
             if (argc != 3)
             {
                yaz_log(LOG_WARN, "%s:%d: Bad # or args for systag",