When metadata extraction fails, perform the same check that content transformation now does, and give a more helpful error message if the mime type is wrong on the content

git-svn-id: https://svn.alfresco.com/repos/alfresco-enterprise/alfresco/HEAD/root@22878 c4b6b30b-aa2e-2d43-bbcb-ca4b014f7261
2025-07-31 17:39:05 +00:00 · 2010-10-05 11:04:55 +00:00
parent f62629d5d4
commit e08fd4e940
3 changed files with 18 additions and 58 deletions
--- a/source/java/org/alfresco/repo/action/executer/TransformActionExecuterTest.java
+++ b/source/java/org/alfresco/repo/action/executer/TransformActionExecuterTest.java
@@ -25,6 +25,7 @@ import java.util.Map;

 import org.alfresco.repo.content.MimetypeMap;
 import org.alfresco.repo.content.encoding.ContentCharsetFinder;
+import org.alfresco.service.cmr.repository.ContentReader;
 import org.alfresco.service.cmr.repository.MimetypeService;
 import org.junit.Test;

@@ -106,4 +107,5 @@ class DummyMimetypeService implements MimetypeService
    public Map<String, String> getMimetypesByExtension()  { return null; }
    public String guessMimetype(String filename)          { return null; }
    public boolean isText(String mimetype)                { return false;}
+    public String getMimetypeIfNotMatches(ContentReader reader) { return null; }
 }
--- a/source/java/org/alfresco/repo/content/metadata/AbstractMappingMetadataExtracter.java
+++ b/source/java/org/alfresco/repo/content/metadata/AbstractMappingMetadataExtracter.java
@@ -660,12 +660,24 @@ abstract public class AbstractMappingMetadataExtracter implements MetadataExtrac
        }
        catch (Throwable e)
        {
+            // Ask Tika to detect the document, and report back on if
+            //  the current mime type is plausible
+            String typeErrorMessage = null;
+            String differentType = mimetypeService.getMimetypeIfNotMatches(reader.getReader());
+            if(differentType != null)
+            {
+               typeErrorMessage = "\n" +
+                  "   claimed mime type: " + reader.getMimetype() + "\n" +
+                  "   detected mime type: " + differentType;
+            }
+           
            if (logger.isDebugEnabled())
            {
                logger.debug(
                        "Metadata extraction failed: \n" +
                        "   Extracter: " + this + "\n" +
-                        "   Content:   " + reader,
+                        "   Content:   " + reader +
+                        typeErrorMessage,
                        e);
            }
            else
@@ -674,7 +686,8 @@ abstract public class AbstractMappingMetadataExtracter implements MetadataExtrac
                        "Metadata extraction failed (turn on DEBUG for full error): \n" +
                        "   Extracter: " + this + "\n" +
                        "   Content:   " + reader + "\n" +
-                        "   Failure:   " + e.getMessage());
+                        "   Failure:   " + e.getMessage() +
+                        typeErrorMessage);
            }
        }
        finally
--- a/source/java/org/alfresco/repo/content/transform/AbstractContentTransformer2.java
+++ b/source/java/org/alfresco/repo/content/transform/AbstractContentTransformer2.java
@@ -27,9 +27,6 @@ import org.alfresco.service.cmr.repository.ContentWriter;
 import org.alfresco.service.cmr.repository.TransformationOptions;
 import org.apache.commons.logging.Log;
 import org.apache.commons.logging.LogFactory;
-import org.apache.tika.config.TikaConfig;
-import org.apache.tika.metadata.Metadata;
-import org.apache.tika.mime.MediaType;

 /**
 * Provides basic services for {@link org.alfresco.repo.content.transform.ContentTransformer}
@@ -49,8 +46,6 @@ public abstract class AbstractContentTransformer2 extends ContentTransformerHelp
    private double averageTime = 0.0;
    private long count = 0L;
    
-    private TikaConfig tikaConfig;
-    
    /**
     * All transformers start with an average transformation time of 0.0ms.
     */
@@ -174,7 +169,7 @@ public abstract class AbstractContentTransformer2 extends ContentTransformerHelp
            
            // Ask Tika to detect the document, and report back on if
            //  the current mime type is plausible
-            String differentType = checkMimeTypeMatches(reader.getReader());
+            String differentType = getMimetypeService().getMimetypeIfNotMatches(reader.getReader());
    
            // Report the error
            if(differentType == null)
@@ -269,54 +264,4 @@ public abstract class AbstractContentTransformer2 extends ContentTransformerHelp
        double diffTime = ((double) transformationTime) - averageTime;
        averageTime += diffTime / (double) count;
    }
-    
-    /**
-     * Use Apache Tika to check if the mime type of the document really matches
-     *  what it claims to be.
-     * This is typically used when a transformation fails, and you want to know
-     *  if someone has renamed a file and consequently it has the wrong mime type. 
-     * @return Null if the mime type seems ok, otherwise the mime type it probably is
-     */
-    protected String checkMimeTypeMatches(ContentReader reader)
-    {
-       if(tikaConfig == null)
-       {
-          try {
-             tikaConfig = TikaConfig.getDefaultConfig();
-          } catch(Exception e) {
-             logger.warn("Error creating Tika detector", e);
-             return null;
-          }
-       }
-       
-       Metadata metadata = new Metadata();
-       MediaType type;
-       try {
-          type = tikaConfig.getMimeRepository().detect(
-                reader.getContentInputStream(), metadata
-          );
-          logger.debug(reader + " detected by Tika as being " + type.toString());
-       } catch(Exception e) {
-          logger.warn("Error identifying content type of problem document", e);
-          return null;
-       }
-       
-       // Is it a good match?
-       if(type.toString().equals(reader.getMimetype())) 
-       {
-          return null;
-       }
-       
-       // Is it close?
-       MediaType claimed = MediaType.parse(reader.getMimetype());
-       if(tikaConfig.getMediaTypeRegistry().isSpecializationOf(claimed, type) ||
-          tikaConfig.getMediaTypeRegistry().isSpecializationOf(type, claimed))
-       {
-          // Probably close enough
-          return null;
-       }
-       
-       // If we get here, then most likely the type is wrong
-       return type.toString();
-    }
 }