REPO-1525: PdfBoxMetadataExtracterTest failures on all DBs (including main PostgreSQL build)

- Moved the concurrent test to a separate class - ConcurrencyPdfBoxMetadataExtracterTest - It is now utilizing an overridden extractor with a configurable timeout. git-svn-id: https://svn.alfresco.com/repos/alfresco-enterprise/alfresco/BRANCHES/DEV/5.2.N/root@132690 c4b6b30b-aa2e-2d43-bbcb-ca4b014f7261
2025-10-08 14:51:49 +00:00 · 2016-11-10 18:46:46 +00:00
parent c9f08144b0
commit 52d8d9cf59
4 changed files with 191 additions and 92 deletions
--- a/source/test-java/org/alfresco/repo/content/ContentMinimalContextTestSuite.java
+++ b/source/test-java/org/alfresco/repo/content/ContentMinimalContextTestSuite.java
@@ -29,18 +29,7 @@ import junit.framework.JUnit4TestAdapter;
 import junit.framework.Test;
 import junit.framework.TestSuite;
-import org.alfresco.repo.content.metadata.DWGMetadataExtracterTest;
+import org.alfresco.repo.content.metadata.*;
 import org.alfresco.repo.content.metadata.HtmlMetadataExtracterTest;
 import org.alfresco.repo.content.metadata.MP3MetadataExtracterTest;
 import org.alfresco.repo.content.metadata.MailMetadataExtracterTest;
 import org.alfresco.repo.content.metadata.MetadataExtracterLimitsTest;
 import org.alfresco.repo.content.metadata.OfficeMetadataExtracterTest;
 import org.alfresco.repo.content.metadata.OpenDocumentMetadataExtracterTest;
 import org.alfresco.repo.content.metadata.OpenOfficeMetadataExtracterTest;
 import org.alfresco.repo.content.metadata.PdfBoxMetadataExtracterTest;
 import org.alfresco.repo.content.metadata.PoiMetadataExtracterTest;
 import org.alfresco.repo.content.metadata.RFC822MetadataExtracterTest;
 import org.alfresco.repo.content.metadata.TikaAutoMetadataExtracterTest;
 import org.alfresco.repo.content.transform.AbstractContentTransformerLimitsTest;
 import org.alfresco.repo.content.transform.AppleIWorksContentTransformerTest;
 import org.alfresco.repo.content.transform.BinaryPassThroughContentTransformerTest;
@@ -121,6 +110,7 @@ public class ContentMinimalContextTestSuite extends TestSuite
       suite.addTestSuite( OpenDocumentMetadataExtracterTest.class );
       suite.addTestSuite( OpenOfficeMetadataExtracterTest.class );
       suite.addTestSuite( PdfBoxMetadataExtracterTest.class );
       suite.addTestSuite( ConcurrencyPdfBoxMetadataExtracterTest.class );
       suite.addTestSuite( PoiMetadataExtracterTest.class );
       suite.addTestSuite( RFC822MetadataExtracterTest.class );
       suite.addTestSuite( TikaAutoMetadataExtracterTest.class );
--- a/source/test-java/org/alfresco/repo/content/metadata/ConcurrencyPdfBoxMetadataExtracterTest.java
+++ b/source/test-java/org/alfresco/repo/content/metadata/ConcurrencyPdfBoxMetadataExtracterTest.java
@@ -0,0 +1,153 @@
 /*
 * #%L
 * Alfresco Repository
 * %%
 * Copyright (C) 2005 - 2016 Alfresco Software Limited
 * %%
 * This file is part of the Alfresco software.
 * If the software was purchased under a paid Alfresco license, the terms of
 * the paid license agreement will prevail.  Otherwise, the software is
 * provided under the following open source license terms:
 *
 * Alfresco is free software: you can redistribute it and/or modify
 * it under the terms of the GNU Lesser General Public License as published by
 * the Free Software Foundation, either version 3 of the License, or
 * (at your option) any later version.
 *
 * Alfresco is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 * GNU Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public License
 * along with Alfresco. If not, see <http://www.gnu.org/licenses/>.
 * #L%
 */
 package org.alfresco.repo.content.metadata;
 import org.alfresco.repo.content.MimetypeMap;
 import org.alfresco.service.cmr.repository.ContentReader;
 import org.alfresco.service.namespace.QName;
 import java.io.Serializable;
 import java.util.HashMap;
 import java.util.Map;
 import java.util.concurrent.ConcurrentHashMap;
 /**
 * The test designed for testing the concurrent limitations in
 * {@link AbstractMappingMetadataExtracter#extractRaw(ContentReader, MetadataExtracterLimits)}
 *
 * @author amukha
 */
 public class ConcurrencyPdfBoxMetadataExtracterTest extends AbstractMetadataExtracterTest
 {
    private SlowPdfBoxMetadataExtracter extracter;
    private static final int MAX_CONCURENT_EXTRACTIONS = 5;
    private static final double MAX_DOC_SIZE_MB = 0.03;
    private static final int NUMBER_OF_CONCURRENT_THREADS = 11;
    @Override
    public void setUp() throws Exception
    {
        super.setUp();
        extracter = new SlowPdfBoxMetadataExtracter();
        extracter.setDictionaryService(dictionaryService);
        MetadataExtracterLimits pdfLimit = new MetadataExtracterLimits();
        pdfLimit.setMaxConcurrentExtractionsCount(MAX_CONCURENT_EXTRACTIONS);
        pdfLimit.setMaxDocumentSizeMB(MAX_DOC_SIZE_MB);
        Map<String,MetadataExtracterLimits> limits = new HashMap<>();
        limits.put(MimetypeMap.MIMETYPE_PDF,pdfLimit);
        extracter.setMimetypeLimits(limits);
        extracter.setDelay(30*NUMBER_OF_CONCURRENT_THREADS);
        extracter.register();
    }
    /**
     * @return Returns the same transformer regardless - it is allowed
     */
    protected MetadataExtracter getExtracter()
    {
        return extracter;
    }
    protected void testFileSpecificMetadata(String mimetype, Map<QName, Serializable> properties)
    {
        // not required
    }
    public void testConcurrentExtractions() throws InterruptedException
    {
        final Map<String, Boolean> threadResults = new ConcurrentHashMap<>();
        for (int i = 0; i < NUMBER_OF_CONCURRENT_THREADS; i++)
        {
            new Thread(new Runnable()
            {
                @Override
                public void run()
                {
                    System.out.println(Thread.currentThread().getName() + " started " + System.currentTimeMillis());
                    try
                    {
                        Map<QName, Serializable> results = extractFromMimetype(MimetypeMap.MIMETYPE_PDF);
                        System.out.println(Thread.currentThread().getName() + " results are " + results);
                        threadResults.put(Thread.currentThread().getName(), !results.isEmpty());
                    }
                    catch (Exception e)
                    {
                        e.printStackTrace();
                    }
                    System.out.println(Thread.currentThread().getName() + " finished " + System.currentTimeMillis());
                }
            }).start();
        }
        int numWaits = NUMBER_OF_CONCURRENT_THREADS*10;
        while (numWaits > 0)
        {
            Thread.sleep(50);
            if (threadResults.size() == NUMBER_OF_CONCURRENT_THREADS)
            {
                break;
            }
            numWaits--;
        }
        Map<Boolean, Integer> counted = new HashMap<>();
        counted.put(Boolean.FALSE, 0);
        counted.put(Boolean.TRUE, 0);
        for (Boolean result : threadResults.values())
        {
            counted.put(result, counted.get(result)+1);
        }
        assertEquals("Wrong number of failed extractions.",
                new Integer(NUMBER_OF_CONCURRENT_THREADS - MAX_CONCURENT_EXTRACTIONS),
                counted.get(Boolean.FALSE));
        assertEquals("Wrong number of successful extractions.",
                new Integer(MAX_CONCURENT_EXTRACTIONS),
                counted.get(Boolean.TRUE));
    }
    private class SlowPdfBoxMetadataExtracter extends PdfBoxMetadataExtracter
    {
        private long delay = 0;
        public void setDelay(long delay)
        {
            this.delay = delay;
        }
        @Override
        protected Map<String, Serializable> extractRaw(ContentReader reader) throws Throwable
        {
            Thread.sleep(delay);
            Map<String, Serializable> results = super.extractRaw(reader);
            System.out.println(Thread.currentThread().getName() + " results are " + results);
            return results;
        }
    }
 }
--- a/source/test-java/org/alfresco/repo/content/metadata/PdfBoxMetadataExtracterTest.java
+++ b/source/test-java/org/alfresco/repo/content/metadata/PdfBoxMetadataExtracterTest.java
@@ -31,7 +31,6 @@ import java.io.Serializable;
 import java.util.Calendar;
 import java.util.HashMap;
 import java.util.Map;
 import java.util.concurrent.ConcurrentHashMap;
 import org.alfresco.model.ContentModel;
 import org.alfresco.repo.content.MimetypeMap;
@@ -125,60 +124,6 @@ public class PdfBoxMetadataExtracterTest extends AbstractMetadataExtracterTest
       //assertEquals(0, c.get(Calendar.MILLISECOND));
    }
    public void testConcurrentExtractions() throws InterruptedException
    {
        final int threadNum = 11;
        final Map<String, Boolean> threadResults = new ConcurrentHashMap<>();
        for (int i = 0; i < threadNum; i++)
        {
            new Thread(new Runnable()
            {
                @Override
                public void run()
                {
                    try
                    {
                        Map<QName, Serializable> results = extractFromMimetype(MimetypeMap.MIMETYPE_PDF);
                        if(!results.isEmpty())
                        {
                            // delay successful transformations to help all threads to start in time
                            Thread.sleep(5*threadNum);
                        }
                        threadResults.put(Thread.currentThread().getName(), !results.isEmpty());
                    }
                    catch (Exception e)
                    {
                        e.printStackTrace();
                    }
                }
            }).start();
        }
        int numWaits = 100;
        while (numWaits > 0)
        {
            Thread.sleep(50);
            if (threadResults.size() == threadNum)
            {
                break;
            }
            numWaits--;
        }
        Map<Boolean, Integer> counted = new HashMap<>();
        counted.put(Boolean.FALSE, 0);
        counted.put(Boolean.TRUE, 0);
        for (Boolean result : threadResults.values())
        {
            counted.put(result, counted.get(result)+1);
        }
        assertEquals("Wrong number of failed extractions.",
                new Integer(threadNum - MAX_CONCURENT_EXTRACTIONS),
                counted.get(Boolean.FALSE));
        assertEquals("Wrong number of successful extractions.",
                new Integer(MAX_CONCURENT_EXTRACTIONS),
                counted.get(Boolean.TRUE));
    }
    public void testMaxDocumentSizeLimit() throws Exception
    {
        File sourceFile = AbstractContentTransformerTest.loadNamedQuickTestFile("quick-size-limit.pdf");
--- a/source/test-resources/alfresco/metadata/ConcurrencyPdfBoxMetadataExtracterTest-SlowPdfBoxMetadataExtracter.properties
+++ b/source/test-resources/alfresco/metadata/ConcurrencyPdfBoxMetadataExtracterTest-SlowPdfBoxMetadataExtracter.properties
@@ -0,0 +1,11 @@
 #
 # Copied form PdfBoxMetadataExtracter
 #
 # Namespaces
 namespace.prefix.cm=http://www.alfresco.org/model/content/1.0
 # Mappings
 author=cm:author
 title=cm:title
 subject=cm:description
 created=cm:created