Springmann, Michael. Building blocks for adaptable image search in digital libraries. 2014, Doctoral Thesis, University of Basel, Faculty of Science.
|
PDF
101Mb |
Official URL: http://edoc.unibas.ch/diss/DissB_10770
Downloads: Statistics Overview
Abstract
Abstract: With the availability of easy and inexpensive methods to create and store images in digital formats, the visual information preserved and shared electronically has grown dramatically.
As images are important means to archive, express, and communicate human knowledge, experience, and feelings it is desirable or even unavoidable that digital libraries do not contain only textual information, but also such images.
One central aspect of digital libraries is the ability, to make its content easily available to its users and therefore also to provide adequate retrieval mechanisms for image-related search tasks.
Traditional text- and metadata-based approaches are not sufficient as personal digital libraries as well as automatically acquired image collections commonly lack detailed descriptions that could be used in searches.
To better support image search in digital libraries also methods from content-based image retrieval (CBIR) are needed: CBIR provides mechanisms to search for images by using the image content itself and compare the images with (visual) input the user provides and ranking the results based on similarity.
The aim of this thesis is to identify, implement, and evaluate building blocks that can be used to build digital libraries with the ability to perform similarity search for images in addition to traditional approaches.
This thesis follows a top-down approach and has three main contributions:
First, we introduce the Image Task Model (ITM) to characterize the user's intention in image-related search tasks.
This new model integrates and refines pre-existing models into one concise model for interaction intentions.
It considers the user's Task Input and Aim, Matching Tolerance, and intended Result Usage.
Second, we use ITM to identify conceptual building blocks that provide the required functionality in digital libraries to support CBIR and similarity search in general: Content Management, Query Formulation and Execution, and User Interaction. These conceptual building blocks and their interactions are analyzed and a comprehensive survey reviews state-of-the-art approaches to which extent they can support search tasks on the basis of ITM to identify strong and weak spots.
Third, we present a detailed discussion of selected building blocks together with our own implementations that extend and improve state-of-the-art approaches to better support similarity searches for images in digital libraries.
The key principal that we follow is adjusting the matching tolerance to the needs of a task, such that existing building blocks can be reused and optimized for different application domains.
To demonstrate the reusability, we show prototypical implementations of complete digital library systems based on our building blocks for three different domains:
automatic classification of medical images, sketch-based search for known images, and retrospective geotagging of images.
This thesis therefore supports future development of digital libraries with image search functionality from the early stage of understanding the user requirements through characterizing user tasks in ITM over the selection of appropriate conceptual building blocks for providing the required functionality to finally implement entire systems with the potential to reuse existing building blocks.---------- Zusammenfassung: Mit der Verfügbarkeit von einfachen und kostengünstigen Methoden zur Erzeugung und Speicherung von Bildern in digitaler Form ist die Menge an visueller Information dramatisch angewachsen, welche elektronisch aufbewahrt und geteilt wird.
Bilder stellen ein wichtiges Medium dar um das menschliche Wissen, Erfahrungen und Gefühlen zu bewahren, auszudrücken und zu kommunizieren. Daher ist es wünschenswert oder sogar unausweichlich, dass digitale Bibliotheken nicht nur textuelle Informationen enthalten, sondern auch Bilder.
Ein zentraler Aspekt digitaler Bibliotheken stellt die Fähigkeit dar, ihre Inhalte den Anwendern leicht zugänglich zu machen. Hierfür müssen also auch angemessene Suchmechanismen für Aufgaben angeboten werden, welche bildbezogene Suchen beinhalten.
Traditionelle text- und metadaten-orientierte Ansätze reichen hierfür nicht, da für persönliche wie auch automatisch zusammengestellten Bildkollektionen gewöhnlich detaillierten Beschreibungstexten fehlen, welche in Suchvorgängen genutzt werden könnten.
Um Bildsuchen besser in digitalen Bibliotheken zu unterstützen benötigt es auch Methoden der inhaltsbasierten Bildsuche (engl. Content-based image retrieval oder kurz CBIR): CBIR bietet Mechanismen um Bilder alleine anhand ihres Inhalts zu finden und die Bilder anhand (visueller) Angaben des Anwenders zu vergleichen sowie die Resultate nach deren Ähnlichkeit zu diesen Angaben zu bewerten und ordnen.
Das Ziel dieser Arbeit besteht darin, Bausteine zu identifizieren, zu erstellen und zu evaluieren welche genutzt werden können, um digitale Bibliotheken mit der Fähigkeit zu schaffen, Ähnlichkeitssuche für Bilder zusätzlich zu den traditionellen Ansätzen zu ermöglichen.
Diese Arbeit folgt einem Top-Down-Ansatz und umfasst drei Hauptbeiträge:
Als erstes führen wir ein neues Modell zur Charakterisierung von bildbezogenen Suchaufgaben -genannt Image Task Model (ITM)- ein.
Dieses Modell integriert und verfeinert bestehende Modelle in ein einziges, präzises Modell für Interaktionsabsichten.
Es bezieht die möglichen Angaben und Ziele des Nutzers (engl. Task Input and Aim), die erlaubten Abweichungen von den Eingaben (engl. Matching Tolerance) sowie die angestrebte Verwendung der Resultate durch den Nutzer (engl. Result Usage) ein.
Zweitens nutzen wir ITM um konzeptuellen Bausteine zu ermitteln, welche die benötigte Funktionalität zur inhaltsbasierte Bildsuche und Ähnlichkeitssuche im Allgemeinen in Digitalbibliotheken anbieten: Inhaltsverwaltung, Anfrageformulierung und -ausführung und Benutzerinteraktion.
Diese konzeptuellen Bausteine und ihre wechselseitigen Bezeigungen und Abhängigkeiten werden untersucht und eine umfassende Übersicht zum Stand der Forschung auf diesem Gebiet erstellt, welche auf Grundlage von ITM die Fähigkeit zur Unterstützung bei Suchaufgaben von existierenden Ansätze bewertet und dabei Stärken und Schwächen aufzeigt.
Drittens präsentieren wir eine detaillierte Diskussion von ausgewählten Bausteinen zusammen mit unserer Implementierung dieser, welche die bestehenden Ansätze erweitert und verbessert um dadurch Bildähnlichkeitssuchen in Digitalbibliotheken besser zu unterstützen.
Das Hauptprinzip welches wir hierzu verfolgen ist die Anpassung der erlaubten Abweichung der Benutzerangaben an die Bedürfnisse einer Aufgabe, so dass existierende Bausteine für verschiedene Anwendungsgebiete wiederverwendet und optimiert werden können.
Diese Wiederverwendbarkeit demonstrieren wir anhand prototypischer Implementierungen von kompletten Digitalbibliotheksystemen für drei unterschiedlichen Anwendungsgebieten:
automatische Klassifikation medizinischer Bildern, Suche bekannter Bilder mittels gezeichneter Skizzen und das nachträgliche Zuweisen von Geokoordinaten zu Bildern.
Diese Arbeit unterstützt somit die zukünftige Entwicklung von digitalen Bibliotheken welche Bildsuchfunktionalität anbieten beginnend mit dem frühen Stadium des Erfassens der Nutzeranforderung durch die Charakterisierung der Benutzeraufgaben mittels ITM, über die Auswahl geeigneter konzeptueller Bausteine welche die benötigte Funktionalität bieten, bis schliesslich hin zur Implementierung kompletter Systeme welche in der Wiederverwendung existierender Bausteine gipfeln kann.
As images are important means to archive, express, and communicate human knowledge, experience, and feelings it is desirable or even unavoidable that digital libraries do not contain only textual information, but also such images.
One central aspect of digital libraries is the ability, to make its content easily available to its users and therefore also to provide adequate retrieval mechanisms for image-related search tasks.
Traditional text- and metadata-based approaches are not sufficient as personal digital libraries as well as automatically acquired image collections commonly lack detailed descriptions that could be used in searches.
To better support image search in digital libraries also methods from content-based image retrieval (CBIR) are needed: CBIR provides mechanisms to search for images by using the image content itself and compare the images with (visual) input the user provides and ranking the results based on similarity.
The aim of this thesis is to identify, implement, and evaluate building blocks that can be used to build digital libraries with the ability to perform similarity search for images in addition to traditional approaches.
This thesis follows a top-down approach and has three main contributions:
First, we introduce the Image Task Model (ITM) to characterize the user's intention in image-related search tasks.
This new model integrates and refines pre-existing models into one concise model for interaction intentions.
It considers the user's Task Input and Aim, Matching Tolerance, and intended Result Usage.
Second, we use ITM to identify conceptual building blocks that provide the required functionality in digital libraries to support CBIR and similarity search in general: Content Management, Query Formulation and Execution, and User Interaction. These conceptual building blocks and their interactions are analyzed and a comprehensive survey reviews state-of-the-art approaches to which extent they can support search tasks on the basis of ITM to identify strong and weak spots.
Third, we present a detailed discussion of selected building blocks together with our own implementations that extend and improve state-of-the-art approaches to better support similarity searches for images in digital libraries.
The key principal that we follow is adjusting the matching tolerance to the needs of a task, such that existing building blocks can be reused and optimized for different application domains.
To demonstrate the reusability, we show prototypical implementations of complete digital library systems based on our building blocks for three different domains:
automatic classification of medical images, sketch-based search for known images, and retrospective geotagging of images.
This thesis therefore supports future development of digital libraries with image search functionality from the early stage of understanding the user requirements through characterizing user tasks in ITM over the selection of appropriate conceptual building blocks for providing the required functionality to finally implement entire systems with the potential to reuse existing building blocks.---------- Zusammenfassung: Mit der Verfügbarkeit von einfachen und kostengünstigen Methoden zur Erzeugung und Speicherung von Bildern in digitaler Form ist die Menge an visueller Information dramatisch angewachsen, welche elektronisch aufbewahrt und geteilt wird.
Bilder stellen ein wichtiges Medium dar um das menschliche Wissen, Erfahrungen und Gefühlen zu bewahren, auszudrücken und zu kommunizieren. Daher ist es wünschenswert oder sogar unausweichlich, dass digitale Bibliotheken nicht nur textuelle Informationen enthalten, sondern auch Bilder.
Ein zentraler Aspekt digitaler Bibliotheken stellt die Fähigkeit dar, ihre Inhalte den Anwendern leicht zugänglich zu machen. Hierfür müssen also auch angemessene Suchmechanismen für Aufgaben angeboten werden, welche bildbezogene Suchen beinhalten.
Traditionelle text- und metadaten-orientierte Ansätze reichen hierfür nicht, da für persönliche wie auch automatisch zusammengestellten Bildkollektionen gewöhnlich detaillierten Beschreibungstexten fehlen, welche in Suchvorgängen genutzt werden könnten.
Um Bildsuchen besser in digitalen Bibliotheken zu unterstützen benötigt es auch Methoden der inhaltsbasierten Bildsuche (engl. Content-based image retrieval oder kurz CBIR): CBIR bietet Mechanismen um Bilder alleine anhand ihres Inhalts zu finden und die Bilder anhand (visueller) Angaben des Anwenders zu vergleichen sowie die Resultate nach deren Ähnlichkeit zu diesen Angaben zu bewerten und ordnen.
Das Ziel dieser Arbeit besteht darin, Bausteine zu identifizieren, zu erstellen und zu evaluieren welche genutzt werden können, um digitale Bibliotheken mit der Fähigkeit zu schaffen, Ähnlichkeitssuche für Bilder zusätzlich zu den traditionellen Ansätzen zu ermöglichen.
Diese Arbeit folgt einem Top-Down-Ansatz und umfasst drei Hauptbeiträge:
Als erstes führen wir ein neues Modell zur Charakterisierung von bildbezogenen Suchaufgaben -genannt Image Task Model (ITM)- ein.
Dieses Modell integriert und verfeinert bestehende Modelle in ein einziges, präzises Modell für Interaktionsabsichten.
Es bezieht die möglichen Angaben und Ziele des Nutzers (engl. Task Input and Aim), die erlaubten Abweichungen von den Eingaben (engl. Matching Tolerance) sowie die angestrebte Verwendung der Resultate durch den Nutzer (engl. Result Usage) ein.
Zweitens nutzen wir ITM um konzeptuellen Bausteine zu ermitteln, welche die benötigte Funktionalität zur inhaltsbasierte Bildsuche und Ähnlichkeitssuche im Allgemeinen in Digitalbibliotheken anbieten: Inhaltsverwaltung, Anfrageformulierung und -ausführung und Benutzerinteraktion.
Diese konzeptuellen Bausteine und ihre wechselseitigen Bezeigungen und Abhängigkeiten werden untersucht und eine umfassende Übersicht zum Stand der Forschung auf diesem Gebiet erstellt, welche auf Grundlage von ITM die Fähigkeit zur Unterstützung bei Suchaufgaben von existierenden Ansätze bewertet und dabei Stärken und Schwächen aufzeigt.
Drittens präsentieren wir eine detaillierte Diskussion von ausgewählten Bausteinen zusammen mit unserer Implementierung dieser, welche die bestehenden Ansätze erweitert und verbessert um dadurch Bildähnlichkeitssuchen in Digitalbibliotheken besser zu unterstützen.
Das Hauptprinzip welches wir hierzu verfolgen ist die Anpassung der erlaubten Abweichung der Benutzerangaben an die Bedürfnisse einer Aufgabe, so dass existierende Bausteine für verschiedene Anwendungsgebiete wiederverwendet und optimiert werden können.
Diese Wiederverwendbarkeit demonstrieren wir anhand prototypischer Implementierungen von kompletten Digitalbibliotheksystemen für drei unterschiedlichen Anwendungsgebieten:
automatische Klassifikation medizinischer Bildern, Suche bekannter Bilder mittels gezeichneter Skizzen und das nachträgliche Zuweisen von Geokoordinaten zu Bildern.
Diese Arbeit unterstützt somit die zukünftige Entwicklung von digitalen Bibliotheken welche Bildsuchfunktionalität anbieten beginnend mit dem frühen Stadium des Erfassens der Nutzeranforderung durch die Charakterisierung der Benutzeraufgaben mittels ITM, über die Auswahl geeigneter konzeptueller Bausteine welche die benötigte Funktionalität bieten, bis schliesslich hin zur Implementierung kompletter Systeme welche in der Wiederverwendung existierender Bausteine gipfeln kann.
Advisors: | Schuldt, Heiko |
---|---|
Committee Members: | Del Bimbo, Alberto |
Faculties and Departments: | 05 Faculty of Science > Departement Mathematik und Informatik > Informatik > Databases and Information Systems (Schuldt) |
UniBasel Contributors: | Springmann, Michael and Schuldt, Heiko |
Item Type: | Thesis |
Thesis Subtype: | Doctoral Thesis |
Thesis no: | 10770 |
Thesis status: | Complete |
Number of Pages: | 484 S. |
Language: | English |
Identification Number: |
|
edoc DOI: | |
Last Modified: | 02 Aug 2021 15:10 |
Deposited On: | 12 May 2014 13:18 |
Repository Staff Only: item control page