The background of this work emphasizes the significance of data privacy in safeguarding individual rights amid the growing misuse of personal data, under- scoring its role in preserving democratic principles and personal freedoms. This problem has been present for centuries, but with the evolution of technology, its effect increased significantly and has become frequent in many industries, including health care. Even though the Health Insurance Portability and Accountability Act (HIPAA) and the General Data Protection Regulation (GDPR) regulate sensitive data protection, the healthcare industry deals with thousands of data breach incidents reported daily. Therefore, we decided to explore the repercussions of confidentiality breaches in healthcare and answer a pivotal question: Is automatic detection of cases where HIPAA anonymization is not sufficient for GDPR compliance in EHRs achievable? This research question is crucial for protecting sensitive information in medical tourism programs and the clinical services provision across inter- national borders, and to address it, we divided the practical work into three phases. First, our objective was the clinical dataset acquisition, data preprocessing, annotation, and Named Entity Recognition (NER) to identify specific Protected Health Information (PHI) elements of interest belonging to the scope of the work (PATIENT, PHONE, LOCATION, HOSPITAL, ID, DATE, DOCTOR, AGE, NORP, DISEASE, and CHEMICAL). Second, we developed a customized approach combining different anonymization techniques to anonymize the data according to HIPAA and GDPR and reduce the risk of re-identification. Ultimately, we investigated if it is possible to construct a pipeline capable of detecting HIPAA but not GDPR-compliant records under the assumption we previously identified and anonymized all sensitive data. As a result of the first phase, we fine-tuned one unified BERT model, namely emilyalsentzer/Bio ClinicalBERT, capable of identifying 11 PHI entity types of interest (DISEASE, CHEMICAL, PATIENT, DOCTOR, LOCATION, HOSPITAL, PHONE, AGE, ID, DATE, and NORP). After comparing the total number of annotations generated by the model (6,387) and the total number of annotations we manually validated (6,618), the model resulted in an overall accuracy of 96.5%. Moreover, we checked how many entities the model misclassified per PHI type and cautiously estimated our model’s general accuracy to be around 95%. With this assessment in mind and assuming the correctness and reliability of the extracted data of interest, we developed a customized approach to anonymizing PHI of interest, combining tokenization, encryption, and pseudonymization to meet HIPAA and GDPR requirements. Our evaluation of the categorical entity anonymization process has shown that our approach preserves data patterns effectively and meets strict privacy requirements while providing a robust solution for anonymizing 6,518 PHI and ensuring regulatory compliance and data integrity. Conclusively, we recognized the intricate nature of achieving simultaneous HIPAA and GDPR compliance in EHR anonymization since, while identifying records that fall short of compliance in terms of extracted entities or anonymiza- tion techniques is possible, a comprehensive analysis of GDPR compliance remains a multifaceted endeavor and requires expertise knowledge and efforts.

Efficient cost documentation plays a role, in the construction industry when it comes to project management and financial control. We have developed a Cost Documentation Tool specifically tailored to address the challenges faced by this sector based on Austrian standards. The construction industry is known for its complexity involving stakeholders, lengthy project timelines and intricate finan- cial landscapes. Our objective was to create a solution that streamlines cost doc- umentation practices ensuring accuracy, transparency and efficiency throughout the entire project life cycle. To tackle this issue head on we have designed a tool that seamlessly integrates with existing tendering, awarding and billing systems. This integration allows for data synchronization, comprehensive cost documentation, centralized project management and customized reporting. The implementation of our Cost Docu- mentation Tool has resulted in improvements in cost control, data accuracy and decision making capabilities within the construction industry. With real time ac- cess to data and customizable reports at their fingertips project stakeholders can now make decisions based on data insights while effectively identifying cost trends and anomalies. By addressing the challenges of cost documentation with our tools capabilities we have unlocked a new era of efficiency and transparency, in con- struction cost management. Project professionals now have the power to optimize costs effectively while ensuring compliance and fostering collaboration regardless of project size or complexity. This progress has the ability to completely transform the construction sector empowering it to handle projects in a confident manner in the times ahead.

Abstract In this bachelor thesis, a possible correlation between the sentiment bias in lan- guage models and the interaction of a human user with a chatbot, based on differ- ent language models, was evaluated. Touvron et al. (Touvron et al., 2023) stated in their paper that the bias in model generation is a possible result of training the language model with certain biased data. When interacting with the chatbot the user will be greeted with a picture of a certain object and is asked to tell the chat- bot what they see. This study examined if there was a possible correlation between the interaction of the user with a chatbot and the possibility of sentiment bias. It is based on the prototype theory, which states that if there is a certain category of a term, humans tend to use one specific noun more often than others. If you ask a person to name a fruit, the answer will probably be an apple, rather than a pineapple. This paper aims to observe if the language of the user changes to- wards the language that is used by the language model when asked for a prompt in regard to a certain prototype, which is the picture given to the user. During this bachelor’s thesis, we found out that there were some matches between the prototypes of our test subjects and the prototypes of the large language models. Additionally, we observed that Google Bard’s1answers contained a gender bias and were exceptionally long, filled with information that the users found unnecessary while OpenAI’s ChatGPT2 gave shorter, unbiased answers. With the help of this work, researchers can observe a correlation between the bias in human language and the bias of large language models. Furthermore, a relation between the proto- types humans use to describe a specific object or person and the prototype a large language model uses can be detected.

This master’s thesis investigates the nature of causality within AI language models operating in the field of natural language processing (NLP). The core research question centres around comprehending the ability of large language models to infer causal relationships. To delve deeper into this central question, a comprehensive literature review was initiated tracing the roots of the causal relationships, exploring the importance of the ability of the large language models (LLMs) to differ them from correlation relationships, up to the point of discerning the limitations of LLMs in inferring them. This resulted in the framing and exploring four key research inquiries, where four fundamental Open-AI models and two Google models were evaluated through prompting various tasks with different scenarios such as inferring causal relationships from texts containing missing information, analysing texts that express the same causal relationship using different phrasing or vocabulary, examining texts that may possess biases related to gender, race, or other demographic variables, and “what if” questions to rate their counterfactual abilities: well can the large language models infer causality from texts with missing information? Findings indicate that the best-performing models from Open-AI and Google can infer causality from such texts with a 64% success rate. How does the performance of the large language models vary with different phrasing or vocabulary expressing the same causal relationship? The models can identify different phrasings or vocabularies expressing the same causal relationship with a 78% success rate. Can the language models accurately identify and categorize potential biases in their inference of causality related to gender, race, or other demographic variables? The top-performing models can accurately identify and categorize biases at a rate of 50%. What are the limitations of Large Language Models in capturing counterfactual reasoning? The top two models from each company achieve an efficiency of 85% in capturing counterfactual reasoning. The gained insights of this study are destined to contribute to the creation of more accurate and efficient natural language processing applications, as well as to the ethical use of AI language models. This study intent to a greater comprehension of the nature of causality in AI language models and its relevance to natural language processing

Semiconductor companies invest significant resources in R&D to bring competitive products to the market. As market demand changes, the ability to innovate quickly and cost-effectively is a key factor for competitive advantage. Therefore, the goal of this thesis is the creation of a content-based recommender system that suggests IP-Reuse at the beginning of a new project to reduce develop- ment costs. To address this topic, different methods and models such as multilayer perceptrons and sentence transformers have been utilized to create word embeddings for the products, followed by the computation of similarity matrices and the genera- tion of recommendations. Due to the nature of multilayer perceptrons, which are not pre-trained, a proxy task had to be set up to enable the generation of embeddings. This proxy task was also used to facilitate the evaluation of the different solutions by feed- ing the word embeddings into support vector machines and computing scores such as silhouette or f1. The results were visualized and ranked in order to find the most appropriate solution in terms of complexity and variety of recommendations. Finally, a combined approach of the TabTransformer (an extension of a multilayer perceptron) and a sentence transformer model called MPNet was implemented to capture the full variety of available information consisting of tabular data and PDF files. This approach was able to produce more meaningful recommendations than the simple models them- selves and ranked first or second in most evaluation scores. In addition, the results were compared with a simpler baseline model to highlight the capabilities of language models combined with TabTransformer. The Web store constructed, which includes the recommender system, improved the visibility and discoverability of all candidates for IP-Reuse, reducing the time to find relevant information by approximately 20% and the time to market by approximately two percent points.

This thesis is about developing an algorithm to encode black and white patterns in super positions of two and four-qubit systems on a quantum computer provided by IBM Quantum lab using the open-source framework Qiskit (Qiskit, 2023). To accomplish this, the pattern is numbered from the top left to the right bottom. Then the black and white pixels are assigned to the values 0 and 1 respectively, resulting in a binary string representing the original pattern. Afterwards, the algorithm calculates the quantum gates required to manipulate the relative phases of a superposition to store the information of the binary string. Furthermore, for the two and four-qubit systems, a simple neuron was implemented, capable of being trained on a chosen pattern. After the training step is complete, the neuron can correctly identify a new, to this point unseen pattern, which differs from the originally chosen pattern by at most a given number of pixels. For the two-qubit system, this given number is always zero, so only the exact trained pattern passes. The four-qubit system on the other hand can be set to allow a difference of up to 8 pixels, depending on how strict the neuron should be. The nature article An artificial neuron implemented on an actual quantum processor by Francesco Tacchino, Chiara Macchiavello, Dario Gerace and Daniele Bajoni (, 2019a) is the main reference of this thesis. It uses the same principal of storing information and training the neuron, yet the way in which the required quantum gates are calculated is different and was developed independently for this thesis. As a result of this thesis, a functioning patter recognition system with an effectively exponential advantage in memory storage, with the capability of recognizing one out of 32768 patterns can be reported. The major downside however is a possibly unfeasible scalability beyond a small number of qubits and therefore different patterns. Thus, this must be taken as more of a proof of concept, with the need of further investigation, than a real-world application

Software development requires applicants to have knowledge of involved syntax and semantic which can be seen as a barrier for beginners, but it may also challenge experienced programmers. Significantly, while the fine granularity of textual pro- gramming languages allows the expression of very specific aspects, it also comes with the cost of increased complexity. Visual programming languages introduce an interactive, more graphical approach towards a more abstract development experience which may be considered as rapid, more beginner friendly and less error prone. However, implementations of this visual concept, due to neglecting some de- tails, also loose some degree of expressiveness. Therefore, this work proposes zeus as a general-purpose visual programming environment that combines text-based and visual programming techniques to benefit from abstraction methods without compromising on expressiveness. Accordingly, a prototype was implemented to evaluate the concept by developing applications consisting out of a graphical user interfaces and program logic with it. The applications were then exported to a specific target platform to validate the retrieved code. The experiments indicated that textual and visual software development methodologies can complement each other to construct applications serving general purposes in a way beneficial for beginners as well as experienced programmers.

Understanding the movement in urban regions is essential for city and traf- fic planning. Network operators passively collect mobility data, i.e., Cellular Signaling Data (CSD), which provides benefits of daily availability and wide coverage, potentially allowing them to provide similar insights as expensive and time-consuming traditional surveys. The basic motivation of the thesis is to explore the potential of differ- entiating between public and private transport modes using CSD, given its limitations caused by the spatiotemporal uncertainty and the complex multimodal urban environment. Therefore, this work investigated to which extent supervised machine learning is suited for distinguishing public (bus, train, and tram) and private (bicycle, car, and motorcycle) transport modes from Cellular Signaling and GIS data. A segment-wise classification was performed based on engineered fea- tures. For segmentation, a rule-based and a density-based clustering al- gorithm were used. Furthermore, a comparison of tree-based methods (Random Forest and Extreme Gradient Boosting) and a neural network (Multi-Layer Perceptron) is provided. The evaluation was performed on data collected in the city of Graz by 89 users. Among all evaluated methods, Random Forest (RF) achieved the best performance with the Trajectory DBSCAN (T-DBSCAN) segmentation algorithm using four out of 79 extracted features. An overall classification performance of 66% for balanced accuracy and 60% for F1 macro score was obtained.

This master’s thesis investigates the application of Reinforcement Learning (RL) in the context of financial market-making, an area where decisions require strategic balancing between risk and reward. As an integral part of financial markets, market makers facilitate the trade process by providing immediate liquidity to market participants, offering bid and ask prices at which they can place orders. This dynamic and multi-objective problem invites an exploration of RL’s potential to manage these complexities. We begin with an in-depth analysis of the financial market’s operation and the nuanced roles of market makers, while also delineating the dilemmas they face. Then, the focus shifts to RL, detailing its theoretical underpinnings, recent advancements, and its potential applications in the world of finance. Notably, we introduce a Reinforcement Learning based market-making agent and train it in various market scenarios, highlighting RL’s ability to learn and adapt to a highly stochastic environment. This thesis presents a detailed comparison between an RL-based market maker and an Automated Market Maker (AMM), employing a variety of criteria to evaluate their performance. These include factors such as market quality, price stability, and utility (profit) achieved. Our results indicate that the RL-based market maker holds promise in its ability to maintain market quality and price stability, comparable to the AMM. We have shown that the RL-based market maker collected 114% more profits than the AMM, had a 6.97% lesser spread, while also providing a more stable price, by making 91% less quote adjustments. Additionally, it is 74.84% more inventory efficient, require less assets to be held, while performing similar or better. This study’s findings contribute to the growing body of evidence that RL can play a pivotal role in enhancing the capabilities of market makers in financial markets. Building upon these findings, we propose directions for future research, including the introduction of multiple market makers into trading sessions, the incorporation of full limit order books for more realistic market simulations, and improvements in the intelligence of simulated traders. By pursuing these lines of inquiry, we expect to advance our understanding of automated trading and market-making strategies and their impact on financial markets.

Simplified language is gaining an increasing amount of attention in recent years – facilitating clearer and more effective communication simply allows reaching a larger target audience – and recent changes in legislation only further accelerate this development. This thesis focuses on the use of simplified language in short German texts, encom- passing sentences, and short paragraphs. There are three primary aspects of this study (a) sentence alignment, wherein several alignment models are trained and evaluated. (b) The domain of automatic text simplification (ATS) through the design, training, and evaluation of several neural models that aim to produce simplified German text while retaining original meaning and coherence and (c) human evalu- ation of the simplification quality, comparing several quality assessment measures and their correlation to the human evaluation result, with the results indicating a modest correlation between human assessment scores and automatic quality assessment measures. Based on these finding, this thesis proposes a novel metric that holds the potential for a higher correlation with human judgment. This work also underscores the importance of quality assessment in the context of the adoption of Large Language Models (LLMs) for text generation tasks. As LLMs become increasingly prevalent in various applications, this thesis advocates for the rigorous, ongoing development and refinement of quality assessment metrics, ensuring that generated texts meet high standards of clarity, readability, and utility.

The monitoring of complex systems in real-world applications, such as IT operations management, manufacturing industry, and cyber security, fre- quently involves the use of multivariate time series data. Owing to the rapid development of sensing devices, cloud computing, and storage infrastruc- tures, much effort has been recently devoted to different tasks that involve temporal data, like classification, clustering and forecasting. In addition to these tasks, causal discovery, a sub-field of causality, departs from tradi- tional prediction and data mining techniques, and aims at detecting causal relations between many time series, which can be beneficial for explaining the data generation process. The utilization of statistical models that involve weaker assumptions on the underlying generating mechanism of the data constitutes an important goal itself, but also offers a framework to construct reliable and consistent causal structure learning algorithms. This thesis is principally divided into two parts: i) propose and evaluate a novel causal discovery algorithm in multivariate time series via regression splines; ii) utilizing causal knowledge to build prognostics and anomaly detection frameworks. The first part of the thesis encloses multiple contri- butions in the field of causal discovery from multivariate time series. Since recovering causal structures from pure observations is a very difficult task, the use of only a single family of methods can only narrowly solve the problem. In particular, some methods can only address linear interdepen- dencies without any non-stationarities with even a specific type of statistical distribution. To this end, a novel approach is proposed in this thesis that share merits from non-parametric regression, causal additive noise models, and stability selection. Extensive experiments in both synthetic data and in diverse real-world datasets (human activity recognition, neuroscience, non- line-of-sight detection) demonstrate the superiority of the proposed method over the existing state-of-the-art. Further, it is worth mentioning that a real dataset is generated from practical interventional experiments for detecting non-line-of-sight, which is used for indoor localization applications. After establishing the contributions in the field of causal discovery, we in- vestigate the characterization of complex engineered systems by extracting comprehensive and robust health indicators from multivariate time series. In Prognostics and Health Management, it is very important to construct these health-related indices that may reflect the exact degradation status, regardless of the operating conditions of the machinery, which in a later phase will be used for predicting the remaining useful life. Due to low avail- ability of data from healthy status, anticausal learning, namely predicting the cause from the effect, is applied in a semi-supervised manner, as it may provide high robustness to model’s uncertainty and to different operating conditions. Finally, in the second part of this thesis, we address the problem of detecting cyber attacks that may infiltrate in industrial control systems with major consequences. Within the framework of an accumulative thesis, all research questions are formulated, and accordingly are addressed in the corresponding research articles that are presented in the following chapters.

Military crisis situations in recent years, especially COVID, have shown us the importance of being able to evacuate CBRN contaminated or infected soldiers or civilians by air. The aim of this Master’s thesis is to develop a multi-sensor patient monitoring system inside an aircraft that supports the caregiver in monitoring multiple patients and provides the basis for avoiding direct contact with the patient to minimise the risk of contamination. In order to be able to implement the system properly, first the requirements were defined with the help of experts and a first mock-up was developed, which formed the basis of the system. This system consists of a database server, an Android application as a data relay and a live dashboard. The developed system was extensively evaluated using synthetic data from a specially developed data simulator and in two field tests. In addition to the development of the system, the minimum transmission rate required to recognise all relevant characteristics of the vital data was evaluated, as well as the influence of the sampling rate on the integrated change point detection algorithm, which resulted in a minimum interval of 30 seconds and 1 minute respectively. In addition, the plausibility of the data synthetically generated by the simulator was evaluated in comparison with real data, which gave very good results for not too complex data sets. In the end, an operational patient monitoring system was developed that meets all the basic requirements and can be used by medical escorts without much prior knowledge to provide additional support in monitoring CBRN contaminated patients during air transport

Handwriting recognition has gotten more and more attention in times of digitaliza- tion. It is not only possible to transcript Latin cursive and other common scripts, but also older documents with Kurrent or other not so well known letter forms. Since this recognition task needs quite some training data which is at best also mostly transcribed, there already occurs the first difficulty. There is an intense task of manual preprocessing and domain knowledge necessary. This is where the connection to the first research question regarding an experimental character-based handwriting recognition is made. The problem statement is about to determine whether a model can be trained, which is able to perform the recognition task on a real handwritten document. Handwriting fonts are used to generate test data which are the basis for the model. It turned out that the idea already stumbled on the complex problem of the proper separation of a word into its individual characters. This would therefore need a better approach than using the word histogram for splitting in order to make progress with the initial idea. The second interesting question which this thesis deals with, is to determine if left- and right-handwritten documents can easily be distinguished. If there are real unique characteristics, the knowledge of this can support the general handwriting recognition process by training different character models for left- and right-handed persons. The challenging part of this research task is that there are not a lot of left hand written documents in the used dataset. For that reason meaningful features need to be found, so that a classifier can be trained on them and not on the whole document image. Those different characteristics can be determined and calculated with domain knowledge. The drawback of this solution is still that there are not that many samples of left-handed documents and for that reason the feature calculation needed to be very accurate, so that a classifier can be based on them. Since there occurred some inaccuracies during the feature calculation process, this step would be the place where room for improvement is and future work can be done. Having more accurate measures would probably enable the algorithm to find a significant separation line between both target classes. The third research question was about distinguishing between smilies and words within a document and furthermore assign the smiley moods to the written text. This kind of classification can support in the digitalization process where handwritten reviews or ratings of any kind contain smilies. The solution for this problem worked out by first manually labelling quite some samples and then training a first classifier on just determining a word or a smiley and another classifier to distinguish between the smiley expressions. With that approach individual sentences can get assigned a smiley for a rating or even the whole document can be evaluated in one measurement by its summed up smiley moods. In general it can be said that the research field of handwriting recognition has so many interesting open tasks which can be accomplished. That includes the future work possibilities which this thesis provides, where some new ways of needing less labelled data can be determined and also rethinking the common character models by also taking writing styles into consideration. Future work in this area can also be seen broader in way of using existing ideas and algorithms more open minded to solve more research questions with them.

Anomaly detection has many applications such as predictive maintenance and intrusion detection systems. It is usually an unsupervised problem as ground-truth labels are not available. Isolation Forest is an algorithm that is widely used for such problems. In interactive anomaly detection, a human expert immediately reviews every detected anomaly and provides a ground-truth label as feedback. This feedback is used to optimize the detection model to retrieve a higher number of true anomalies. However, most anomaly detection algorithms, including Isolation Forest, are not capable of incorporating the feedback. Several algorithms were built upon Isolation Forest to include available labels, but it is unclear which one performs best in an interactive setting. This thesis investigates the performance of existing interactive anomaly detection algorithms based on Isolation Forest. Additionally, a new algorithm called Interactive Isolation Forest (IIF) is proposed. After a literature review, three algorithms were selected for evaluation. IF-AAD and OMD are state-of- the-art algorithms for interactive anomaly detection. TiWS-iForest is a supervised extension of Isolation Forest, which was not evaluated for the interactive scenario before. After analyzing the properties of the algorithms, the new algorithm IIF was designed by extending TiWS-iForest. A variant of the algorithm utilizes data pruning. Experiments using real-world data sets were conducted to evaluate the performance of the algorithms. The comparative evaluation shows that TiWS-iForest outperformed the unsupervised baseline. The new algorithm, IIF, achieved better results than TiWS-iForest. The performance of IIF improved if data pruning was used. IF-AAD and OMD achieved the best overall performance. IIF with data pruning performed best or second-best on four of eight data sets. Unlike IF-AAD and OMD, no additional hyper parameters are required by IIF

For many employees in the IT services sector, time recording is a frustrating part of the working day. The aim of this work is to facilitate this part of the working day with the help of software. The automatic recognition of task changes based on behavioural changes allows for a prediction of day segmentation, so that employees only have to fill in the content according to their task description. This partial automation can be achieved in part by statistical methods such as anomaly detection and change point detection based on user input such as keyboard or mouse input. The experiments carried out resulted in F1 scores of 50%. The F1 score provides a good balance between recall and precision scores, where false positives are as important as false negatives. There is a group of parameters that can be applied to different people without affecting the results. A generic method has been found that can be applied universally to different people without significantly affecting the results. The recognition of longer tasks on the basis of the number of opened windows is even more precise with an F1-score of 68%. A major problem, however, remains the massive intrusion into employees’ privacy. How- ever, transparent development could solve this problem, and employees around the world could save aggravation and time every day by using this software.

With the rise of e-learning and modern campus management systems in academia, pursuing multiple degree programmes in parallel seems to have become increasingly accessible in recent years. From a student’s perspective, managing programmes offered at multiple independent academic institutions can be challenging, however. Especially the collision-free scheduling of courses can be a demanding task, since information needs to be acquired and compared manually, possibly even from various different campus management systems. In an effort to solve this problem in the context of a bachelor’s thesis, a software solution intended to assist students in interinstitutional course scheduling was created. A Web platform capable of combining course-related data from a variable number of academic institutions was developed, deployed and released to the general public. Furthermore, an academic institution was integrated into the platform, allowing for testing the platform with real-world data. A literature search for identifying concepts of data science as well as scheduling algorithms possibly applicable to the new platform was conducted. A list of scientific literature proposing tangible approaches related to course scheduling was compiled. Also, an algorithm suitable for maximising the number of non-colliding courses was identified. Based on the present thesis, more specific research as well as the development of tangible software implementations of recommender systems and scheduling algorithms as part of the new platform are now possible.

Wikipedia is well known for being a source of information for almost every topic. New events that happened are usually added within minutes. �e markup behind Wikipedia is quite complex and therefore not every user is able to write an article on his own. �e aim of WikGen is to automate the process of writing an article such that the user only has to touch the surface of the markup language. For solving the problem natural language processing in combination with additional python libraries was used. A graphical user interface was created. �e interface allows users to set certain parameters as well as to set the topic of the article. Additionally the user has to choose between two content generation libraries. With one of those very good results were achieved. To start the article generation the ’Run’ bu�on needs to be pressed. �e �nal article is published again and the page is being reloaded such that the user is able to see the �nal article. An article was created and every section contained meaningful information about its topic. Every user is now able to generate an Wikipedia article from scratch using only an infobox and not knowing anything further about the markup behind

Since long ago when trading companies formed, there was always a need to be competitive, to gain any advantage possible, to get that deal and secure a resource. Today, huge companies have taken a foothold in an international market, competing not only with other large corporations, but also with small local enterprises. This ubiquitous pressure to be better intensifies the need for any advantage an enterprise, big or small, can get in this cutthroat age of globalization. There are many technologies available for companies to achieve a bleeding edge over the others and the Dynamic Import Module (DIM) presented in this document is one such tool. In an age where trading and processing data is an everyday affair, many people are required to carry out mundane and mind numbing tasks such as manually typing files into databases or creating spreadsheets to crunch some numbers. The DIM is a lightweight software module for Extracting, Transforming and Loading (ETL) data from files into SQL databases. There are many different ETL and ELT applications available for a myriad of different programming languages and frameworks, but the DIM is a Grails 2.2 specific plugin and for this particular framework, the first of its kind. As of now, the DIM is able to extract data from DSV - which includes CSV, TSV and whitespace delimited files - PRN, simple XML, SpreadsheetML, simple JSON and JSON-like files like YAML. Further, it is possible to con- figure the DIM so that certain lines are skipped, that data is verified that it is of a certain data type and data can even be specified to be optional or required. As for transforming the data, DIM provides a suite of methods from simple string manipulations like appending and replacing substrings, to numerical operations like calculating a sum/mean and carrying out basic arithmetic operations. Not only that, the DIM is also able extract selected data and insert it into other selected data sets that are to be loaded into the database. Another provided feature is creating one-to-one and one-to-many relations between data during the transformation process, which are then persisted into the database. Last but not least, all of the transformation methods can be applied universally for all data sets with exclusions if need be, or only selectively for special data sets. In any case, the extracted and possibly transformed data can then be loaded into the database in any representation the user needs it to be, as long as the equivalent domain classes exist within the application. The DIM aims to speed up and automate the tedious import process, freeing up time for people to spend their time on meaningful work and giving their company a lead in other areas which require human creativity

Historic documents contain valuable information about our past, providing in- sights into the cultures, societies, and events that have shaped our world. Digiti- zation of large quantities of such documents is crucial not only for analyzing them but also for making them more accessible. However, extracting textual information from these sources is challenging due to factors such as poor image quality, non- standard layouts, and varying fonts. Using a deep learning convolutional neural network, this thesis aims to improve the accuracy of optical character recognition (OCR) in historical schematism-state manuals. This approach involves segmenting document pages into individual elements, and then applying OCR to each element individually rather than to the entire document. To further enhance accuracy, the OCR program Tesseract is fine-tuned on a custom font designed to look as sim- ilar as possible to the original font used in the schematism-state documents. In comparison to applying OCR to the entire document, the methods proposed in this thesis lead to a significant improvement in character extraction accuracy of 71.98%. These results help to better extract and analyse the wealth of information contained in historic documents. Apart from having a significantly reduced error rate when extracting texts from schematism-state documents, it is also possible to attach specific labels to them. In this way, texts can be categorized even before they are processed using natural language processing (NLP)

The increasing prevalence of malicious links, such as phishing attempts and malware down- loads, pose significant threats to users on a daily basis. Determining the intent and safety level of such links has become a crucial challenge in cybersecurity. This thesis addressed this problem by implementing a recursive web crawler which is backed by a random forest machine learning classifier to accurately classify found URLs into various classes of intent. By analysing the dataset and attributes of different URLs, 30 lexical features were extracted and used to train the classification model. Furthermore, the work focused on optimizing the model with hyperparameter tuning and testing different train-test approaches to attain consistent accuracy. The classifier achieved an accuracy rate of 96.2% in classifying unknown URLs into their respective categories of intent. However, it is important to note that short URLs or long subdomains tend to result in a higher misclassification rate than others. The result of this thesis is an application which gives users the ability to check potentially malicious URLs in order to be safer from hidden threads.

In the present work, data from COVID-19 patients are analyzed within the three waves. The collected data is important for the ongoing monitoring of the development of the virus and is still regularly accessed and used in the hospitals. In order to be able to further analyze the pandemic and its ongoing consequences and to support research, data and their evaluations will not lose importance in the future. A dashboard is created with the help of the SAP Lumira Designer and filtered differently. The work considers and compares between the individual COVID-19 waves the patient occupancy, patients treated in intensive care, risk factors of the patients, days of occupancy, duration of care, deaths and the number of patients to be ventilated. Significant differences could be determined in the study, particularly with the data on the vaccination status. The work shows how diverse COVID-19 patient data are.

With the rise of Industry 4.0, huge amounts of collected data must be analyzed. Currently, few applications provide easy-to-use causal discovery tools to visualize data sets. In this work a causal discovery tool, using algorithms by the Causal Discovery Toolbox (CDT), was implemented in an existing web application for causal inference to counter this problem. The generated graphs can then be used for further causal inference processing. Five different skeleton recovery and ten different causal discovery algorithms of the CDT have been implemented. In addition, a new feature was added to the application to store the data sets and results. The results of the implemented algorithm differ from the corresponding ground truth. The generated graphs are sometimes unreliable, so the application does not replace the user’s thinking

Reproducibility in Machine Learning Research

Accuracy, Miscalibration, and Popularity Bias in Recommendation

Time series forecasting poses a challenging problem in machine learning, mainly due to the changing statistical properties of the data over time. For instance, time series might experience significant shifts in its mean or sudden changes in variance and such changes pose a considerable challenge for traditional forecasting models. One approach to address the issue is by using a continual learning approach. Con- tinual learning allows for learning new data without forgetting what was learned from the previous data. This work proposes a continual learning approach to time series forecasting based on variational continual learning (VCL). VCL handles non- stationarity by adapting to new data while retaining previous knowledge through Bayesian Inference and avoids catastrophic forgetting in a fully automatic way. The proposed approach is evaluated on several synthetically generated and one real-world data set and compared to the equivalent artificial neural network model updated sequentially. Experiments conducted on synthetically generated data sets and one real-world data set suggest that VCL has the potential to be an effective tool for time series forecasting in certain non-stationary environments

Understanding the mobility of the population comprises, among other things, the comprehension of the activities which occur every day (home, work, edu- cation, leisure, shopping, etc.), specifically when they happen, and how long they last. Since obtaining this information through travel surveys is expensive, scientists have been examining how the knowledge about daily activities from the whole population can be gained from data provided by cellular networks. The purpose of this study was to explore to which extent it is possible to detect education activities, in particular university activities based on cellular signaling data (CSD), and what the possible limitations are. A rule-based approach was applied on already preprocessed CSD (provided by A1 Telekom Austria) on top of the pre-existing home and school activity detection. The calibration of the results is conducted dependent on the student reference number, therefore no validation step was provided. Although 94% of the defined reference numbers were reached overall, the findings of this study suggest that more information about an average student’s behavior is required, in order to derive more accurate results. Additionally, the present study provides recommendations, which could be beneficial regarding future research on this topic.

Earnings calls are part of the quarterly reporting procedures of large and public companies. While financial reporting usually focuses on historical results as struc- tured data, the verbal presentation of the management team on those calls might give additional information. The goal of this thesis was to study whether Natural Language Processing (NLP) tech- niques can be used to process transcripts of these earnings calls and whether they are suitable to quantify the management’s future guidance in those transcripts. Four conventional statistical models and six deep learning models were trained and benched on a simple extraction task. A forecaster was developed to further test whether there is any predictive value in the outlooks provided by the management teams. Finally, the two segments of an earnings call—the management’s presenta- tion, and the interactive Questions and Answers (Q&A) segment—were compared by their suitability for these forecasts. While not all deep learning models delivered the expected results, the conventional statistical models and some of the simpler deep learning models performed well on the benchmark task. The forecaster did match, and in parts outperform, the results of a reference model that solely used historical data to do the same. Looking at the different segments of the call, the Q&A segment did appear to provide the most intel for the subtask of forecasting the company’s revenues.

The military monitors the combat readiness and functionality of its vehicles, aircraft and other machinery, yet tends to neglect the operational readiness of their human resources during field deployment or during military training. Missing the importance can lead to a decline in the soldier’s physical and mental performance, which can impact the outcome of the military activity negatively. CBRN soldiers, who perform challenging work tasks while being exposed to encapsulating protective clothing, are most notably affected by it. We therefore propose a two-component system consisting of a strain, and a heat stress early warning classifier that utilizes supervised machine learning algorithms to assess the current health state of an individual exposed to heat stress. A great variety of physiological and thermoregulatory data was recorded by various biosensors during relevant studies, which simulated the exertion experienced by CBRN soldiers. The data was then processed, analyzed and used for the development of the components. The first component of the system, the strain classifier, deploys a perceptual scoring scale as a performance status indicator. This ensures that the individual’s thermal tolerance limit is not disregarded. The classifier scored a CV accuracy of 48.55 %. Since wearing comfort and the acceptability of the system are of highest priority, we worked out the minimal sensor set. Additionally, we evaluated the importance of the variable body core temperature to diminish the financial strain caused by disposable sensors. Yet, further research is needed to make the classifier deployable for military scenarios. The second component of the system, the heat stress early warning classi- fier, detects a potentially hazardous change in body core temperature in the next 15 minutes with a test score accuracy of 84.63 %. We therefore conclude that the classifier issues valid early warnings to soldiers, unit leaders and medical personnel and therefore impacts the outcome of a military activity positively.

I would like to express my deepest gratitude to Ass.Prof. Roman Kern for his in- valuable supervision and feedback throughout the whole thesis. This endeavor would not have been possible without his expertise and advisership. Additionally, I’m extremely grateful to Milan Živadinović, MSc. for his provided knowledge and support. Without his data science expertise, this thesis could not have taken place. Furthermore, I want to give special thanks to Simon Erker, PhD. and Ass.Prof. Christian Hametner for their battery domain know-how and guidance. I am also thankful to the Institute of Interactive Systems and Data Science (ISDS) for enabling me to engage in this research activity. I would like to thank the Graz University of Technology for the educational background that made it possible to tackle this Master’s thesis. I would like to extend my sincere thanks to AVL List GmbH for funding this re- search and for sharing the datasets. Furthermore, the computations would not have been possible without the provided compute cluster by AVL. Additionally, I am also thankful to my colleagues who provided me with valuable insights and ideas. Lastly, I would be remiss in not mentioning my family and friends for believing in me and keeping my spirits and motivation high during all steps of the Master’s thesis

Correctly identifying irregular heartbeats is a time-critical task that can prevent many Sudden Cardiac Deaths (scd) worldwide. Classifying a patient’s heartbeat and deciding whether it is pathological or not is the primary goal of a large number of ongoing studies. Especially in the medical field, Boruta, a wrapper of Random Forest, is often used as a feature selection algorithm due to its fast and reliable performance. However, as seen in the current research, either Boruta is used on time series data, often electrocardiograms (ecg) in a batch learning setting or is applied to data streams of other domains. The aim of this thesis is to test whether Boruta can be applied to data streams for correctly classifying healthy and patho- logical heartbeats. A window size, which was small yet had an adequate overall classification performance, was identified, and the quality of the selected features was assessed. It was seen that distinctive features could be deemed relevant based on the type of heartbeat. Insights of both experiments were combined, and an on- line pipeline was implemented, including Boruta and Hoeffding trees. It was shown that, in fact, Boruta could be applied to data streams, leading to promising results. Overall, applying different methods for online feature selection, a relative mcc of 79.26% respectively 69.73% to the offline approach could be achieved. However, further insights into the extraction of the minimal window need to be gained, as well as the extraction of additional ecg-specific features needs to be considered.

With recent systems like ChatGPT being able to amaze people, creating new head- lines every day, the interest of the public in NLP Systems has risen. We are likely to see AI becoming more popular in aiding in our daily work in new innovative ways in the near future, and in different application domains, too. One such appli- cation domain is automated Question Generation to aid in learning and teaching. The basis of ChatGPT, the Transformer model, has been around since it was intro- duced by Vaswani et al. (2017). And with it a lot of research and different models that focus on the task of Question Generation. But hardly was this research fo- cusing on languages other than English. In this work we created a system for generation in German, utilizing existing pre-trained transformers and comparing different models to find the best one. Basing our research on multilingual models, Testing MBart and MT5, the aim was to identify the better performing model in order to give a recommendation on which one to choose when creating a trans- former based Question Generation solution for the German language. To achieve this we fine-tuned the models with settings as comparable as possible. Also, we investigated some variations. In the end we are able to give a recommendation to choose MBart for German QG. The different insights of this work will be of aid for anyone who aims to find a SOTA way of creating a Transformer-based solution on German Question Generation.

With the rise of e-learning and modern campus management systems in academia, pursuing multiple degree programmes in parallel seems to have become increasingly accessible in recent years. From a student’s perspective, managing programmes offered at multiple independent academic institutions can be challenging, however. Especially the collision-free scheduling of courses can be a demanding task, since information needs to be acquired and compared manually, possibly even from various different campus management systems. In an effort to solve this problem in the context of a bachelor’s thesis, a software solution intended to assist students in interinstitutional course scheduling was created. A Web platform capable of combining course-related data from a variable number of academic institutions was developed, deployed and released to the general public. Furthermore, an academic institution was integrated into the platform, allowing for testing the platform with real-world data. A literature search for identifying concepts of data science as well as scheduling algorithms possibly applicable to the new platform was conducted. A list of scientific literature proposing tangible approaches related to course scheduling was compiled. Also, an algorithm suitable for maximising the number of non-colliding courses was identified. Based on the present thesis, more specific research as well as the development of tangible software implementations of recommender systems and scheduling algorithms as part of the new platform are now possible

In today’s world, data protection is becoming more and more important, be it because of the services that are always available or offline applications that accompany us in everyday life. All these services and services collect data from us, in order not to give the protection of this out of our hands, many regulations have already been issued, but these do not cover every area. In order to get a more detailed insight into this area of data protection, an attempt is first made to build up a basic understanding, which should prepare the reader for the following chapters. The various facets of the online environment are attempted to be divided into different domains and get categorized. These domains are explained and individual ones are considered in more detail. The categorization is intended to be used to obtain and show important data relevant to privacy from the domains. Specifically selected examples from the domains will then be applied and evaluated with programs designed for data protection, and their functionality will be roughly explained. Through this practical use, an attempt is made to show what opportunities these programs bring to the various domains and what challenges need to be overcome if you want to use them

Durch sogenannte FakeShops bzw. problematische Online-Shops drohen für Konsument*innen diverse Gefahren. Um diese Gefahren zu minimieren soll mit dieser Arbeit die automatische Erkennung solcher Shops verbessert werden

This doctoral thesis concerns the optimization of multi-stage manufacturing processes. In multi-stage manufacturing, the overall manufacturing process comprises several subprocesses, i.e. stages. Because real-world manufacturing processes are costly in terms of materials, labor hours, energy, and CO2 emissions, physics-based simulations can be used to represent individual manufacturing stages. One drawback of physics-based simulations is their computational complexity, therefore, the optimization approach studied in this thesis is based on machine learning surrogates of physics-based simulations. Researched optimization methods are based on Bayesian optimization (BO) with Gaussian process (GP) surrogates. Approaches proposed in this thesis concern the handling of epistemic surrogate model uncertainty and aleatoric manufacturing process uncertainty in BO. Optimization is considered towards a target, not minimization or maximization like in standard BO. Further, the interaction of process stages is considered in optimization, by optimizing on a multi-stage level, rather than individual optimization of single stages. Objectives do not rely solely on a final multi-stage output, but also consider interim stages to ensure lowest out-of-tolerance w.r.t. the overall manufacturing process. The methods researched in this thesis, propose fulfilling approaches for robust optimization of manufacturing processes. Use cases handled focus on hot metal forging production for aerospace.

This thesis presents our experiments on investigating priming effects and their influence on the performance of authorship attribution methods. We translate the concept of priming in psychology, where individuals react differently if they are exposed to certain information beforehand, to a natural language processing context. We make the case that there are additional features (meta features) to traditional features like n-grams and word embeddings that could improve such methods. We start by giving background information about priming, the platform we collected our data from (Reddit), and authorship attribution. After shortly describing the preliminary work that was done, we explain the feature extraction process in detail. Finally, we present our results on different model architectures and variants where we get a consistent improvement in accuracy of around 2% by integrating stimulus features. According to our data, the influence of meta features is diminishing while the additional information of base features in stimuli comments is responsible for the slight boost in performance of our models.

In a rapid developing digital world where an insignificant event can go viral, memes play a central role, the Karen meme being one of them. Aside from detecting Karen- like behaviour in our day-to-day (physical and digital) life, we do not yet have a means of detecting such behaviour through algorithmic models. Therefore, this thesis aims to define who Karen is and how to detect situations with Karen-like behaviour online. In order to solve this problem, a ”Karen” data pipeline was created encompassing in itself several phases like data collecting (text and images), data processing (cleaning, sampling and labeling, balancing) and classification (NLP and image) models. The accuracy levels varied from the data source, with the accuracy percentages ranging from 70 to 80%. The performed error analysis showed the reasons why the inaccuracies might have happened, which were context and way of description (for text) and merged pictures, low picture quality and dark backgrounds among others (for images). On the other hand, the evaluations fell into moderate agreement category for image collections and fair agreement for the text collection. From that it was concluded that the Karen related situation detection topic, depending on the source collection, can be considered a moderate to highly complex topic. The models used in the detection of the Karen related situations are valid for the ”type” of Karen that is defined in this thesis. To be able to use them for a modified definition of Karen, the models must be retrained with different/newer samples. While the thesis detects Karen related situations, it does not detect who the Karen in the situation is. This could be a possible future research topic.

Basic chatbots that rely on simple pattern matching have been around for centuries. Recent developments in large language models, often based on the Transformer architecture, allow for more sophisticated chatbots. In this paper we investigated how a chatbot based on GPT-3, a large language model that has been shown to be capable of producing human-like text, performed in an open domain scenario. To allow for the human to interact with the chatbot via voice, we used Speech-to-Text and Text-to-Speech components. We performed a variety of conversations with the chatbot, some based on datasets for dialogue and Q&A. After the conversations, we used different evaluation measures to investigate how suitable GPT-3 is in the context of a chatbot and where its limitations lie. The findings support that GPT-3 is a good choice for both Q&A and for conducting conversations. At the same time, we also identified some limitations of using GPT-3 in a chatbot. Specifically, we found limitations that produce repeating answers, factually wrong answers and biases. We also evaluated the components that allow for a speech interface and found limitations, especially in the Speech-to-Text component we used. The limitation of wrongly transcribed texts was party offset by an interesting capability of GPT-3, where it often interpreted the wrong texts correctly. We showed that GPT-3 is a good choice for a chatbot and stated how future work can address the limitations we observed.


Causality in historic documents is an important source of information for historians. Manually finding relevant causal relations from the immense number of documents is a time-intensive process. To support historians in their work, we created a novel approach for causal relationship extraction and introduced a dataset of historical documents annotated for causal relations in German. Our proposed model for causality extraction was based on BERT. We extended traditional sequence labeling approaches to allow the model to detect multiple overlapping relations. The model created distinct context embeddings per causal relation, from which associated causal arguments, such as cause and effect, were detected. Additionally, we assigned a causal type and degree to each relation. Our model outperformed a pattern-based approach in all tasks. We evaluated various BERT models, pre-processing steps, and transfer learning approaches. German BERT models generally performed better than multilingual models, and pre-training on contemporary texts performed similarly well to pre- training on historical texts. Transfer learning on related tasks could overall improve the model. Pre-processing the text to correct historic spelling variations or including additional information about coreferences did not increase the performance. We also found evidence that BERT learns about causal relationships during self-supervised pre-training, indicating that causality is integral for encoding information in natural text. The promising results of our model demonstrate the potential to support historians in their work by recommending relevant passages containing causal relations or by creating knowledge bases from cause and effect relationships.

Anomaly detection refers to finding patterns in data structures that appear abnormal or deviate from a well-defined concept of expected normal be- haviour within datasets. Anomaly detection is widely used in industrial applications because undetected anomalies can cause considerable losses. This thesis focuses on anomaly detection, referring to identifying changes, differences or anomalies in an automatic measurement system developed and used by NXP Semiconductors Austria GmbH Co & KG. The automated measurement system is responsible for conducting measurements regard- ing Near-Field Communication (NFC) devices, testing their performance and compliance with the ISO 14443 standard. Detecting anomalies in the measurement system is crucial for NXP because finding anomalies in the measurement data would imply that the new firmware of the product is not working as expected. In this thesis, the target is to evaluate the chosen anomaly detection approach applied to the automation system and to estimate the most suitable number of test run data used as a baseline for the detection. Furthermore, we have to check if the algorithm is satisfying w.r.t. the detection accuracy of the anomaly detection system in different measurement setups, evaluate the algorithm against false negatives and positives, and observe how accurate it is. We selected the machine learning algorithms DBSCAN and LOF in this work. The chosen machine learning algorithms are applied in one-class classification mode to solve the anomaly detection problem. We decided on a one-class classification approach because obtaining normal data that behaves as expected is more feasible than considering all possible anomalous data. The method presented in this work is evaluated on real measurement data collected and generated in NXPs laboratory. Since various software tools are conducted under the automated measurement system, different data structures and formats are generated. Thus the data collected by the software tools differ from each other. Hence we first had to parse the data into a consistent data format, JSON. Additionally, using domain knowledge, where we defined the expected behaviour of measurements and inferred anomalies from this definition, we generated artificially anomalous data by injecting anomalies into normal datasets. The presented method in this work is also evaluated and tested against this dataset. This work revealed that a model developed and evaluated on a specific domain setup cannot be generalised and applied to a different domain and still obtain the same satisfactory results. The evaluation of the number of baseline data used for a model indicated that the performance does not solely depend on the number of data used but on the information content introduced by new data instances.

Data related issues are one of the main reasons why current industrial projects cannot be accomplished, and this is due to the fact that data collection processes are too complex, time-consuming and often very expensive. However, datasets of insufficient size are often responsible for poor performances in machine learning projects. Therefore, the balance between the amount of data that can be collected versus the amount of training data needed to achieve a certain performance of the model needs to be found, which makes it a trend topic in nowadays Artificial Intelligence researches. In this thesis, the impact of reducing the amount of training data used for learning a binary classification Support Vector Machine model is studied. The results show that this reduction decreases the accuracy achieved by the model and its variance becomes larger. Also, the corresponding generalization error increases when de- creasing the length of the training sets. Multiple aspects of the data and the model itself need to be studied before defining the minimum size of a training dataset required to achieve certain results. Different conditions related to the original data, like different datasets, dimensionalities or statistical properties are considered. Also, some modifications in the data, such as considering synthetic data oversampled by different Data Augmentation techniques, are applied. It is shown that such tech- niques improve the test accuracy of the model but do not prevent from overfitting. Finally, multiple configurations of the model itself, like hyperparameter tuning and regularization techniques, are covered. An in-depth comparision of all the results is done focusing on the performance of the model in terms of test and train accuracies, misclassification errors for each class, variance of the results after many runs and generalization error.

As the spread of false information has become ever more problem- atic in recent years, research on automatic fact-checking methods has intensified. Typically, such approaches rely on an explicit knowledge base to verify claims. They use a pipeline that first retrieves relevant documents, then passages therein and, finally, performs entailment, i.e., predicts whether the evidence supports the claim or not. The current state of the art mostly uses a vari- ation of a standard Transformer with full self-attention for the entailment. However, its quadratic memory complexity limits the amount of evidence the model can process. In this thesis, we study the use of various different, more efficient Transformers as entailment models, allowing them to process more evidence. We compare these techniques and balance the advantages and disadvantages. The efficiency improvements allow us to com- pletely remove the passage retrieval step, resulting in significant savings in computational cost for the complete pipeline while achieving 97-99% of the current state-of-the-art performance on the benchmark data set FEVER. Further, our experimental results show that the efficient Transformer Longformer outperforms a RoBERTa baseline for long evidence documents, as it can process more input within the same memory budget. Overall, we find using more evidence beneficial for predictive performance. Us- ing efficient Transformers can reduce the computational costs of fact-checking pipelines and allow them to handle longer evidence documents.

One of the many achievements of Artificial Intelligence Applications in the recent years involve NLP - Natural Language Processing. The sheer amount of unstructured textual data that is produced on a daily basis is seemingly increasing with no end in sight. Unfortunately one does not only find well intended texts online. Therefore for many companies, organizations and alike a certain need arises to automatically evaluate the submitted text to assist human moderators finding potentially dangerous, toxic and other similar negative contributions to either censor those or even block the author completely from future submissions. The goal of this thesis was not only to try to find those but also to de-escalate agitated users actively on Reddit and by that influence their overall behaviour such that censoring might not even become necessary. A case study was conducted on the r/Austria subreddit which at that time had approximately 311,000 members. For the study a chatbot was imple- mented which tried to de-escalate agitated users with previously prepared priming phrases which should have motivated the users to overall edit their comment into a non-aggressive way or to delete it all together and implicitly get the user to sanction aggression themselves in the future. The study was only partly successful as in most cases the intervention attempts sparked even more aggression whilst in some other cases it was perceived as a positive impact and even lead to people actively chang- ing/deleting their comments.

Current processes for the surveillance of critical infrastructures, comprising objects of interest in more significant heights, mainly rely on manually capturing high-quantity RGB image data using a Unmanned Aerial Vehicle (UAV), which causes high effort of subsequent manual human evaluation of thousands of images. Moreover, the evaluation process on extensive amounts of data is prone to error, has a higher demand for Information Technology (IT) infrastructure such as data storage, or causes higher computational efforts when conducting fault detection using computer vision methods. Consequently, this thesis presents a method to estimate the absolute six degrees of freedom (6DOF) pose of a single RGB camera in a predefined map coordinate system based on its captured images to give a camera-equipped UAV a better understanding of the spatial realities in a real-world scene. Accordingly, the work contributes to a refined future process of critical infrastructure surveillance aiming for a higher level of autonomy during the acquisition of close-proximity images for fault detection, pursuing the collection of low-quantity but high-quality data and therefore lowering the subsequent manual human or computational evaluation effort. The estimation of the capturing camera’s pose is based on an existing three-dimensional (3D) representation of the target infrastructure, two- dimensional (2D) object center coordinates of objects of interest, estimated using a reliable but fast object detection model, a calibrated camera system, the mathematical model of the image formation process, and a photogram- metric system capable of estimating the desired pose through least-squares parameter adjustment. Multiple experiments on a carefully designed hard- ware prototype, which serves as the target infrastructure during development, reveal that the determined pose’s precision depends on the number of detec- tions, the alignment of the calculated object center coordinates on the image plane, and their distance to the ideal projections of the corresponding 3D object coordinates. The results prove the feasibility of the developed process for pose estimation on single imagery, show its limitations, and point out crucial future work. Notably, the pose estimations conducted within this work show a mean distance of about 6 cm from the ground-truth capturing camera’s position using 2D image coordinates derived from estimated bounding boxes of the chosen object detection model. Combined with a reasonably small deviation from the expected degrees of freedom for orientation of fewer than 2.26 degrees on average, the pose estimation quality shows promising practicality for acquiring a higher level of autonomy in UAV navigation.

The aim of the thesis is to find and compare the best methods to solve a 1v1 resource allocation game. In the game, two players try to gather as many resources as possible in order to construct more buildings than the other player. The game is called Lux AI and everyone can participate in the challenge hosted on the public data science platform Kaggle. In the scope of this thesis, three different methods from different fields of AI were tested, a rule-based approach, a supervised machine learning approach and a reinforcement learning approach. The thesis first introduces the different methods tested. Later on, the experiments on how to get to the best results within each method are examined. Finally, the obstacles and possible improvements for each approach are discussed. The results of the thesis show that a rule-based approach can be a well perform- ing baseline, but it is complex to introduce and balance rules for every situation. Therefore, the rule-based approach is recommended when a quick and stable agent is required rather than a high performing agent. The supervised machine learn- ing approach turned out to work best. The reinforcement learning approach did hardly work, but it was shown that with more resources it might outperform the supervised machine learning approach.

Physics informed neural networks (PINNs) are an emerging class of deep learning methods capable of solving both forward and inverse problems of differential equations. They gained great popularity due to the seamless integration of both observational data and prior information about the underlying physical system in a combined multi-objective cost function. As a result of the additional physics loss term, PINNs can be employed in applications where purely data-driven methods are doomed to failure due to insufficient data quantity and quality. Despite extensive research, PINNs are still difficult to train, especially when litte data is available and the optimization relies heavily on the physics loss term. In particular, PINNs suffer from severe convergence problems when simulating dynamical systems with high-frequency components, chaotic or turbulent behavior. In this work, we discuss the question of whether PINNs are a suitable method for predicting chaotic motion by conducting several experiments on the undamped double pendulum. The experimental results demonstrate that the additional information of the physics loss term effectively improves a purely data-driven approach in the presence of noisy, incomplete, or only partially observed data. However, their prediction accuracy degrades immensely in the chaotic regime. In contrast to the behavior of a chaotic system, PINNs do not exhibit any sensitivity to perturbations in the initial condition. Instead, PINNs consistently converge to certain highly attractive solutions that deviate strongly from the reference but display significantly lower values for the physics loss. We find that only a reduced computational domain combined with an appropriate loss weighting scheme allows convergence to the correct solution.

Researching political trends (political topics, political figures etc.) is important for two reasons. Firstly, to enable political leaders to make right decisions for organisational transformations and policies; Secondly, to understand impact and influence of political leaders and political organisations as trend representatives or as part of research for election campaigns. This work concentrates on making the software solution to assess political trends from online media in the real-time and provide insights in form of historic quantit- ative data of distinct trends. Created software solution is based on the data gathered in the real-time from online news papers in Bosnia and Herzegovina and analyzed with combination of existing solutions for gathering the data, processing it in distributed manner and tools for natural language processing. Software solution delivers results in the real-time in form of the time-series data for specific political trends by defining related keywords and measuring its presence in media. Resulting time-series data and intermediate results are ready for further analysis and can be used to give more detailed insights.

Generative Adversarial Networks (GANs) are currently seeing wide application in data augmentation tasks. While most studies focus on the generation of image datasets, little research has thus far focused on geomorphological data. In this work, we propose an innovative way of applying GANs to the production of synthetic tridimensional scenes through the generation of RGB-depth images in the context of an industry planetary exploration use case. These landscape objects not only encapsulate 3D coordinates but also colour textures, both drawn from the distribution of colour and depth values of real Martian landscapes. To enable this, we present an end-to-end pipeline, consisting of an RGB-depth data collection strategy using widelyavailable open-source 3D computer graphics software, a preprocessing and data preparation strategy, the Spatial GAN neural architecture (SGAN) and a 3D conversion post-processing module. With the help of this pipeline, we manage to generate artificial tridimensional Martian environments that look strikingly realistic to the human eye. Lastly, we explore the limits of this approach and possible improvements to it.

Neben Geldtransfer stellt die zeitnahe Bewegung von Waren innerhalb der E-Commerce-Prozesse den wichtigsten kritischen Aspekt dar. Um dies mithilfe der richtigen Lageraggregation und Kommissionierung möglichst schnell und einfach zu gestalten, bieten sich mehrere Technologien, wie beispielsweise künstliche Intelligenz an. Innerhalb der Arbeit soll erörtert werden, wie und mittels welcher Technologie diese Prozesse verbessert werden können

Calibration in recommender system

Detecting sarcasm has proven to be bene€cial in several sub€elds of natural language processing. It improves the results of sentiment analysis, is a valuable preprocessing step in information extraction, can be helpful in generating natural language components and more. While much research has been done in the English language, only few systems have been proposed to detect sarcasm in German texts. To contribute to the research of detecting sarcasm in German texts, the characteristics of expressing sarcasm were examined, a working de€nition derived,and a system to automatically detect sarcasm on sentence-level was implemented. W‘e analyzed sentences originate from political speeches, which were taken from the Austrian National Council and compiled to a corpus. ‘ese sentences were manually annotated for sarcasm and used to generate a multitude of features. By using decision trees, the importances of the generated features were learned and in respect to their importance, combinations of various feature sets tested. ‘Wecarried out experiments showed that sarcasm is detectable on sentence-level and that sentence length and part-of-speech tags are among the most important features to detect it. ‘e proposed sarcasm detector provides a solid baseline and valuable insights for future work that focus on automatically detecting sarcasm in German texts, and in particular, German political text

The rise of modern DNA sequencing methods and tools has led to an abun- dance of readily available genomic data. Since identifying the locations of genes and coding regions in novel organisms is a time-intensive process, we en- deavored to create a pipeline, which produces informative embeddings from raw DNA sequences. Salient features are learned using autoencoder neu- ral networks. Models with different parameter values and combinations of layer types were trained and evaluated. The autoencoders transform a given genome into a point cloud in the latent space. We implemented and evaluated various sampling methods, which compress this point cloud into a compact representation. The quality of the embeddings was validated on a down- stream task of taxonomic realm prediction of novel organisms from their raw DNA sequences. Furthermore, we propose several embedding visualizations for intuitive genome understanding and comparison.

The purpose of this work is to study and improve the usability of a single-page web application. A single-page web application is a recent method for programming web pages in which part of the page content is updated based on user action without updating all the content if not necessary. These new programming method helps to speed up the web pages a lot, making them interactive and their content visible in a shorter time, and for this reason, more and more web pages are programmed in this way. In this work, the runtime performance and usability of the CourtCulture single-page web application will be tested with different methods and solutions are proposed to make the application closer to the user needs and more conform to the design and usability standards. A new version of the application will also be proposed with a new design and new functionalities that address the problems highlighted during the test. The study on the effectiveness of the improvements of the application is only theoretically analyzed.

The proliferation of alternative energy sources and the advancing use of electric mobility have increased the need to stabilize the power grid these technologies depend on. This work explored whether machine learning in general or bayesian deep learning in particular could be utilized to facilitate the deployment of private photovoltaic installations with attached battery energy storage system as part of the primary frequency response reserve. In order to amend the data set and for a better understanding of the underlying mechanics, two simulations were created. The first emulates the energy consump- tion of a private household based on the devices which are assumed to be used within. The second replicates the behaviour of a charge controller in a private household with attached photovoltaic installation and battery. Several prediction methods were matched against each other to find good estimators for the energy output of photovoltaic installations and the energy consumption of private house- holds. The simulations in conjunction with the found estimators were then used to find good strategies for providing frequency response reserve using genetic optimization. Results showed that in theory, households with attached photovoltaic installation and battery energy storage system can be used to provide frequency response reserve in a profitable manner. However for practical applications the accuracy of the prediction models would need to be higher. Knowing now that profitable strategies exist, further research can be done into increasing the prediction accuracy.

Cross-platform analysis of user comments

Eine neue Gesetzgebung in Österreich erlaubt den Flugbetrieb ohne die Anwesenheit eines Flugplatz-Betriebsleiters oder einer Flugplatz-Betriebsleiterin am Flugplatz. Es besteht jedoch die gesetzliche Verpflichtung zur Aufzeichnung aller Starts und Landungen. Es soll ein elektronisches System entwickelt werden, welches Starts und Landungen detektiert und diese Informationen in eine Datenbank speichert. Dieses System soll Flugplatzbetreiber*innen bei der Erfüllung der gesetzlichen Aufzeichnungspflicht unterstützen. Es wurde ein Algorithmus erarbeitet und implementiert, der eine gute Basis für die Automatisierung dieser Aufgabe bietet. Der Algorithmus erreichte bei Tests mit insgesamt 76 Flugbewegungen eine korrekte Klassifizierung von 96% bzw. 100%

Despite numerous algorithms in the anomaly detection field, enhancing the performance of such algorithms still remains an open research topic. This thesis proposes using causal relationships between variables to improve the accuracy of anomaly identifica- tion tasks. An algorithm using a structural causal model as a base for anomaly detection is introduced and evaluated using synthetic data sets. Unlike numerous other anomaly detection algorithms re- lying on measuring distance or density between the data points, the proposed algorithm compares actual value against the expected out- come prediction for the same data point, and using this difference labels some data points as anomalies. The results of the causally in- formed anomaly detection algorithm are compared with the three well-performing unsupervised machine learning algorithms for anomaly detection to understand if this approach is useful and capable of detecting such anomalies, which other algorithms miss. The algorithm using the structural causal model achieved up to 33.5% higher F1 score compared to the next best performing ma- chine learning model, thus indicating that this approach can be used for anomaly detection and provide good results.

During manufacturing process in semiconductor industry, a large amount of data is produced. Measurements can be visualized with so called wafer maps. Different problems in manufacturing process may cause a decrease in production yield. Very often, patterns on the wafer map may indicate the problems in an early stage. A malfunctioning production tool may therefore be indicated by a well-known pattern. For standard pattern recognition tasks, a set of labelled data is needed in order to train classification architectures. This master thesis proposes a method using a generative adversarial network (GAN) called BigBiGAN, which creates a low dimensional representation of the input wafer map. By applying different clustering methods, sets of similar wafer maps can be clustered without prior knowledge. If the network is correctly parametrized, the data is properly pre-processed and the clustering methods are well suited, it is possible to generate labelled data sets from real world data of any size. This approach is able to replace the manual creation of data sets, which is a time consuming and error prone task.

The focus of this work lies in causal science. Causal science engages in finding causes of all sorts of events occurring in the world. The cause is usually called treatment and the subject of its influence is called outcome. Causal science employs different methods for finding and numerically presenting the intensity of the treatment’s causal influence on the outcome. The process of finding that intensity of causal influence is called causal inference. This work presents the development of an application which was created for the purpose of performing causal inference via a visual interface. The application has coupled existing causality libraries with a user interface. It provided a simple, practical solution for causal inference in the form of a web application. The results have shown good accuracy, given different types of data files and inference options. It is now possible for a common user to easily perform causal inference via the web browser. It is also possible to extend and develop the application further to provide a better practical tool for causal science.

In this paper, we attempt to classify functional and non-functional requirements using Bidirectional Encoder Representations from Transformers (BERT). In this paper, we discuss the concepts and the implementation of our classifiers, as well as the achieved results and how well our approach handles real-world noise such as spelling mistakes in detail. We created two different requirement classifiers, one a binary functional/non-functional (FR/NFR) classifier and the other for classifying non-functional requirements of the four most frequent classes of Operational (O), Performance (PE), Security (SE) and Usability (US). For this, we fine-tuned a pre-trained BERT language representation model for our specific task. Using this approach, our FR/NFR binary classifier achieved an average precision of 95.1 percent, an average recall of 92.6 percent, and an F1-score of 93.8 percent. The NFR classifier achieved an average precision of 90 percent and an average recall of 88.7 percent. Our approach and results enable automating the classification of software requirements in a straightforward and efficient way.

Verschiedene Forscher- und Entwicklerteams beschäftigen sich mit der Frage wie man Maschinen die menschliche Sprache beibringen kann. Um Maschinen sprechen zu lernen muss man sie mit großen Mengen an Daten füttern, diese Daten müssen für die Computer aufbereitet und mit Metadaten erweitert werden. Das hinzufügen solcher Anmerkungen nennt man Annotation. Die vorliegende Bachelorarbeit gibt einen Überblick über Annotation und den Vergleich von manuellen und semi-automatischen Ansätzen. Der erste Teil der Arbeit befasst sich mit dem theoretischen Hintergrund von Annotation und ver- schiedener Anwendungsgebiete. Einige Begriffe wie Natural Language Processing, Human Language Technologies und Distant Supervision werden erläutert und der Zusammenhang mit Annotation erklärt. Im Hintergrund-Kapitel werden auch verschiedene Tools und Techniken zur Annotation vorgestellt und ihre Anwen- dungsgebiete erläutert. Im praktischen Teil der Arbeit wird ein Webtool mit dem Dokumente annotieren kann vorgestellt. Das Ziel der Evaluation ist herauszufinden welche der zwei Me- thoden des Webtools besser für Annotation geeignet ist. Es werden zwei Ansätze gegenüber gestellt nämlich eine manuelle und eine semi-automatische. Methode 2 stellt Suchbegriffe in ihrem Kontext dar, diese Begriffe können per Mausklick zur Annotation hinzugefügt oder verworfen werden. Um die Forschungsfrage zu beantworten annotieren sieben Personen zwei wissenschaftliche Dokumente ein- mal mit der manuellen Methode, danach mit der semi-automatischen Methode. Außerdem muss jede Person einen Fragebogen zur Selbsteinschätzung ausfüllen. Das Ergebnis der Evaluation hat gezeigt, dass die manuelle Methode länger dauert dafür aber ein genaueres Ergebnis liefert. Die zweite Methode ist schneller dafür aber ungenauer. Zu beobachten war das der Großteil der Probanden sich wesentlich schlechter einschätzte als ihr tatsächliches Können.

Text simplification as a field is steadily increasing, but a lot of the problems are still far from being solved. The application which will be described in this thesis, aims to help with the one of the problems of text simplification, which is gathering enough data to train the models for automatic text simplification. This applica- tion should provide the framework for easier visualization, effortless editing and exporting of the annotated data, from articles written in German. The process of development and important design decisions were noted in the thesis, together with functional requirements and use cases. Main focuses of the application, during the development, was performance, easiness of use for novice users and correctness of the outputted data. To test these quality attributes and to evaluate if functional requirements are fulfilled, user testing was conducted. The results showed that all of the set requirements were fulfilled and users highly praised the performance and usability of the system, with some minor remarks as to how the system can be further improved.

When developing enterprise software applications, the goal is to expand the products life-span which is often done by developing a state of the art base to ensure the future expandability, integration of third-party applications and maintenance. Many companies started developing their tailored software in the early 2000s, but over the last 20 years, requirements for software products in terms of SLA, Testing and Fault Tolerance, to name a few, increased drastically as more and more issues came to light. As a result of this, a new architectural style emerged: Microservices. Microservices try to reduce technical challenges when developing applications and achieve a more structured way to develop software solutions on the organisation level. Whereas organisational structures can be changed relatively easily, the mi- gration of an existing legacy system towards microservices requires a lot of human work. Algorithmic techniques exist, but they heavily relay on static code analysis and ignore crucial runtime behaviours of the system. This thesis tackles that problem by presenting an algorithmic way to extract microservice candidates in a refactoring scenario entirely based on run-time data of the system. For this, a large amount of runtime-data was acquired and modelled as a graph. To represent the runtime dynamics of the system, a set of weight functions were defined. The extraction of the microservice candidates was realized by applying graph-based clustering algorithms on the graph representing the system. In addition to this, a web-based user-interface was developed to provide architectural insights before and after the extraction process. To assert and test the correctness of the developed approach the author entered a cooperation with the Raiffeisen Information Service, which tested and rated the output of the extraction process. Besides this, the correctness was verified via custom microservice-specific metrics. The results show that the described approach works very well for its structural simplicity and can be used to analyze the current state of the system and automate the extraction process arbitrary well.

Der Einfluss von Kundenbewertungen auf die Kaufentscheidung lässt sich in heutiger Zeit nicht leugnen. Menschen nutzen die Erfahrungen und Meinungen Anderer, um sich vor dem Einkauf über Produkte und Dienstleistungen zu Informieren. Doch dieses Verhalten kann ausgenutzt werden, um durch gezielte Platzierung von gefälschten Bewertungen Produkte in ein anderes Licht zu rücken. Diese Arbeit befasst sich mit der Identifikation von Fake Reviews. Ziel ist es, ein besseres Verständnis darüber zu erlangen, wie in Österreich mit potenziell gefälschten Reviews umgegangen wird. Dazu stellt sich die Frage, ob ein Bewusstsein darüber vorhanden ist, dass Fälschungen existieren. Im weiteren Zuge sollen auch Überlegungen zum schädlichen Einfluss von Fake Reviews und dem Umgang damit betrachtet werden. Durch Interviews mit Expertinnen und Experten werden angewendete Strategien erhoben und mit den Möglichkeiten aus der aktuellen Fachliteratur diskutiert. Die Auswahl von geeigneten Merkmalen soll zeigen, dass durch die Ermittlung von Verhaltensdaten eine deutliche Verbesserung gegenüber der ausschließlichen Betrachtung des Inhalts erreicht wird. Die Befragungen zeigen, dass aufgrund der geringen Reviewzahlen die einzelne Freigabe jeder Bewertung eine beliebte Lösung darstellt. Damit ist ein großes Potential durch Automatisierung bei steigenden Zahlen gegeben. Durch geeignetes Feature Engineering an einem Datensatz mit 3845 öffentlichen Reviews kann gezeigt werden , dass trotz einer scheinbar guten Moderation 10% der Produkte in einer Top-Bewerteten Produktliste ihren Platz durch verdächtige Accounts und Reviews erhalten haben. Es wurde eine Handlungsempfehlung vorgestellt, die durch menschliche Erkennung in Kombination mit bereitgestellten Verhaltensmerkmalen auf einfachem Weg höhere Erkennungsraten liefert. Weiterführende Forschung könnte zeigen, welche Schritte für einen strukturierten Übergang von menschlicher Identifikation zur vollautomatischen Erkennung nötig sind

Als Folge der Einführung neuer Technologien wie Cloud Computing und Big Data sehen wir grundlegende Veränderungen bei traditionellen Geschäftsmodellen sowie das Entstehen neuer Modelle. So sammeln und nutzen immer mehr Unternehmen Daten, um ihren Wettbewerbsvorteil auszubauen. Viele von ihnen haben jedoch Schwierigkeiten, die vorhandenen Daten effektiv zu nutzen und ein datengesteuertes Geschäftsmodell zu implementieren. Um einen solchen grundlegenden organisatorischen Wandel durchzuführen, ist eine Bewertung des aktuellen Geschäftsmodells notwendig, um dessen Reifegrad in Bezug auf die Datenerfassung und -nutzung zu bestimmen. Ziel dieser Arbeit war es, die wissenschaftliche Literatur zu Reifegradmodellen zur Bewertung datengetriebener Unternehmen sowie den Großteil der grauen Literatur, die von Beratungsunternehmen erstellt wurde, zu untersuchen, um den Stand der Forschung zusammenzufassen, ein Reifegradmodell zu konstruieren und schließlich datengetriebenen Organisationen ein Werkzeug an die Hand zu geben, um ein besseres Verständnis ihrer aktuellen Fähigkeiten in Bezug auf die Datennutzung zu erhalten und Geschäftsfelder mit Zukunftspotenzial zu identifizieren.Die Auswertung 16 bestehender Reifegradmodelle zeigte folgende Einschränkungen. Das Fehlen eines systematischen Rahmens für die Entwicklung von Reifegradmodellen und eine unzureichende Dokumentation des Erstellungsprozess. Der letzte Schritt der Arbeit beinhaltete die Erstellung eines Reifegradmodells unter Berücksichtigung der Einschränkungen der bewerteten Reifegradmodelle und das Testen des neu erstellten Modells in einer Interviewstudie. Keine solche Bewertung kann das institutionelle Wissen langjähriger Führungskräfte ersetzen, aber ein gut konzipiertes Reifegradmodell, das in überschaubare Dimensionen unterteilt ist, kann Organisationen dabei helfen, von Beobachtungen zu praktischen, gewinnbringenden Handlungsweisen überzugehen.

Evaluation of Job Recommendations for the Studo Jobs Platfor

Today the internet is growing fast as users generate an increasing amount of data. Therefore, finding relevant information is getting more and more time- consuming. This happens as the internet consists of a larger amount of data that is distributed over various information sources. Search engines filter data, and reduce the time required to find relevant information. We focus on scientific literature search where search engines help to find scientific articles. An advantage of scientific articles is that they share a common structure to increase their readability. This structure is known is IMRaD (Introduction, Method, Results and Discussion). We tackle the question whether it is possible to improve the search result quality while searching for scientific works by leveraging IMRaD structure information. We use several state-of-the-art ranking algorithms, and compare them against each other in our experiments. Our results show that the importance of IMRaD chapter features depends on the complexity of the query. Finally, we focus on structured text retrieval and the influence of single chapters on the search result. We set out to tackle the problem to improve the quality of the results produced by state-of-the-art ranking algorithms for scientific literature research.

Automatically separating text into coherent segments sharing the same topic is a nontrivial task in research area of Natural Language Processing. Over the course of time text segmentation approaches were improved by applying existing knowledge from various science fields including linguistics, statistics and graph theory. At the same time obtaining a corpus of textual data varying in structure and vocabulary is problematic. Currently emerging application of neural network models in Natural Language Processing shows promise, which particularly can be seen on an example of Open Information Extraction. However the influence of knowledge obtained by an Open Information Extraction system on a text segmentation task remains unknown. This thesis introduces text segmentation pipeline supported by word embeddings and Open Information Extraction. Additionally, a fictional text corpus consisting of two parts, novels and subtitles, is presented. Given a baseline text segmentation algorithm, the effect of replacing word tokens with word embeddings is examined. Consequently, neural Open Information Extraction is applied to the corpus and the information contained in the extractions is transformed into word token weighting used on top of the baseline text segmentation algorithm. The evaluation shows that application of the pipeline to the corpus increased the performance for more than a half of novels and less than a half of subtitle files in comparison to the baseline text segmentation algorithm. Similar results are observed in a preliminary step in which word tokens were substituted by their word embedding representations. Taking into account complex structural features of the corpus, this work demonstrates that text segmentation may benefit from incorporating knowledge provided by an Open Information Extraction system.

Portable Document Format (PDF) is one of the most commonly used file formats. Many current PDF viewers support copy-and-paste for ordinary text, but not for mathematical expressions, which appear frequently in scientific documents. If one were able to extract a mathematical expression and convert them into another format, such as L A TEX or MathML, the information contained in this expression would become accessible for a wide array of applications, for instance screen readers. An important step to achieve this goal is finding the precise location of mathematical expressions, since this is the only unsolved step in the formula extraction pipeline. Accurately performing this crucial step is the main objective of this thesis. Unlike previous research, we use a novel whitespace analysis technique to demarcate coherent regions within a PDF page. We then use the identified regions to compute carefully selected features from two sources: the grayscale matrix of the rendered PDF file and the list of objects within the parsed PDF file. The computed features can be used as input for various classifiers based on machine learning techniques. In our experiments we contrast four different variants of our method, where each uses a different machine learning algorithm for classification. Further, we also aim to compare our approach with three state of the art formula detectors. However, the low reproducibility of these three methods combined with logical inconsistencies in their documentation greatly complicated a faithful comparison with our method, leaving the true state of the art unclear, which warrants further research.

This thesis presents a novel way of creating grid-based word puzzles, named the AI Cruciverbalist. These word puzzles have a large fan base of recreational players and are widespread in education. The puzzle creation process, an NP-hard problem, is not an effortless task, and even though some algorithms exist, manual puzzle creation achieved the best results so far. Since new technologies arose, es- pecially in the field of data science and machine learning, the time had come to evaluate new possibilities, replace existing algorithms and improve the quality and performance of puzzle generation. In particular neural networks and constraint programming were evalu- ated towards feasibility, and the results were compared. The black box of a trained model makes it hard to ensure positive results, and due to the impossibility of modelling some requirements and con- straints, neural networks are rated unsuitable for puzzle generation. The significance of correct values in puzzle fields, the approximative nature of neural networks, and the need for an extensive training set additionally make neural networks impractical. On the other hand, precisely modelling requirements for a constraint satisfaction prob- lem has shown to create excellent results, finding an exact solution, if a solution exists. The presented results achieved with the constraint programming approach are rated as successful by domain experts, and the algorithm has been successfully integrated into an existing puzzle generator software for use in production.

People use different styles of writing according to their personalities. These dis- tinctions can be used to find out who wrote an unknown text, given some texts of known authorship. Many different parts of the texts and writing style can be used as features for this. The focus in this thesis lies on topic-agnostic phrases that are used mostly unconsciously by authors. Two methods to extract these phrases from texts of authors are proposed, which work for different types of input data. The first method uses n-gram tf-idf calculations to weight phrases while the second method detects them using sequential pattern mining algorithms. The text data set used is gathered from a source of unstructured text with a plethora of topics, the online forum called Reddit. The first of the two proposed methods achieves average F1-scores (correct author predictions) per section of the data set ranging from 0.961 to 0.92 within the same topic and from 0.817 to 0.731 when different topics were used for attribution testing. The second method scores in the range from 0.652 to 0.073, depending on configuration parameters. In current times, due to the massive amount of content creation on such platforms, using a data set like this and using features that work for authorship attribution with texts of such nature is worth exploring. Since these phrases have been shown to work for specific configurations, they can now be used as a viable option or in addition to other commonly used features.

A problem that came up during the last twenty-five years is the re-finding of emails. Many different groups of people have thousands of emails in their inboxes, which often causes frustration during the search for older emails. This fact is reason enough to think about new solutions for this issue. Is the continually managing of your emails with folders and labels the best answer? Or is it more efficient to use a memory-based attempt? In this thesis, we planned and implemented a search tool for Mozilla Thun- derbird to test if it is reasonable to use the human’s associative memory for re-finding. The first step was to investigate which different things, besides the conventional text and name, people potentially remember to an email. The decision fell on the separation into three additional searching features. They focus on the email partner’s primary data, on side facts to the date, and the option to search for a second email, which the user possibly associates with the wanted email. To check if the tool is applicable, we evaluated it with several test persons by giving them tasks to complete in a test email environment. The results showed a positive attitude toward these new searching ways. Especially the date-related features were rated very high. These results lead to the motivation of potentially starting further research on the topic. By discovering that dates tend to be remembered quite well, we can improve the tool in this direction before starting a large-scale evaluation with real email data.

This present work elaborates on how a browser’s bookmark functionality, a common tool to aid revisitation of web pages, can be improved concerning performance and user experience. After identifying and investigating issues arising with state-of-the- art approaches, solutions to that issues were elaborated and a browser extension for the Google Chrome browser was implemented based on the gathered insight. A special focus was put on developing novel functions that allow for incorporating temporal relations between bookmarks of a given bookmark collection as well as a feature that supports searching for bookmarked web pages by colour. Ten participants completed an evaluation of the implemented browser extension in order to investigate its performance and usability. The study showed that users familiarise quickly with the proposed novel functions and rated their ease of use and helpfulness positively. However, though the suggested functions were commented positively on by participants and showed advantages over traditional full-text search for special cases where some (temporal) context is required, full-text search extended by widespread functions like autocomplete suffice for most of the basic use cases.

Test case prioritization is a common approach to improve the rate of fault detection. In this scenario, we only have access to very limited data in terms of quantity and quality. The development of an useable method in such a limited environment was the focus of this thesis. For this purpose, we made use of log output and requirement information to create a cluster-based prioritization method. For evaluation, we applied the method to regressions of a device currently in development. The results indicate no impactful improvement, based on the simple and limited metrics used. To show the importance of fault knowledge, we generated a simplified dataset and applied the same prioritization method. With the now existing awareness of faults we were able to evaluate the method using a well established fault-based metric. The results of the generated dataset indicate a great improvement in the rate of fault detection. Despite the restrictions of this limited environment the implemented method is a solid foundation for future exploration.

Anomaly detection on sequential time series data is a research topic of great relev- ance with a long standing history of publications. In the context of time series data, anomalies are subsequences of data that differ from the general pattern. Frequently, these specific areas represent the most interesting regions in the data, as they often correspond to the influence of external factors. Problems which conventional anomaly detection frameworks face are the limita- tion to highly domain specific applications and the requirement for pre-processing steps in order to function as intended. Through the use of the Recurrence Plot, the algorithm proposed in this thesis, initially seeks to capture the pattern of recurrence found in sequential time series data. An ensuing step for vector quantization by Growing Neural Gas ensures more efficient computation of collective anomalies. Furthermore, the usual preprocessing steps for noise removal are bypassed by the topology preservation aspects the Growing Neural Gas provides. Recurrence Plot construction is done according to a sliding window approach. The results indicate that both the noise removal by Growing Neural Gas and the pattern preservation by the Recurrence Plot, lead to highly accurate results, with the proposed Anomaly Detector finding all anomalies in a real world data set of Austria’s Power Consumption in the year 2017. Having demonstrated the applicability and potential of combining the Growing Neural Gas with the Recurrence Plot, it seems likely that these concepts could also be adapted to detect further anomalies such as contextual ones.

Wikipedia is the biggest online encyclopedia and it is continually growing. As its complexity increases, the task of assigning the appropriate categories to articles becomes more difficult for authors. In this work we used machine learning to auto- matically classify Wikipedia articles from specific categories. The classification was done using a variation of text and metadata features, including the revision history of the articles. The backbone of our classification model was a BERT model that was modified to be combined with metadata. We conducted two binary classification experiments and in each experiment compared various feature combinations. In the first experiment we used articles from the category ”Emerging technologies” and ”Biotechnology”, where the best feature combination achieved an F1 score of 91.02%. For the second experiment the ”Biotechnology” articles are exchanged with random Wikipedia articles. Here the best feature combination achieved an F1 score of 97.81%. Our work demonstrates that language models in combination with metadata pose a promising option for document classification.

Bei Großveranstaltungen entsteht ein sehr hoher Managementaufwand um die Sicherheit für alle Besucher gewährleisten zu können. Es sind nämlich nicht nur private Sicherheitskräfte im Einsatz, sondern oft auch Polizei, Rettung, oder auch die Feuerwehr. Aus diesem Grund ist es sehr wichtig, dass alle beteiligten Organisationen effizient und ohne organisatorische Pro- bleme zusammenarbeiten können. Bei Notfällen, kann es durch schlechten Informationsaustausch schnell zu einer kritischen Situation kommen. Um dieses Problem zu beheben, wurde eine Managementlösung entwickelt mit der es möglich ist den Informationsaustausch zu optimieren, so dass alle Beteiligten schnellen und einfachen Zugriff auf alle Informationen haben. Das System besteht aus einer Web-Anwendung für die Einsatzzentrale, so wie einer Android-Applikation für alle mobilen Einheiten. Da es mit diesem Managementsystem nun möglich ist, dass alle Organisationen, das selbe System verwenden, können die Informationen direkt an alle zuständigen Organisationen ohne Umwege gesendet werden. Durch die Verwendung einer eigenen Android-Applikation verfügen außerdem auch alle mobilen Einsatzkräfte über die notwendigen Informationen und nicht mehr nur die Einsatzzentrale. Somit können durch den optimierten Informations- austausch zwischen allen beteiligten Organisationen, kritische Situation effizient und ohne organisatorische Problem gelöst werden. Dieses Projekt ist zwar lediglich ein Prototyp, aber es zeigt bereits sehr gut, was alles möglich ist, und wie es eingesetzt werden kann.

Political debates today are increasingly being held online, through social media andother channels. In times of Donald Trump, the American president, who mostlyannounces his messages via Twitter, it is important to clearly separate facts fromfalsehoods. Although there is an almost infinite amount of information online, toolssuch as recommender systems, filters and search encourage the formation of so-called filter bubbles. People who have similar opinions on polarizing topics groupthemselves and block other, challenging opinions. This leads to a deterioration ofthe general debate, as false facts are difficult to disprove for these groups.With this thesis, we want to provide an approach on how to propose different opin-ions to users in order to increase the diversity of viewpoints regarding a politicaltopic. We classify users into a politic spectrum, either pro-Trump or contra-Trump,and then suggest Tweets from the other spectrum. We then measure the impact ofthis process on diversity and serendipity.Our results show that the diversity and serendipity of the recommendations can beincreased by including opinions from the other political spectrum. In doing so, wewant to contribute to improving the overall discussion and reduce the formation ofgroups that tend to be radical in extreme cases

Diese Arbeit beschäftigt sich mit der Anwendung von Data Mining-Algorithmen zur Informati-onsgewinnung im Softwaresupport. Data Mining-Algorithmen sind Tools der sogenannten „Knowledge Discovery“, der interaktiven und iterativen Entdeckung von nützlichem Wissen. Sie werden eingesetzt, um Daten zu analysieren und über statistische Modelle wertvolle In-formationen einer Domäne zu finden. Die Domäne in dieser Arbeit ist der Softwaresupport, jene Abteilung in Softwareentwicklungs-Unternehmen, die Kundinnen und Kunden bei der Lösung von Problemen unterstützt. Meist sind diese Supportabteilungen als Callcenter organisiert und arbeiten zusätzlich mit Ticketsys-temen (einem E-Mail-basierten Kommunikationssystem). Zweck dieser Arbeit ist es zu prüfen, inwiefern Data Mining-Algorithmen im Softwaresupport angewendet werden und ob tatsächlich wertvolle Informationen identifiziert werden können. Erwartet wird, Informationen über das Supportverhalten von KundInnen sowie den Einfluss von externen Faktoren wie Wetter, Feiertage und Urlaubszeiten zu entdecken. Die Literaturrecherche dieser Arbeit, beinhaltet unter anderem die Themen Personaleinsatz-planung im Softwaresupport und Data Science (Zusammenfassender Begriff für Data Mining, Data Engineering oder Data-Driven Decision Making, etc.). Im „experimental Setup“ finden Interviews zum Thema Status quo- und Kennzahlen im Softwaresupport mit führenden öster-reichischen Softwarehäusern sowie eine Fallstudie zur Anwendung eines Data Mining-Vorgehensmodells statt. Letztlich wird in einem Feldexperiment geprüft, ob es mit Data Mi-ning-Algorithmen tatsächlich möglich ist, Informationen für den Softwaresupport zu entdecken. Als Ergebnis dieser Arbeit zählen einerseits die Identifikation von Möglichkeiten, um im Sup-port Kosten zu sparen und Effizienz zu gewinnen und andererseits das Finden von wertvollen Informationen über Abläufe und Zusammenhänge im Support. Die gewonnenen Informationen können in weiterer Folge in den Supportprozess einfließen, um effektivere und effizientere Prozesse zu schaffen. Ein weiteres Resultat des Informationsgewinns ist auch die Qualitäts-steigerung von Managemententscheidungen sein

Due to a rapid increase in the development of information technology, adding computing power to everyday objects has become a major discipline of computer science, known as “The Internet of Things”. Smart environments such as smart homes are a network of connected devices with sensors attached to detect what is going on inside the house and what actions can be taken automatically to assist the resident of the house. In this thesis, artificial intelligence algorithms to classify human activities of daily living (having breakfast, playing video games etc.) are investigated. The problem is a time series classification for sensor-based human activity recognition. In total, nine different standard machine learning algorithms (support vector machine, logistic regression, decision trees etc.) and three deep learning models (multilayer perceptron, long short-term neural network, convolu- tional neural network) were compared. The algorithms were trained and tested on the ucami Cup 2018 data set from sensor inputs captured in a smart lab over ten days. The data set contains sensor data from four different sources: intelligent floor, proximity, binary sensors and acceleration data from a smart watch. The mutlilayer perceptron reported a testing accuracy of 50.31%. The long short-term neural network showed an accuracy of 57.41% (+/-13.4), the convolutional neural network in 70.06% (+/-2.3) on average - resulting in only slightly higher scores than the best standard algorithm logistic regression with 65.63%. To sum up the observations of this thesis, deep learning is indeed suitable for human activity recognition. However, the convolutional neural network did not significantly outperform the best standard machine learning algorithm when using this particular data set. Unexpectedly, the long short-term neural network and the basic multilayer perceptron performed poorly. The key drawback of finding a fitting machine learning algorithm to solve a problem such as the one presented in this thesis is that there is no trivial solution. Experiments have to be conducted to empirically evaluate which technique and which hyperparameters yield the best results. Thus the results found in this thesis are valuable for other researchers to build on and develop further approaches based on the new insights.

The artificial classification of audio samples to an abstraction of the recorded location (e.g., Park, Public Square, etc.), denoted as Acoustic Scene Classification (ASC), represents an active field of research, popularized, inter alia, as part of the Detection and Classification of Acoustic Scenes and Events (DCASE) challenge. Nevertheless, we are more concerned to artificially assign audio samples directly to the location of origin, i.e., to the location where the recording of the corresponding audio sample is conducted, which we denote as Acoustic Location Classification (ALC). The evidence for the feasibility of ALC contributes a supplementary challenge for acoustics-based Artificial Intelligence (AI), and enhances the capabilities of location dependent applications in terms of context-aware computing. Thus, we established a client-server infrastructure with an Android application as recording solution, and proposed a dataset which provides audio samples recorded at different locations on multiple consecutive dates. Based on this dataset, and on the dataset proposed for the DCASE 2019 ASC challenge, we evaluated the application of ALC, along with ASC, providing a special focus on constraining training and test sets temporally, and locally, respectively, to ensure reasonable generalization estimates with respect to the underlying Convolutional Neural Network (CNN). As indicated by our outcomes, employing ALC constitutes a comprehensive challenge, resulting in decent classification estimates, and hence motivates further research. However, increasing the number of samples within the proposed dataset, thus, providing daily recordings over a comparatively long period of time, e.g., several weeks or months, seems necessary to investigate the practicality and limitations of ALC to a sufficient degree.

Die Erkennung von Communities ist ein essenzielles Werkzeug für die Analyse von komplexen sozialen und biologischen Netzwerken, sowie von Informationsnetzwerken. Unter den bislang veröffentlichten, zahlreichen Community-Erkennungsalgorithmen ist Infomap ein prominentes und etabliertes Framework. In dieser Masterarbeit präsentieren wir eine neue Methode zur Erkennung von Communities, welche von Infomap inspiriert ist. Infomap wählt eine analytische Herangehensweise an das Community-Erkennungsproblem, indem die erwartete Beschreibungslänge eines Zufallslaufs auf einem Netzwerk minimiert wird. Im Gegensatz dazu minimiert unsere Methode die Unterschiedlichkeit, quantifiziert via Kullback-Leibler Divergenz, zwischen einem Graph-induzierten und einem synthetischen Zufallsläufer, um eine Partition in Communities zu erhalten. Daher nennen wir unsere Methode Synthesizing Infomap. Spezifischer behandeln wir Community-Erkennung in ungerichteten Netzwerken mit nicht-überlappenden Communities und zweischichtigen Hierarchien. In dieser Arbeit präsentieren wir eine Formalisierung sowie eine ausführliche Herleitung der Synthesizing Infomap Zielfunktion. Anhand der Anwendung von Synthesizing Infomap auf eine Gruppe von Standardgraphen erkunden wir dessen Eigenschaften und qualitatives Verhalten. Unsere Experimente an künstlich generierten Benchmark-Netzwerken zeigen, dass Synthesizing Infomap dessen ursprüngliche Version bezüglich „Adjusted Mutual Information“ auf Netzwerken mit schwacher Community-Struktur übertrifft. Beide Methoden zeigen gleichwertiges Verhalten bei Anwendung an einer Auswahl von realen Netzwerken. Dies indiziert, dass Synthesizing Infomap auch in praktischen Anwendungsfällen sinnvolle Ergebnisse liefert. Die vielversprechenden Resultate von Synthesizing Infomap motivieren eine weiterführende Evaluierung anhand von realen Netzwerken, sowie mögliche Erweiterungen für mehrstufige Hierarchien und überlappende Communities.

As the complexity of a software projects rises it can become difficult to add new features. Additionally to the maintainability, other quality attributes such as reliab- ility and usability may suffer from the increased complexity. To prevent complexity from becoming an overwhelming issue we use principles of good programming and reside to well known software architectures. We often do so, by choosing to use specific frameworks. However, we can only subjectively judge whether or not the usage of a specific framework resulted in less perceived complexity and an improvement in other quality attributes. In our work, we investigated the applicability of existing software measurements for measuring desired quality attributes and their applicability for framework com- parison. We chose a set of quantitative software measurements which are aimed at specific quality attributes, namely maintainability and flexibility. Additionally, we used well established software measurements such as McCabes Cyclomatic Com- plexity [44] and Halsteads Metrics [32] to measure the complexity of a software. By developing the same application using two different web frameworks, namely ReactJS and Laravel, over a set of predefined ‘sprints’, each containing a specific set of features, we were able to investigate the evolution of different software measurements. Our results show that some of the measurements are more applic- able to the frameworks chosen than others. Especially measurements aimed at quantitative attributes of the code such as the coupling measures by Martin [43] and the Cyclomatic Complexity by McCabe [44] proved particularly useful as there is a clear connection between the results of the measurements and attributes of the code. However, there is still the need for additional work which focuses on defining the exact scale each of the measurements operates on, as well as need for the development of tools which can be used to seamlessly integrate software measurements into existing software projects.

Traffic accident prediction has been a hot research topic in the last decades. With the rise of Big Data, Machine Learning, Deep Learning and the real- time availability of traffic flow data, this research field becomes more and more interesting. In this thesis different data sources as traffic flow, weather, population and the crash data set from the city of Graz are collected over 3 years between 01.01.2015 and 31.12.2017. In this period 5416 accidents, which were recored by Austrian police officers, happened. Further these data sets are matched to two different spatial road networks. Beside feature engineering and the crash likelihood prediction also different imputation strategies are applied for missing values in the data sets. Especially missing value prediction for traffic flow measurements is a big topic. To tackle the imbalance class problem of crash and no-crash samples, an informative sampling strategy is applied. Once the inference model is trained, the crash likelihood for a given street link at a certain hour of the day can be estimated. Experiment results reveal the efficiency of the Gradient Boosting approach by incorporating with these data sources. Especially the different districts of Graz and street graph related features like centrality measurements and the number of road lanes play an important role. Against that, including traffic flow measurements as pointwise explanatory variables can not lead to a more accurate output accuracy.

The entry point of this master thesis is the context-based Web-Information- Agent Back to the Future Search (bttfs) which was developed with the goal of shortening the period of vocational adjustment while working on different projects at once as well as providing different functionalities for finding and re-finding relevant sources of information. bttfs supports the learning of a context-based user profile in two different ways. The first way is to learn the user profile by the use of a cosine-distance function applied on the Term Frequency-Inverse Document Frequency (tf-idf) document vectors and the second approach is to learn the user profile with a one-class Support Vector Machine (svm). Furthermore, the Information Retrieval methods Best Matching 25 (bm25), Term Frequency (tf), and tf-idf, are used on the created model, to determine the most relevant search queries for the user’s context. The central question answered in this thesis is stated as follows: ”Is it possible to anticipate a users future information need by exploiting the past browsing behavior regarding a defined context of information need?” To answer this question the methods above were applied to the AOL- dataset1, which is a collection of query logs, that consists of roughly 500.000 anonymous user sessions. The evaluation showed that a combination of the cosine-distance learning function and the tf weighting function yielded promising results ranging between 18.22% - 19.85% matching rate on av- erage, for the first three single word queries that appeared in advancing order on the timeline of the user actions. While the difference in perfor- mance between the cosine-distance method and the svm method appeared to be insignificant, tf and tf-idf outperformed bm25 in both of the tested scenarios. Regarding to the gained results, it can be stated, that the future information need of a particular user can be derived from prior browsing behavior in many cases, when the context of information need remained in the same context. Therefore, there are scenarios in which systems like bttfs can aid and accelerate the user’s information generation process by providing automated context-based queries.

This present work elaborates on how a browser’s bookmark functionality, a common tool to aid revisitation of web pages, can be improved concerning performance and user experience. After identifying and investigating issues arising with state-of-the- art approaches, solutions to that issues were elaborated and a browser extension for the Google Chrome browser was implemented based on the gathered insight. A special focus was put on developing novel functions that allow for incorporating temporal relations between bookmarks of a given bookmark collection as well as a feature that supports searching for bookmarked web pages by colour. Ten participants completed an evaluation of the implemented browser extension in order to investigate its performance and usability. The study showed that users familiarise quickly with the proposed novel functions and rated their ease of use and helpfulness positively. However, though the suggested functions were commented positively on by participants and showed advantages over traditional full-text search for special cases where some (temporal) context is required, full-text search extended by widespread functions like autocomplete suffice for most of the basic use cases.

The analysis of users’ behaviours when working with user interfaces is a complex task. It requires various sensing technologies and complex modelling of input/response relationships. A huge amount of data is collected and analysed today but there are multiple crucial factors that play an unknown role in improving human decision processes. The development of new user interfaces and the usage of suitable techniques to recognise interaction patterns, is crucial for creating adaptive systems. Our work is focused on fault tolerance of Human Machine Interfaces and we develop systems that accept physical user measurements as additional inputs. This can be used to create assistive and adaptive user interfaces and as a way to improve recommendations.

In this thesis, we present a system to recognise natural appearing gestures using a self build smartglove prototype. We explain the nature of gestures and the anatomy of the human arm and go into the theory of gesture recognition. A user study is used as a basis of a data-driven approach to gesture recognition, where all possible features from human activity recognition are generated, and automatic methods to select a good set of features are explored. We extend this approach even further with a novel algorithm for selecting sensors for a specific target system. Recursive Sensor Elimination (RSE) selects sensors recursively using a heuristic function to find the best configuration for a given subset of gestures. We explain the use cases, the detail of the RSE algorithm and first experimental results. It shows the problems when someone tries to apply the insights of this work to consumer hardware in the form of a smartwatch experiment and which design decision have to be made. Within this experiment, it presents a possible method to augment IMU time series data if the labels are not corrupted by speeding up or slowing down the time series and adding some noise. With this, it is possible to train a simple system to allow steering f.e. a slide set with your watch.

Propaganda is one of the biggest problems in the modern world because it provokes conflicts which can lead to a great loss of human life. The annexation of Crimea and following conflict in Eastern Ukraine is a prime example of it. This conflict lead to thousands of lost lives and millions of displaced people. The lack of research on the topic of unsupervised propaganda detection led us to devise methods for analysing propaganda that does not rely on fact checking or makes use of a dedicated ground truth. Instead, we base our measures on a set of guiding principles that constitutes the intention of an propagandist authors. For each of these principles we propose techniques from the fields of Natural Language Processing and Machine Learning. We have chosen the Russian military intervention in Ukraine as our focus, and the Russian News and Information Agency as our data source. We found the representation of Ukraine to be remarkably different to other countries, hinting that the principles of propaganda might be applicable in this case. Our quantitative analysis paves the way to more in-depth qualitative analysis.

With the increasing development of technology nowadays a diverse number of possibilities have arisen but new challenges come into play too. These developments have made it possible to move towards Industry 4.0 and the so-called Smart Factories. It is the new manufacturing system where everything is supposed to be connected. This can have a big impact like in supporting decision making, in shortening the production life-cycle or in enabling highly customizable product manufacturing, which can be achieved by making use of the right data. The data that flows within a Smart Factory can be of an enormous volume, is heterogeneous and they do not come only from a single data source. However, the systems have to bring the created data into play somehow. The challenge here is to transform the created Big Data to the more valuable Smart Data, so that later in the process, analytics like Predictive Maintenance or Retrospective Analysis can be performed successfully on those data. This is also the aim of this Master’s Thesis. In order to solve this problem, a prototype service called Smart Data Service has been developed so that the raw incoming data streams are aggregated and put together in a more reduced but valuable format, known as Smart Data. For the testing purposes and the evaluation of the work, it was necessary to additionally develop a Smart Factory Simulator, which is supposed to emulate different scenarios of a manufacturing setup. Two use cases have been taken into consideration for evaluating the Smart Data Service - aggregating data that would be useful for applying Retrospective Analysis and aggregating data that would be useful for Predictive Maintenance. Finally, the results show that the aggregated Smart Data can have considerable value for performing Retrospective Analysis as well as Predictive Maintenance.

The modern economy heavily relies on data as a resource for advancement and growth. A huge amount of data is produced continuously, and only a fragment of the amount is handled properly and efficiently. Data marketplaces are increasingly gaining attention. They provide possibilities to exchange, trade and access different kinds of datasets across organizations, between interested data providers and data buyers. Data marketplaces need stable and efficient infrastructure for their operations, and a suitable business model in order to provide and gain value. Due to the rapid development of the field, and its recent high increase in popularity, the research on business models of data marketplaces is fragmented. This thesis aims to address the issue by identifying dimensions and characteristics of data marketplaces, which outline the characteristics of their business models. Following a rigorous process for taxonomy building, a business model taxonomy for data marketplaces is proposed. Using the evidence from a final sample of twenty available data marketplaces, the frequency of characteristics of data marketplaces is analyzed. In addition, four data marketplace business model archetypes are identified. The findings reveal the impact of the structure of data marketplaces as well as the relevance of infrastructure, regulations and security issues handling for identified business model archetypes. Therefore, this study contributes to the growing body of literature on digital business strategies.

Die Automobilindustrie erfährt aufgrund technologischer Entwicklungen, wie zum Beispiel dem autonomen Fahren oder der Elektrifizierung des Antriebsstranges, bedeutende Veränderungen. Einhergehend mit diesen Veränderungen, ist ein deutliches Wachstum generierter Daten, welche in sämtlichen Phasen der Automobilen Wertschöpfungskette erzeugt werden. Ziel vieler Unternehmen ist es, diese zur Verfügung stehenden Daten, wirtschaftlich zu verwerten. Die zwei bedeutendsten Möglichkeiten hierfür sind die datenbasierte Umsatzsteigerung, welche beispielsweise den Verkauf von Daten oder das Angebot von datenbasierten Services, beinhaltet, und die Kostenreduktion basierend auf dem Wissen, welches mittels vorhandener Daten generiert wird. Das große ökonomische Potential, welches von diversen Unternehmungen und Institutionen, darunter auch McKinsey (2016c, p.7ff), vorhergesagt wird, ruft Unternehmen aus verschiedenen Geschäftsbereichen auf den Plan, in diesem Bereich tätig zu werden. Neben den konventionellen Unternehmen in der Automobilindustrie, wie OEMs und Entwicklungsdienstleistern, versuchen neue Marktteilnehmer wie zum Beispiel IT-Unternehmen und Start-ups, im Datengeschäft der Automobilindustrie, Fuß zu fassen. Ziel dieser Arbeit ist es, eine Auswahl an, für die AVL relevanten, Entwicklungsdienstleistern, IT-Unternehmen und Start-ups zu identifizieren, diese auf ihr Marktangebot an datenbasierten Dienstleistungen, Produkten, Plattformen und anderen datenbasierten Aktivitäten, wie etwa Forschung, Kooperationen oder Firmenübernahmen, zu analysieren und die Ergebnisse zu interpretieren. Die Bestimmung der zu analysierenden Unternehmen basiert auf Rankings welche die umsatzstärksten Entwicklungsdienstleister in der Automobilindustrie sowie die umsatzstärksten IT-Unternehmen in der deutschen Automobilindustrie identifiziert. Relevante Start-ups wurden mit Hilfe einer Start-up Abfrage des Unternehmens Innospot bestimmt. Unternehmen dieser drei Unternehmensgruppen wurden auf Basis der öffentlich verfügbaren Informationen analysiert. Relevante Informationen bezüglich datenbasierter Dienstleistungen, Produkte und anderer datenbasierten Aktivitäten wurden unter Verwendung von Clustern kategorisiert und mit zusätzlichen Informationen aufgenommen. In dieser Arbeit kann ein Cluster als Themengebiet verstanden werden, wie zum Beispiel „Autonomes Fahren“ oder „Testen“. Die Auswertung der durch die Analyse gewonnen Daten, führte zu einer Vielzahl an Ergebnissen. Durch die Methode des Clusterns, wurden die Aktivitätsbereiche der Unternehmen, sowie jene Bereiche, in denen keine Aktivität festgestellt wurde, ermittelt. Eine Gegenüberstellung der Aktivitätsbereiche der analysierten Unternehmen mit jenen der AVL, identifiziert Unternehmen nach ihrer Cluster-Übereinstimmung mit der AVL. Jene Cluster, in denen keine Aktivität der AVL festgestellt werden konnte, wurden einer eigenen Analyse unterzogen, um Unternehmen zu identifizieren, welche in diesen Bereichen aktiv sind. Eine separate Analyse zeigt die Aktivität der analysierten Unternehmensgruppen in den Phasen der Automobilen Wertschöpfungskette. Entwicklungsdienstleister sind in den Phasen Entwicklung, Validierung, Produktion und Aftersales aktiv. Der Schwerpunkt der IT-Unternehmen liegt im Bereich der Produktion und des Aftersales. Start-ups legen ihren Fokus hauptsächlich auf den Aftersales Bereich. Diese Arbeit beschäftigt sich auch mit der Frage, ob Entwicklungsdienstleister und IT-Unternehmen an denselben datenbasierten Themen arbeiten oder ob eine klare Differenzierung möglich ist. Um diese Frage zu beantworten, wurde eine Competitive Landscape erstellt, welche die gegenwärtige Position von zuvor definierten Entwicklungsdienstleistern, IT-Unternehmen und Start-ups darstellt. Speziell größere Entwicklungsdienstleister, welche in vielen Clustern aktiv sind, sind vermehrt auch in IT-Bereichen tätig.

The subject area of automated Information Extraction from PDF documents is of high relevance since the PDF standard is still one of the most popular document formats for information representation and exchange. There is no structuring blue- print for PDF documents, which makes automated information gathering a complex task. Since tables are structuring elements with a very high information density, the field of Table Detection is highly relevant in the context of Information Extraction. Due to the high variety of formats and layouts it is hard to choose the correct tool that suits optimally for every specific scenario. In this thesis, the added value of techniques used to identify table structures in scanned PDF documents is evaluated. Therefore, two algorithms were implemented to allow an objective comparison of Table Extraction applied on different types of PDF documents. While the algorithm developed to treat native PDFs is based on heuristics, the second approach relies on deep-learning techniques. The evaluation of both implementations showed that the heuristic approach performs excellent in detecting tables. However, it shows weaknesses in distinguishing non-tabular areas that show similarities to table struc- tures, from tabular areas. Therefore, the Recall metric shows better results than the Precision for the heuristic method. When applying Table Detection on scanned PDFs using the second approach, the low number of False Positives and therefore the superior Precision value compared to the first approach is notable. On the other hand the number of tables not detected as trade-off for the high Precision result in a lower Recall for single- as well as multi-column documents if partial detections are classified as correct results. Furthermore, limitations that reduce the detection-ratio were detected. This concerns structures that share similarities with tables, like figures, formulas and pseudo-code. These mentioned limitations are particularly relevant for the heuristic and less for the deep-learning based approach. All in all, there were several findings concerning advantages and disadvantages of applying Table Detection on scanned and native documents. Based on the evaluation results, strategies were elaborated of when to preferably use a specific approach dependent upon the document type, layout and structuring elements.

Prognosen in heutigen Lieferketten sind von immer mehr Einflussfaktoren abhängig und deshalb wird es immer schwieriger, die Laufzeiten vorherzusagen. Aus diesem Grund müssen oft externe Systeme abgefragt werden, was in der Regel ressourcenintensiv ist. Ziele dieser Arbeit sind die Entwicklung und Einführung eines Entscheidungsbaumes, um die direkte Abhängigkeit von externen Services zu eliminieren und die Vorhersa- ge anhand von historischen Daten durchzuführen. Über einen Datengenerator können synthetische aber auch konstante Testdaten erzeugt und somit die Performance des ent- wickelten Entscheidungsbaumes getestet werden. Der Baum selbst unterscheidet zwischen Entscheidungsfragen und manuellen Fragen. Entscheidungsfragen werden vollständig in der Lernphase anhand der Parameter-Objekte definiert, wohingegen manuelle Fragen vorab programmiert werden. Eine Entscheidungs- findung basiert auf der Grundlage, dass so wenig Ebenen wie möglich erzeugt werden. Die Vereinfachung des Baumes wird anhand von mathematischen Operationen bzw. statis- tischen Werkzeugen, wie dem Ignorieren von unwahrscheinlichen Ergebnissen, erreicht. In dieser Arbeit wird gezeigt, dass es möglich ist, eine NoSQL Datenbank für das Spei- chern von Entscheidungsmodellen zu verwenden. Darüber hinaus kann aufgezeigt wer- den, dass die Vorhersage des Zustelldatums in einem Online-Shop mittels Entscheidungs- baum möglich ist.

In order to provide accurate statistics and information on how much work was published by institutes and researchers, Graz University of Technology uses a com- mercial research management system called PURE. The university would like to have all work which was published by its institutes and researchers registered to this system. However, registering older publications to this system is a daunting task be- cause missing meta-information has to be entered manually. The project behind this thesis was to develop an application which makes the import of meta-information provided by other research portals into this system easier. This problem had to be tackled by the development of smart algorithms to infer missing meta-information, and an user-interface which supports the definition of default values for informa- tion where no inference is possible. Those tasks involved working with public and private API’s, parsing and generating large XML-files and the implementation of an architecture which supports multiple different sources for meta-information on publications. The development of this application was successful and the generation of XML for a bulk import of meta-information from another research portal called DBLP is now possible. The application is easily extensible in respect to the addition of other research portals and provides versatile settings to adjust the generation of import-XML more specifically. Users with administrative access to the PURE server of the university can now select publications from supported research portals and generate large XML-files for a bulk import of meta-information. Only a long- term field test of this application will show whether or not the problem has been completely solved by this work.

In automatised warehouses often unwanted situations, which are called problems, occur. In this bachelor’s thesis, a system component which col- lects information about these problems and offers solutions to overcome these was developed. This component was integrated into an existing ware- house management system. Out of ten common problematic scenarios, 26 requirements which define functional and non-functional attributes of the desired system component have been worked out. From process details like recognition of problems, the definition of problems and their solutions and handling of these by users are covered in this thesis. Then, a chosen set of demands was implemented in a proof-of-concept solution. Additionally, the introduced scenarios were implemented in a demonstration warehouse. In the provided framework, the implemented scenarios can be observed and handled by users. Handling problems is more than 68 per cent faster using this framework. Even though adding new problems to handle is not simple and the calculations made are very time-consuming, this thesis offers a big first step from a user-guided system to a system-guided user.

Maschinelles Lernen ist weit verbreitet auf dem Gebiet der kondensierten Materie, besonders im Zusammenhang mit traditionellen quantenmechanischen Methoden, wie zum Beispiel der Dichtefunktionaltheorie (DFT). Eine mogliche Anwendung ist das Erlernen der Potentialhyper ache von Festkorpern zur Vorhersage von Kristallstrukturen. Im Allgemeinen ist die Ezienz und Genauigkeit des maschinellen Lernens abhangig von den verfugbaren Daten, dem Lernalgorithmus und der Datendarstellung. Die Datendarstellung ist notwendig um relevante Informationen uber das System quantitativ zu erfassen, sodass diese vom Lernalgorithmus verarbeitbar sind. In dieser Arbeit wenden wir unterschiedliche Methoden des maschinellen Lernens an, um die inneren Energien von polymorphen mono-elementaren Kristallstrukturen aus Kohlensto und Bor zu erlernen, die zuvor durch Kistallstruktur-Vorhersagen erzeugt wurden. Wir untersuchen unterschiedliche Lernalgorithmen und entwickeln eine physikalisch-motivierte Datendarstellung, welche die Kristallstruktur beschreibt. Wir optimieren und evaluieren die Leistung der Lernalgorithmen an Datensatzen, die relaxierte und gemischte, d.h. relaxierte und unrelaxierte, Kristallstrukturen beinhalten. Unsere Ergebnisse zeigen, dass Kernel-basierende Regressionsverfahren mit der entwickelten Datendarstellung genaue Vorhersagen von Energien gemischter Kristallstrukturen liefern, die mit quantenmechanischen Methoden vergleichbar sind. Mit einem ermittelten mittleren absoluten Fehler (MAE) von ungefahr 10 meV / Atom konnte die entwickelte Methode teure Berechnungen ersetzen, die in kostenintensiven Vorhersagen von Kristallstrukturen benotigt werden

Thermal processes in the manufacturing industry involve highly optimized equipment for production. In order to run the process the equipment has to be maintained, replaced and adjusted in their settings regularly. This requires a certain amount of effort, concerning the economic and timely aspects. The goal of this thesis was to purpose an approach for further improvement of the equipment efficiency, based on data-driven methods. Initially historic product and process data had been collected, mapped and pre-processed. In order to train selected machine learning algorithms features had been engineered and extracted. To ensure the state of the equipment can be represented through the available data, several models had been trained and evaluated. The presented heuristic approach dealt with the quality of the collected data and included a predictive maintenance model. This model further was analyzed to identify the influencing parameters on the lifespan of the equipment. Besides the prediction of maintenance actions, a proposal to optimize the utilization of the equipment had been presented. Based on the knowledge that the state of the equipment can be represented with the according techniques, there seems to be potential for further improvement in the processes through data-driven models.

Dramatic tragedies at major events in recent years with many deaths have shown how important it is to develop a security solution to prevent such catastrophes. In the context of this master thesis, a development concept for a mobile multisensor solution was developed, tested and evaluated to support safety and risk tasks at major events. After a detailed hardware research, a first prototype was developed, which was tested at the Frequency Festival in St. Pölten. The impressions and results from this test were evaluated and then a second prototype was developed, tested and subsequently evaluated. In addition to the detailed research of the various hardware components, Global Positioning System (GPS) and Inertial Measurement Unit (IMU) accuracy tests were conducted between professional sensors and smartphone sensors. Finally, a ready-to-use mobile multi-sensor solution was developed to support security and risk issues at major events designed to help security personnel in security tasks at urban locations and major events, thereby avoiding potentially dramatic tragedies.

Informelles Lernen ist der Schlüssel zur Lösung unklar definierter Probleme im englischen Gesundheitswesen, wie etwa der Umsetzung offizieller Empfehlungen in der Praxis. Allerdings hindert der stressige Arbeitsalltag die interdisziplinäre Praxisgemeinschaft ihre Erfahrungen aufzuarbeiten und gemeinsam den besten Lösungsweg auszuhandeln. Die Entwicklung unterstützender Tools bedarf eines Verständnisses der kognitiven Prozesse von Sense und Meaning Making im Erfahrungslernen, welche bisher aber nur in formellen Lernkontexten oder ohne Einbezug von Erfahrungen am Arbeitsplatz untersucht wurden. Zur Untersuchung dieser kognitiven Prozesse im Rahmen des informellen Lernens am Arbeitsplatz und gleichzeitiger Entwicklung technischer Unterstützung habe ich Design-based Research ausgewählt und eine systematische Methode zum kollaborativen Design von Tools ersonnen. Die Methode stellt die Praxis in den Mittelpunkt, leitet die Analyse der Appropriation von latenten Handlungsoptionen an und zielt auf reproduzierbare kreuzvalidierte Forschungseinsichten über Domäne, kognitive Theorien und Design ab. Durch die Einbindung der End-AnwenderInnen wird eine hohe Praxisrelevanz und Akzeptanz des designten Tools sichergestellt. Nach einer Ermittlung des praktischen, technischen und theoretischen Standes der Forschung wurde durch das kollaborative Design und die Analyse der Appropriation von Papier- bis hin zu Softwareprototypen in acht Iterationen das „Bits & Pieces“ Tool entwickelt. Parallel hat dieser Prozess zum Verständnis der Arbeits- und Lernpraxis im englischen Gesundheitswesen sowie einem kognitiven Modell von Sensemaking, Meaning Making und interdisziplinärer Teamarbeit im informellen Lernen geführt. Die Ergebnisse können in zukünftigen Forschungsvorhaben und in der Entwicklung von Lerntechnologien verwendet werden. Weiters hat die Studie zur Erhöhung der digitalen Kompetenz der teilnehmenden ExpertInnen geführt, was auch zur eigenmächtigen Verbesserung der Situation befähigt.

Data virutalization is an emergent technology for implementing data-driven business intelligence solutions. With new technologies come new challenges, the complex security and data models within business data applications require sophisticated methods for efficient, scalable and accurate information retrieval via full text search. The challenge we faced was to find a solution for all required steps from bringing data into an index of a search engine to data retrieval afterwards, without enabling the users to bypass the security policy of the company and thus preserve confidentiality. We researched state-of-the-art solutions for similar problems and elaborated different concepts for security enforcement. We also implemented a prototype as a proof-of-work, provided suggestions for follow-up implementations and guidelines on how the faced problems may be solved. Finally, we discussed our proposed solution and examined the drawbacks and benefits arising from our chosen way. We figured out, that a Late Binding approach for access control within the index delivers a fully generic, zero-stale solution that, as we show in the evaluation, is sufficient for a small set of documents with high average visibility density. However, to facilitate scalability, our proposed solution incorporates both, early binding as pre-filtering as well as late binding for post-filtering.

Decision trees are one of the most intuitive models for decision making used in machine learning. However, the greedy nature of state of the art decision tree building algorithms can lead to subpar results. This thesis aimed to use the non- greedy nature of reinforcement learning to overcome this limitation. The novel approach of using reinforcement learning to grow decision trees for classification tasks resulted in a new algorithm that is competitive with state of the art methods and is able to produce optimal trees for simple problems requiring a non-greedy solution. We argue that it is well suited for data exploration purposes due to diverse results and direct influence on the trade-off between tree size and performance.

Whether it is a posting spreading hate about a group of people, a comment insulting another person or a status containing obscenities, such types of toxic content have become a common issue for many online platforms. Owners of platforms like blogs, forums or social networks are highly interested in detecting this negative content. The goal of this thesis is to evaluate the general suitability of convolutional neural networks (CNNs) for classifying toxicity in textual online comments. For this pur- pose different CNN architectures are developed and their performance is compared to state-of-the-art methods on the data set containing comments from Wikipedia discussion pages. For a better understanding of this type of neural networks this thesis contains three subquestions: a) Which patterns do CNNs learn and which features are important for the classification when being applied to this task? b) Which preprocessing techniques are beneficial to the performance? c) Are CNNs well-suited for comments from sources other than Wikipedia discussion pages? The evaluation showed a performance similar to other classifiers on the same data set. Moreover, the model showed a comparable performance on a second data set created for this thesis. The best single preprocessing technique in this work improved the F1 score from 0.636 to 0.645 compared to the baseline. An analysis of a trained model revealed that some patterns detected by the convolutional layer are interpretable by humans. The analysis of the influence of words to the prediction highlighted struggles with negations in the text and also revealed a severe bias included in the model.

In order to meet the current trends and challenges in the industrial sector, production logistics is one of the focal points in the optimization of assembly systems. In order to increase the efficiency of the internal material supply, milk-run systems were introduced. The milk-run is responsible for the replenishment and transport of parts from the warehouse to the workplaces within a company and is part of the intralogistics system. The aim of this thesis was to digitize such a milk-run system with the help of an RFID system and to test it afterwards. In the course of this digitization a software was developed, which simulates the complete production and logistics process of an assembly line. In order to be able to test this simulation, a suitable institution had to be found where the digitized milk-run system could be implemented and tested in order to generate a meaningful comparative value for the simulator. With the IIM LEAD Factory a suitable learning factory was found in which it was possible to implement the digitized milk-run system. The digitized milk-run system consists of an order management sub-system, which gives the logistics employee an overview of open orders and suggests to him or her where the parts to be picked are located on the shelf. The picking process is completed in connection with a pick-to-light system, that visually shows the employee exactly the compartment in the warehouse that is needed for the active order. In addition, the digitized milk-run system was enhanced by a route calculation, which allows to find the most suitable path from the warehouse to the workplace. One of the tasks of the already mentioned simulator is to simulate real production in such a way that it is possible to make suggestions to the employee for orders that would ideally have been placed in the near future. In order to evaluate that these simulated orders are correct, it was important to compare them with real orders from the learning factory. The result was not only a fully functional digitized milk-run system, but also an evaluation of how well the digitized system works in comparison to the old system and how precise the results of the simulator are. With the completion of this project it is possible to have a digitized milk-run system available, which has been tested and evaluated in a university institution.

Transport mode detection (TMD) is the process of recognizing the means of transportation (such as walking, cycling, driving, taking a bus, riding a metro etc.) by a given sensory input. When this input consists exclusively of audio data then it is called acoustic TMD. This thesis recherches and presents the mythology for creating datasets, which fulfill all critical requirements for the highly complex task of acoustic TMD. It provides a step-by-step guideline on what needs to be considered when designing, producing and enhancing the dataset. In order to compile this guideline a recording application was developed, a 9-class dataset with 245 hours of recordings was created, and experiments were run using this dataset. Those experiments aimed to shed light onto the required number and diversity of recordings, the ideal number of total classes, what is an appropriate sample length, how to remove samples of low quality and which evaluation strategy should be used. Finally, existing external datasets were used to evaluate the classification capabilities. With the help of our findings it should be easier for future projects to create their own acoustic datasets, especially for TMD.

The Portable Document Format, also called PDF, plays an important role in industry, academics and personal life. The purpose of this file format is to exchange documents in a platform independent manner. The PDF standard includes a standardized way to add annotations to a document, enabling users to highlight text, add notes and add images. However, those annotations are meant be added manually in a PDF reader application, resulting in tedious manual work for large documents. The aim of this bachelor thesis was to create an application that enabled users to annotate PDF documents in a semi-automatic way. First, users could add annotations manually. Then, the application provided functionality to repeat the annotation automatically based on certain rules. For instance, annotations could be repeated on all, even or odd pages. Additionally, annotations can be repeated based on font and font size. The application was built using modern web technologies, such as HTML5 DOM elements, front-end web frameworks, REST APIs and Node.js. The system compon- ent responsible for automatic annotation repetition was implemented as a separate service, resulting in a small-scale microservice architecture. Evaluation showed that the application fulfills all use cases that were specified be- forehand. However, it also showed that there were some major problems regarding usability and discoverability. Furthermore, performance tests showed that in some browsers, memory consumption can be an issue when handling large documents.

Efficient siting of public charging infrastructure is critical for a seminal economic success in the expansion and utilization of electromobility. The research questions posed by this thesis read firstly: what are key criteria for the siting of charging points (CP) at the present day and secondly what characterizes optimal locations for future charging stations (CS) in Austria and Germany? To answer the research questions, a literature review was conducted to understand existing approaches to siting charging infrastructure and identify tools and practices already in use. Secondly, nine expert interviews were held with planners, operators and promoters of charging infrastructure from Germany and Austria. How existing companies and official authorities plan and develop charging infrastructure is currently subject of scientific research. Various approaches and models exist. However, they still require empirical and practical validation. The target of the thesis is to ascertain if there is a predefined procedure existent for the positioning of future charging infrastructure in the public space, as well as to examine which quality criteria are the most important to site both profitable and customer-oriented charging infrastructure in the future. To accomplish that, results from the interviews are contrasted with current literature. Findings show that there is no predefined procedure existent for the positioning of charging infrastructure. However, there are criteria that are of particular relevance for an efficient positioning. The aspects that are considered by both, literature and experts, to be most relevant in finding the right location of future charging infrastructure for EV are: points of interest nearby, participation of society (demand-based positioning) and use case (normal vs. fast charge) orientation. Once a CP is setup, there are three key parameters that define a profitable CP. These are high workload, high fluctuation and high energy turnover.

In most companies business management software has become omnipresent in recent years. These systems have been introduced to streamline productivity and handle data in a more centralized fashion. While younger staff, who grew up with computers and smart-phones, navigate newly introduced IT-services with ease, it can be challenging for more mature employees to understand and efficiently use those systems. To increase the efficiency in usage, we propose the introduction of a chatbot to assist users in performing complex tasks. Users can achieve their goals by writing to the conversational system messages in natural language. In further work, we focus on the German language to deploy the chatbot to a mid-sized Austrian company. To build a meaningful and helpful chatbot, we first elaborate on the back- grounds of customer-relationship management (CRM) software, the general structure of conversations and relating work regarding chatbots. With this information in mind, we outline useful features a chatbot for a German CRM software should exhibit. We evaluate existing Natural Language Processing (NLP) components for German and choose to implement a hybrid approach consisting of machine learning for intent classification and rule-based methods in a frame-based approach. After an evaluation period, we conducted a technical and empirical evalu- ation. For the empirical evaluation questionnaires were sent out to collect seven metrics. A major finding was, while this system was text-based only, users wished for voice-based interaction, to use the otherwise dead time when driving to and from the customer. The empirical evaluation also found users preferring a more rigid syntax over natural text. This reduced ambiguity for the chatbot and therefore improves on conversation efficiency.

Semiconductor manufacturing is a highly complex and competitive branch of industry, comprising hundreds of process steps, which do not allow any deviations from the specification. Depending on the application area of the products, the production chain is subject to strict quality require- ments. While heading towards industry 4.0, automation of production workflows is required and hence, even more effort must be spent on controlling the processes accordingly. The need for data-driven indicators supporting human experts via monitoring the production process is inevitable, but lacks adequate solutions exploiting both, profound academic methodologies and domain-specific know-how. In many cases, process deviations cannot be detected automatically during the semiconductor frontend production. Hence, the wafer test stage at the end of frontend manufacturing plays a key role to determine whether preceding process steps were executed with the necessary precision. The analysis of these wafer test data is challenging, since process deviations can only be detected by investigating spatial dependencies (patterns) over the wafer. Such patterns become visible, if devices on the wafer violate specification limits of the product. In this work, we go one step further and investigate the automated detection of process patterns in data from analog wafer test parameters, i.e. the electrical measurements, instead of pass/fail classifications, which brings the benefit that deviations can be recognized before they result in yield loss - this aspect is a clear difference to state-of-the-art research, where merely specification violations are observed. For this purpose, an indicator for the level of concern associated with process patterns on the wafer, a so-called Health Factor for Process Patterns, is presented. The indicator combines machine learning techniques and expert knowledge. In order to develop such a Health Factor, the problem is divided into three major components, which are investigated separately: recognition of the pattern type, quantification of the intensity of a pattern and specification of the criticality associated with each pattern type. Since the first two components are intrinsically present in the wafer test data, machine learning systems are deployed for both, while criticality is specified by introducing expert and domain knowledge to the concept. The proposed decision support system is semi-automated and thus, unifies pattern recognition and expert knowledge in a promising way. The effectiveness of the proposed Health Factor is underlined by experiments conducted on simulated as well as real-world datasets. The evaluations show that the system is not only mathematically valid, but also practically applicable and fulfills the demands raised by a real- world production environment. Moreover, the indicator can be transferred to various product types or even related problem setups given a reliable training dataset.

Nowadays there are more and more devices that are being connected to the internet, therefore it is important to provide a reliable bridge between them. Gathering/Routing the data is the foundation for many different business processes and is therefore highly important. The goal of this thesis was to build a scalable infrastructure for sensor data that only uses open source components and is easy to use for users who provide sensor data. To make this system scalable, different container orchestrators were evaluated. As a basis, the container orchestration tool Kubernetes was chosen. Addi- tional system components for system maintenance were selected to improve the maintainability. Further components include a load-balancer, certificates for secure communication and monitoring. For the persistence of data, a solution was evaluated and included. The platform can be deployed to different IaaS providers via a Terraform script. The web UI for users and application management is written in Java and based on the high performance web framework Vert.x. The performance was evaluated using current web frameworks as a reference point. Applications from categories such as data input, data output and data computation/pro- cessing can be consumed by users. For every application category there is at least one reference application configured. On the data input category available MQTT servers were tested in regards to performance and the best suitable server solution was selected. The data output layer was evaluated and the best databases were used. For the data computation layer a HSTM based computational intelligence library was selected to showcase inter-connectivity between the components. The framework is extensible to include new applications to provide additional functionality to the users of the system. The system was tested in full action with two sensor types for input and out- put. Additional hardware sensors can be included by providing a template and base-values. Code can then be uploaded to these sensors, based on the values the user provided. Thus the developed system allows and facilitates the setup of a full-blown scalable sensor data framework on multiple cloud provider.

The problem of information overload is widely recognized today. Living in an information society, we are all affected by the increasing amounts of information becoming available every day. The impact of this phenomenon shows itself in several information related tasks, such as conducting a litera- ture search, by making it difficult for people to find information relevant to their interests. In this work, we develop a recommender system capable of providing relevant literature recommendations for a pending citation in a scientific paper. We employ a content-based recommendation approach based on information retrieval techniques. The input to our system con- sists of the citation context around the pending citation while the output comprises a ranked list of documents serving as citation candidates. Within our experimental setup, we experiment with different query formulation strategies and retrieval models in order to improve the performance of the system. The evaluation of our system shows the potential of this approach, reaching a peak MRR of 0.416. This is further emphasized by the results gained from our contribution to the CL-SciSumm Shared Task 2017 where we achieve top results among all participating systems.

As monolithic applications are becoming rarer a new problem occurs how these smaller applications are communicating with each other it becomes especially significant when looking into the topic of reporting which usually requires data from multiple sources together. We introduce Kafka as a distributed messaging system into our environment as a means of inter-service communication. Additionally, two ways of storing data are provided. MySQL for structured data and MongoDB for unstructured data. The system is then evaluated in several categories. It will be tested in terms of resiliency, performance tests with a high number of messages and an increasing size of individual messages. The blockages of this system will be assessed if this system is useful for reporting data to customers. The experiments indicate that this system circumvents many problems in a monolithic infrastructure. Nevertheless, it creates a performance bottleneck when storing data received from Kakfa. Storing structured data turned out to be way more problematic than unstructured data by a magnitude. Despite this, we have been using a distributed messaging setup in production for some years now and are also using this for reports with structured data. Storing unstructured data in this new setup has not made it to production yet which we are currently working on.

Anomaly detection is a common research topic in data science. Detecting anomalies that occur collectively in a sequence is useful for many appli- cations such as intrusion or fault detection. In this thesis, I developed a parameter-free solution for detecting collective anomalies in sequential data based on stationarity and volatility estimation (STAVE). The STAVE algorithm extracts subsequences of a full sequence with a sliding win- dow and clusters them according to a stationarity and volatility distance function. Collective anomalies are then detected by extracting the longest connected sequence within the smallest cluster. In a practical evaluation, STAVE achieved results comparable to commonly used parametric alterna- tives, while retaining low computational complexity and requiring no input other than the sequence to be investigated.

The advances in data science provide us with a vast array of tools to analyse and better understand our environment. Of special interest to us is the topic of sequential pattern mining, in which statistic patterns are found within sequences of discrete data. In this work, we review some of the major techniques currently offered by the pattern mining field. We also develop a proof of concept tool for frequent itemset mining in Tinkerforge sensor data, showing how the application of the FP-Growth algorithm to Tinkerforge sensor data can provide valuable observations and offer an inexpensive yet powerful setting for further knowledge discovery processes. Lastly, we discuss some of the possible future lines of development of the presented problem.

Fake News and misinformation are widely discussed topics in our modern information society. A multitude approaches have been taken to filter out false information, ranging from manual research to artificial intelligence. Most of these projects, however, focus on the English language. To fill this gap, we introduce Crowd Fact Finder, a fact-checking tool for German language text, which uses Google search results alongside Open Information Extraction to distinguish fact from fake. We use a wisdom-of-the-crowd approach, deciding that what is popular opinion must be the truth. Crowd Fact Checker is based on the idea that true statements, as a search engine query, will produce more results related to the query than untrue statements. Crowd Fact Checker was evaluated in different categories, achieving an accuracy of 0.633 overall, and 0.7 when categorizing news. The informative value of wisdom-of-the-crowd depends strongly on the popularity of the discussed topic than its validity.

Since the new regulations of 2016, nearly all businesses in Austria are required to manage their invoices digitally and hand out digitally signed receipts. Existing solutions are mostly aimed at bigger companies or lack in usability and performance. In this paper, we describe a modern platform independent application to manage invoices, customers and room bookings. This was implemented using state of the art techniques to create a web application built on the Grails framework. Aimed at being deployed as system as a service, the application makes use of a hybrid multi tenancy database concept which allows many customers on a single server without compromising data security. Due to its responsive design, the application can be used on devices of nearly all screen sizes with little compromises. The system is nearly production ready and is already used in a productive environment by one customer. By fully integrating the invoice component with the hotel component, our application achieves great performance when billing hotel rooms. As soon as the system is fully production ready, it will offer small and medium sized enterprises a modern and affordable solution for digitally managing their invoices and room bookings in full compliance with the law.

Systems that extract information from natural language texts usually need to consider language-dependent aspects like vocabulary and grammar. Compared to the development of individual systems for different languages, development of multilingual information extraction (IE) systems has the potential to reduce cost and effort. One path towards IE from different languages is to port an IE system from one language to another. PropsDE is an open IE (OIE) system that has been ported from the English system PropS to the German language. There are only few OIE methods for German available. Our goal is to develop a neural network that mimics the rules of an existing rule-based OIE system. For that, we need to learn about OIE from German text. By performing an analysis and a comparison of the rule-based systems PropS and PropsDE, we can observe a step towards multilinguality, and we learn about German OIE. Then we present a deep-learning based OIE system for German, which mimics the behaviour of PropsDE. The precision in directly imitating PropsDE is 28.1%. Our model produces many extractions that appear promising, but are not fully correct

The goal of this thesis was to test if a raspberry pi cluster is suitable for big data analysis. The frameworks Hadoop and Spark were used. For clarification, if the raspberry pi cluster is a good choice for big data analysis, the same calculations were tested on a reference laptop. The tested test programs were programed in Java for Hadoop and in Scala for Spark. The files were stored on Hadoops distributed file system. The test programs tried to address strengths and weaknesses of the frameworks and ranged from simple data analysis to the random forest machine learning algorithm. At last, the resource usages of the frameworks and the distributed file system were monitored. The raspberry pi cluster was faster with the test programs for Spark, if they worked on the cluster, because many of Sparks features were not usable on the cluster. Map Reduce worked fine on the cluster, but the reference laptop clearly outperformed the cluster for this test programs. The test programs for Spark were except in one case faster than the test programs for Map Reduce.

Since the new regulations of 2016, nearly all businesses in Austria are required to manage their invoices digitally and hand out digitally signed receipts. Existing solutions are mostly aimed at bigger companies or lack in usability and performance. In this paper, we describe a modern platform independent application to manage invoices, customers and room bookings. This was implemented using state of the art techniques to create a web application built on the Grails framework. Aimed at being deployed as system as a service, the application makes use of a hybrid multi tenancy database concept which allows many customers on a single server without compromising data security. Due to its responsive design, the application can be used on devices of nearly all screen sizes with little compromises. The system is nearly production ready and is already used in a productive environment by one customer. By fully integrating the invoice component with the hotel component, our application achieves great performance when billing hotel rooms. As soon as the system is fully production ready, it will offer small and medium sized enterprises a modern and affordable solution for digitally managing their invoices and room bookings in full compliance with the law.

Authorship identification techniques are used to determine whether a document or text was written by a specific author or not. This includes discovering the rightful author from a finite list of authors for a previously unseen text or to verify if a text was written by a specific author. As digital media continues to get more important every day these techniques need to be also applied to shorter texts like emails, newsgroup posts, social media entries, forum posts and other forms of text. Especially because of the anonymity of the Internet this has become an important task. The existing Vote/Veto framework evaluated in this thesis is a system for authorship identification. The evaluation covers experiments to find reasonable settings for the framework and of course all tests to determine the accuracy and runtime of it. The same tests for accuracy and runtime have been carried out by a number of inbuilt classifiers of the existing software Weka to compare the results. All results have been written to tables and were compared to each other. In terms of accuracy Vote/Veto mostly delivered better results than Weka’s inbuilt classifiers even though the runtime was longer and more memory was necessary. Some settings provided good accuracy results with reasonable runtimes.

In recent years, the variety of car insurance models rose increasingly. Including the range of GPS supported contracts that observe the driving behavior of the insured, assisted by GPS locators, and transfer them to the insurance company. By analyzing the data, the insurance companies try to create a profile of the policyholder and to adjust the insurance fee to the respective driving behavior such as speeding, breaking, turn speeds and much more. However, this calculation assumes that people who spend more time in cars are automatically more vulnerable to accidents and small damages. They assume that there is a direct correlation between time spent in the car and the risk of an accident. Here, however, it was forgotten that experience plays a very important role. The more time you spend driving, the more experience you have gained with hazards or problem situations. The handling of the vehicle itself is best learned by experience and thus reduces the chance of parking damage or similar. The aim of the thesis is to verify or disproof the current approach of insurance companies. To this end, several methods are used to combine multiple perspectives on the topic as possible. In addition to a survey, data is automatically collected by means of web scraping and also manually by means of several random sampling tests. After evaluating the data quality, the results obtained are summarized and evaluated. In addition to statistical evaluations in PSPP, the focus is also on logical or obvious relationships. Finally, all aspects are merged and the underlying assumption was mostly refuted as studies showed that people driving regularly also have the highest percentage of accidents. But this group of drivers also shows the most stable and predictable values while people driving irregularly show much bigger irregularities. Most surveillants stood up against permanent monitoring of driving habits including all types of test groups. During the data collection of the thesisit had to be stated that web scapping of RSS Feeds provides very little usable data.

In this thesis I present a novel object graph mapper for Neo4j written in modern statically typed JavaScript. The aim of this library, namely neo4-js, is to reduce the code size while still preserving readability, maintainability and code quality when writing backend applications and communicating with a Neo4j database in JavaScript. Readability is a key factor for maintainable code. Hence neo4-js provides a declarative and natural way of defining a data scheme. Better code quality is reached by supporting the developer with good error messages and providing a well tested library. Furthermore, neo4-js fully supports Flow type definitions to be able to find type errors without running the code itself, resulting in better code quality. Neo4-js is specifically targeted for backend JavaScript applications running on Node.js. With the basic neo4-js library it is possible to reduce the code size by up to 1200%. Additionally, I will discuss an effective way of test driven development for database libraries written in JavaScript with a Docker container. Finally, we will have a look at a new way of expressing a schema definition with a new schema definition language and its own compiler to reduce the code size more.

Feature selection has become an important focus in machine learning. Es- pecially in the area of text classification, using n-gram language models will lead to high dimensional datasets. In this thesis we propose a new method of dimensionality reduction. Starting with a small subset of features, an iterative forward selection method is performed to extend our feature space. The main idea is, to interpret the results from a trained classifier in order to determine feature importance. Our experimental results over various classification algorithms show that with this approach it is possible to improve prediction performance over other state of the art dimension reduction methods, while providing a more cost-effective feature space.

 Für verschiedene Interessensgruppen wie Betreiber, Ordner, Exekutive, usw. ist die Erfassung und Präsentation von Menschenströmen und lokalen Dichten auf dem Gelände einer Großveranstaltung von großer Bedeutung.Um dieses Ziel zu erreichen wird ein Framework zur Multi-Sensor-Datenfusion erstellt, mittels dessen ein Modell der Besucherpopulation auf einem definierten Veranstaltungsgelände beliefert wird. Der Einsatz verschiedener Arten von Sensoren (Bluetooth-Scanner, Zählsensoren, Video und GSM-Zellen-Information) führt zu Aussagen über Personenzählungen in unterschiedlichen räumlichen Ausdehnungen mit unterschiedlicher Aussagekraft. Nach Bestimmung der Aussagekraft jedes Sensors können Zählungen auf den erfassten Bereichen des Geländes erfolgen. Überlappende Bereiche werden mittels Datenfusion mit höherer Genauigkeit gezählt. Um Aussagen über nicht direkt erfasste Bereiche des Geländes treffen zu können, wird ein einfaches Weltmodell eingesetzt, das seine Information aus den Zählungen der überwachten Bereiche bezieht sowie dem modellierten Verhalten von Veranstaltungsgästen.  

This thesis demonstrates the potential and benefits of unsupervised learning with Self-Organizing Maps for stress detection in laboratory and free-living environment. The general increase in pace of life, both in the personal and work environment leads to the intensification and amount of work, constant time pressure and pressure to excel. It can cause psychosocial problems and negative health outcomes. Providing personal information about one’s stress level can counteract the adverse health effects of stress. Currently the most common way to detect stress is by the means of questionnaires. This is time consuming, subjective and only at discrete moments in time. Literature has shown that in a laboratory environment physiological signals can be used to detect stress in a continuous and objective way. Advances in wearable technology now make it feasible to continuously monitor physiological signals in daily life, allowing stress detection in a free-living environment. Ambulant stress detection is associated with several challenges. The data acquisition with wearables is less accurate compared to sensors used in a controlled environment and physical activity influences the physiological signals. Furthermore, the validation of stress detection with questionnaires provides an unreliable labelling of the data as it is subjective and delayed. This thesis explores an unsupervised learning technique, the Self-Organizing Map (SOM), to avoid the use of subjective labels. The provided data set originated from stress-inducing experiments in a con- trolled environment and ambulant data measured during daily-life activities. Blood volume pulse (BVP), skin temperature (ST), galvanic skin response (GSR), electromyogram (EMG), respiration, electrocardiogram (ECG) and acceleration were measured using both wearable and static devices. First, a supervised learning with Random Decision Forests (RDF) was applied to the laboratory data to provide a gold standard for unsupervised learning outcomes. A classification accuracy of 83.04% was reached using ECG and GSR features and 76.89% using ECG features only. Then the feasibility of the SOMs was tested on the laboratory data and compared a posteriori with the objective labels. Using a subset of ECG features, the classification accuracy was 76.42%. This is similar to supervised learning with ECG features, indicating the principal functioning of the SOMs for stress detection. In the last phase of this thesis the SOM was applied on the ambulant data. Training the SOM with ECG features from the ambulant data, enabled clustering from the feature space. The clusters were well separated with large cohesion (average silhouette coefficient of 0.49). Moreover, the clusters were similar over different test persons and days. According to literature the center values of the features in each cluster can indicate stress and relax phases. By mapping test samples on the trained and clustered SOM, stress predictions were made. Comparison against the subjective stress levels was however poor with a root mean squared error (RMSE) of 0.50. It is suggested to further explore the use of Self-Organizing Maps as it solely relies on the physiological data, excluding subjective labelling. Improvements can be made by applying multimodal feature sets, including for example GSR.

The Web is a central part of modern everyday life. Many people access it on a daily basis for a variety of reasons such as to retrieve news, watch videos, engage in social networks, buy goods in online shops or simply to procrastinate. Yet, we are still uncertain about how humans navigate the Web and the potential of factors influencing this process. To shed light on this topic, this thesis deals with modeling aspects of human navigation on the Web and the effects arising due to manipulations of this process. Mainly, this work provides a solid theoretical framework which allows to examine the potential effects of two different strategies aiming to guide visitors of a website. The framework builds upon the random surfer model, which is shown to be a sufficiently accurate model of human navigation on the Web in the first part of this work. In a next step, this thesis examines to which extent various click biases influence the typical whereabouts of the random surfer. Based on this analysis, this work demonstrates that exploiting common human cognitive biases exhibits a high potential of manipulating the frequencies with which the random surfer visits certain webpages. However, besides taking advantage of these biases, there exist further possibilities to steer users who navigate a website. Specifically, simply inserting new links to a webpage opens up new routes for visitors to explore a website. To investigate which of the two guiding strategies bears the higher potential, this work applies both of them to webgraphs of several websites and provides a detailed comparison of the emerging effects. The results presented in this thesis lead to actionable insights for website administrators and further broaden our understanding of how humans navigate the Web. Additionally, the presented model builds the foundation for further research in this field.

People spend hours on social media and similar web platforms each day. They express a lot of their feelings and desires in the texts which they post online. Data analysts always try to find clever ways to get use of this information. The aim of this thesis is to first detect business intent in the different types of information users post on the internet. In a second step, the identified business intent is grouped into the two classes: buyers and sellers. This supports the idea of linking the two groups. Machine learning algorithms are used for classification. All the necessary data, which is needed to train the classifiers is retrieved and preprocessed using a Python tool which was developed. The data was taken from the web platforms Twitter and HolidayCheck. Results show that classification works accurately when focusing on a specific platform and domain. On Twitter 96 % of test data is classified correctly whereas on HolidayCheck the degree of accuracy reaches 67 %. When con- sidering cross-platform multiclass classification, the scores drop to 50 %. Although individual scores increase up to 95 % when performing binary classification, the findings suggest that features need to be improved fur- ther in order to achieve acceptable accuracy for cross-platform multiclass classification. The challenge for future work is to fully link buyers and sellers automatically. This would create business opportunities without the need of parties to know about each other beforehand.

While design patterns are proposed as a standard way to achieve good software design little research is done on the actual impact of using these strategies on the code quality. Many books suggest that such methods increase flexibility and maintainability however they often lack any evi- dence. This bachelor thesis intends to empirically demonstrate that the use of design patterns actually improves code quality. To gather data about the code two applications were implemented, that are designed to meet the same requirements. While one application is developed following widespread guidelines and principles proposed by the object oriented programming, the other is implemented without paying attention to the topics of software maintenance. After complying to the basic requirements a number of additional features were implemented in two phases. At first a new graphical user interface is being supported, then a different data tier is added. The results show that the initial effort of implementing the program version following object oriented programming guidelines are noticeably higher in terms of code lines and necessary files. However, during the implementation of additional features fewer files needed to be modified and during one phase transition considerably less code was needed to be written while not performing worse in the other and furthermore the cyclomatic complexity of the code increased less rapid.

Product development starts with the product requirements. If these are defined, solutions are created for the individual components, which then correspond to the entire product requirements. The process of solution approaches and solution refinement is operated in many iterations until a corresponding quality of the product requirements is achieved. This entire ”knowledge process “is to be transferred into a knowledge management. This is why we are showing ways to make new information technologies of Web 2.0 usable for knowledge management in the automotive industry. It is based on a research project of the Virtual Vehicle Competence Center, which includes a software prototype (”information cockpit “). ”The information cockpit “links both the product requirements and development tasks with the project organization. Thus a Product Data Management (PDM) as well as a Requirement Management System (RQM) is mapped. The networking has succeeded in uniting the individual systems, which represents a novelty in this area. By networking the product data, request data and project organization, the user is able to obtain a quick overview of different data in the automotive development. As a result, the management as well as the design is able to use existing knowledge quickly and to provide newly generated knowledge for others in an unconventional manner. At present only the visualization is implemented. The data to be used are made available by ”Link-Nodes “from the data system. The goal is to transfer the demonstrator to the application ”information cockpit “. The ontology PROTARES (PROject TAsks RESources) is used here as a basis. This ontology includes the entire data schema. A semanitc representation-based transfer (REST) Ful Web Service was designed and implemented accordingly. The data storage layer is a triple-store database. ”The information cockpit “can be used to query the system, which graphically and structurally displays the information to the user. Through the use of these technologies it was possible to create a modular whole system for the system architecture. In the near future, data management can be tackled, not just visualization, but also changing the data. After that, you can still think about user administration, access control, and so on.

Die elektrische Energiewirtschaft befindet sich in einer Wende. Sowohl Energieerzeuger, wie auch Netzbetreiber sind von der Hinwendung zu regenerativen Energien betroffen.Höhere Kosten für Erzeugung und Übertragung stehen regulierten Einnahmen gegenüber. Instandhaltungskosten sind ein erheblicher Kostenfaktor. Es stellt sich die Frage, ob Predictive Analytics im Allgemeinen bzw. Predictive Maintenance im Speziellen eine Option zur Verminderung dieser Kosten bei gleichbleibender oder verbesserter Zuverlässigkeit sind. Nach einer Aufarbeitung der technologischen, wirtschaftlichen und rechtlichen Rahmenbedingungen, wird mittels Szenariotechnik ein narratives Szenario erstellt. Dieses dient der Stimulation von Experten aus verschiedenen Bereichen der elektrischen Energiewirtschaft. In der Folge werden diese Experten zu ihrer Meinung befragt. Auch wenn aktuell rechtliche Bedenken vorhanden sind, herrscht Einigkeit darüber, dass Predictive Maintenance in der elektrischen Energiewirtschaft kommen wird. Diese Änderungen sind nicht auf die Energieversorger beschränkt. Auch Zulieferbetriebe, Dienstleister und Kunden werden davon betroffen sein.

Question and answer (Q&A) systems are and will always be crucial in the digital life. Famous Q&A systems succeeded with having text, images and markup language as input possibilities. While this is sufficient for most questions, I think that this is not always the case for questions with a complex background. By implementing and evaluating a prototype of a domain-tailored Q&A tool I want to tackle the problem that formulating complex questions in text only and finding them consequently can be a hard task. Testing several non-text input possibilities including to parse standardized documents to populate metadata automatically and mixing exploratory and facetted search should lead to a more satisfying user experience when creating and searching questions. By choosing the community of StarCraft II it is ensured to have many questions with a complex background belonging to one domain. The evaluation results show that the implemented Q&A system, in form of a website, can hardly be compared to existing ones without having big data. Regardless users do see a potential for the website to succeed within the community which seems convincing that domain-tailored Q&A systems, where questions with metadata exist, can succeed in other fields of application as well.

Während der Durchführung von Großveranstaltungen muss eine Einsatzleitung bestehend aus den führenden Mitgliedern der beteiligten Organisationen die Sicherheit der Besucher gewährleisten. Der leitende Stab benötigt laufend Information, um stets Bewusstsein über die aktuelle Lage zu haben und bei Bedarf Maßnahmen zu setzen. Zur Abwendung drohender Gefahren und Lösung bestehender Lagen ist Lageinformation entscheidend. Hat Information den Stab erreicht, so muss sie effizient und fehlerfrei darin verteilt werden. Dadurch kann ein gemeinsames Lagebewusstsein entstehen, das für alle Mitglieder gleichermaßen unmissverständlich verfügbar ist. Um die Erfüllung dieser Aufgaben zu unterstützen, wurde ein Führungsunterstützungssystem entwickelt, dessen Funktionen mittels der Prinzipien von Design Case Studies durch iterative Prototypenverbesserungen, qualitative Interviews mit Sicherheitskräften und Feldstudien bei Großveranstaltungen bestimmt wurden. Mit Domänenexperten wurde die Nutzung boden- und luftgestützter Sensoren zur fusionierten Aufbereitung und Präsentation der aktuellen Lage bezüglich Verteilungen von Menschenmengen in einem geographischen Informationssystem (GIS) diskutiert. Dazu wurde ihnen der Prototyp mit einem synthetischen Datensatz zur Evaluierung vorgelegt. Nach der Beobachtung von Arbeitsprozessen der Einsatzleitung bei Veranstaltungssicherungen zum Finden von Schwachpunkten wurde das GIS-System auf die effiziente Bereitstellung von Stammdaten sowie der Visualisierung von Lagen für alle aktiven Stabsmitarbeiter ausgerichtet. Erkannte Schwächen konnten durch unterstützende Prototyp-Funktionen gemildert werden, wie die vergleichende Nachstellung von beobachteten Vorfällen mit dem Führungsunterstützungssystem im abschließenden Workshop zeigte.

Social tagging systems enable users to collaboratively assign freely chosen keywords (i.e., tags) to resources (e.g., Web links). In order to support users in finding descrip- tive tags, tag recommendation algorithms have been proposed. One issue of current state-of-the-art tag recommendation algorithms is that they are often designed in a purely data-driven way and thus, lack a thorough understanding of the cognitive processes that play a role when people assign tags to resources. A prominent exam- ple is the activation equation of the cognitive architecture ACT-R, which formalizes activation processes in human memory to determine if a specific memory unit (e.g., a word or tag) will be needed in a specific context. It is the aim of this thesis to investigate if a cognitive-inspired approach, which models activation processes in human memory, can improve tag recommendations. For this, the relation between activation processes in human memory and usage practices of tags is studied, which reveals that (i) past usage frequency, (ii) recency, and (iii) semantic context cues are important factors when people reuse tags. Based on this, a cognitive-inspired tag recommendation approach termed BLL AC +MP r is developed based on the activation equation of ACT-R. An extensive evaluation using six real-world folksonomy datasets shows that BLL AC +MP r outperforms current state-of-the-art tag recommendation algorithms with respect to various evaluation metrics. Finally, BLL AC +MP r is utilized for hashtag recommendations in Twitter to demonstrate its generalizability in related areas of tag-based recommender systems. The findings of this thesis demonstrate that activation processes in human memory can be utilized to improve not only social tag recommendations but also hashtag recommendations. This opens up a number of possible research strands for future work, such as the design of cognitive-inspired resource recommender systems

Location-based games are currently more popular than ever for the general public. Games, such as Geocaching, Ingress and Pokemon Go have created a high demand in the app market and established themselves in a major category in the mobile gaming sector. Since location-based games are reliant on mobile sensors, battery life, cellular data connections and even environmental conditions, many problems can rise up while playing the game and hence, can reduce user experience and player enjoyment. The aim of this thesis is to improve the gaming experience of location-based games, which use map information to place virtual content at appropriate physical locations, with the assistance of an user-centered design approach. Therefore, a game named Geo Heroes was designed and implemented in order to evaluate it with existing quantitative and qualitative methods from research. The game was assessed in an empirical study with nine participants including a game-play session of about one hour. Participants were divided into an experimental and control group to author disparities in the implemented content placement algorithms. An already established questionnaire for traditional computer games, and one created by the author based on existing research in location-based games, were used to measure common factors in gaming experience. Additionally, participants sent log data with their current emotions during game-play after various interactions with game objects. Different outcome scenarios of interactions were considered to ensure a better analysis. Furthermore, an open group discussion was held to gather qualitative information from participants to reveal still undiscovered issues and to provide evidence from results of conducted quantitative methods. Results have shown that the questionnaire for location-based games is a useful tool to measure player enjoyment. In combination with the tracked emotions and a group interview, relevant information can be obtained in order to improve game design and mechanics.

Texts are of crucial importance for communicating and managing information. How- ever, text composition is still a challenge for many people: in order to effectively convey their message, writers need skills in planning and structuring, linguistic abil- ity, and also the ability to evaluate their own work. In this thesis, we look at how writers can be supported in all the tasks encom- passed in the writing process. To this end, and in addition to literature research, we conducted an experiment to analyse the characteristics of the writing processes as well as difficulties writers typically encounter when they search for information, plan the structure of their text, translate their ideas to words, and review their writing. We formulate requirements for aiding these tasks and propose support possibilities, with a special focus on digital solutions. Issues with existing tools are that they generally support only one aspect and interrupt the writing task. This was our motivation for developing a prototype of a comprehensive text composition tool which supports writers in all stages of their task. We chose to implement it as a Google Docs add-on, which means that it can be integrated seamlessly into the Google Docs text editor. The add-on offers a number of features specifically tailored to each writing process. Finally, we performed a user study to evaluate the features and the workflow while using the add-on.

This thesis develops a tool to collaboratively explore a collection of EEG signals and identify events. Certain data require events to be tagged in a post-hoc process. Current state-of-the-art tools used in research allow a single user to manually label events or artifacts in signal data. Although automatic methods can be applied, they usually have a precision below 80% and require subsequent manual labelling steps. We propose a tool to collaboratively label data. It allows several users to work together in identifying events/artifacts in the signal space. This tool offers several advantages, from saving time by splitting up work between users to obtaining a consensus between experts on the occurrence of events. The talk will describe the collaborative aspects of labelling events in signal data.

Im Rahmen der Masterarbeit wurde ein Prototyp für ein Assistenzsystem für Baufahrzeuge zur Erkennung von gefährdeten Personen im Baustellenbereich entwickelt und evaluiert. In Voruntersuchungen wurden ausgesuchte Sensorprinzipien zur Verwendung für die Personenerkennung analysiert. Eine Auswahl an kameraoptischen- und Distanzsensoren lieferten Daten aus der Umgebung des Fahrzeuges. Der Fokus der Arbeit lag auf dem Entwurf einer geeigneten Architektur, um alle im Assistenzsystem verwendeten Komponenten und Module für Personenerkennungsalgorithmen zu fusionieren. Im prototypischen Aufbau wurde die Mensch-Maschine-Schnittstelle in Form eines Live-Kamera-Streams, mit eingeblendeten Warnungen in einer einfach zu verstehenden und verwendbaren Benutzeroberfläche, integriert. Im Zuge von Testreihen wurde die Leistungsfähigkeit des Systems bei verschiedenen Fahrzeuggeschwindigkeiten untersucht. Für Kombinationen von eingesetzten Sensoren wurden höchste zugelassene Geschwindigkeiten ermittelt, damit das Fahrzeug zum Stillstand gebracht werden kann, um einen Unfall zu vermeiden. Testläufe unter möglichst realen Bedingunen haben gezeigt, dass Personenerkennung in Echtzeit durchgeführt werden kann, aber auch viel Raum für Verbesserungen vorhanden ist. Fahrer werden in Situationen mit hohem Unfallrisiko gut vom System unterstützt und sind dadurch in der Lage Unfälle zu vermeiden. Außerdem wurden die Stärken und Schwächen des Personenerkennungssystem analysiert und es konnten detaillierte und wichtige Informationen über Arbeitssituationen und -abläufe, Verhalten von Fahrern, einzelnen Komponenten und dem gesamten System gewonnen werden.

Mobile apps become more and more important for companies, because apps are needed to sell or operate their products. For being able to serve a wide range of customers, apps must be available for the most common platforms, at least Android and iOS. Considering Windows Phones as well, a company would need to provide three identical apps - one for each platform. As each platform comes with their own tools for app development, the apps must be implemented separately. That means development costs may raise by a factor of three in worst case. The Qt framework promises multi platform ability. This means an app needs to be implemented just once but still runs on several platforms. This bachelor’s thesis shall prove that by developing such a multi platform app using the Qt framework. The app shall be able to collect data from sensors connected to the mobile device and store the retrieved data on the phone. For the proof the supported platforms are limited to the most common ones - Android and iOS. Using this app for recording data from a real life scenario demonstrates its proper functioning.

Bei Waldbrandsituation steht der Krisenstab oft vor Problemen in Bezug auf die Koordination, Entwicklung einer Einsatzstrategie und dem Bewahren der Übersicht während des Einsatzes. Ziel dieser Arbeit war ein Basisprototyp zur Demonstration von Unterstützungsmöglichkeiten für den Operator in der Einsatzleitung. Bei der Entwicklung dieses Prototypen stand die Usability im Vordergrund. Zur Verbesserung der Usability wurden während des Softwareentwicklungsprozesses Methoden des User Centered Designs(UCD) angewendet. Bei der Entwicklung einer Software mit kleiner Nutzergruppe, konnte herausgefunden werden, dass durch die Gegebenheit der Nischenposition der Nutzer andere Methoden angewendet werden müssen als bei einer größeren Nutzergruppe. Für die finale Präsentation des Prototyps wurde ein internationaler Expertenworkshop ausgewählt, bei dem die Software demonstriert und anschließend mit den Experten diskutiert wurde. Aus den Diskussionen konnte die Schlussfolgerung getroffen werden, dass eine solche Software derzeit noch nicht existiert und in vielen Aufgaben des Einsatzstabes benötigt wird. Grundsätzlich kann gesagt werden, dass Methoden aus dem UCD eine gute Basis für die Softwareentwicklung von Katastrophenschutzsoftware bilden und die Weiterentwicklung dieses Softwareprototyp einen guten Anfang für die Entwicklung eines Waldbrandmanagementsystems darstellt.

This thesis deals with the creation of regular expressions from a list of input that should match the resulting expression. Since regular expressions match a pattern, they can be used to speed up work that includes large amounts of data, under the assumption that the user knows some examples of the pattern that should be matched. In the herein discussed program, a regular expression was created iteratively by working away from a very rudimentary regular expression, allowing for an adjustment of a threshold to mitigate the effect of not having any negative matches as input. The result is an easy creation of a sufficiently well-working regular expression, assuming a representative collection of input strings while requiring no negative examples from the user.

In recent years, various recommendation algorithms have been proposed to support learners in technology-enhanced learning environments. Such algorithms have proven to be quite effective in big-data learning settings (massive open online courses), yet successful applications in other informal and formal learning settings are rare. Common challenges include data sparsity, the lack of sufficiently flexible learner and domain models, and the difficulty of including pedagogical goals into recommendation strategies. Computational models of human cognition and learning are, in principle, well positioned to help meet these challenges, yet the effectiveness of cognitive models in educational recommender systems remains poorly understood to this date. This thesis contributes to this strand of research by investigating i) two cognitive learner models (CbKST and SUSTAIN) for resource recommendations that qualify for sparse user data by following theory-driven top down approaches, and ii) two tag recommendation strategies based on models of human cognition (BLL and MINERVA2) that support the creation of learning content meta-data. The results of four online and offline experiments in different learning contexts indicate that a recommendation approach based on the CbKST, a well-founded structural model of knowledge representation, can improve the users' perceived learning experience in formal learning settings. In informal settings, SUSTAIN, a human category learning model, is shown to succeed in representing dynamic, interest based learning interactions and to improve Collaborative Filtering for resource recommendations. The investigation of the two proposed tag recommender strategies underlined their ability to generate accurate suggestions (BLL) and in collaborative settings, their potential to promote the development of shared vocabulary (MINERVA2). This thesis shows that the application of computational models of human cognition holds promise for the design of recommender mechanisms and, at the same time, for gaining a deeper understanding of interaction dynamics in virtual learning systems.

Due to persistent issues concerning sensitive information, when working with big data, we present a new approach of generating articial data1in the form of datasets. For this purpose, we specify the term dataset to represent a UNIX directory structure, consisting of various les and folders. Especially in computer science, there exists a distinct need for data. Mostly, this data already exists, but contains sensitive information. Thus, such critical data is supposed to stay protected against third parties. Hence, this reservation of data leads to a lack of available data for open source developers as well as for researchers. Therefore, we discovered a way to produce replicated datasets, given an origin dataset as input. Such replicated datasets represent the origin dataset as accurate as possible, without leaking any sensitive information. Thus, we introduce the Dataset Anonymization and Replication Tool, short DART, a Python based framework, which allows the replication of datasets. Since we aim to encourage the data science community to participate in our work, we constructed DART as a framework with high degree of adaptability and extensibility. We started with the analysis of datasets and various le and MIME types to nd suitable properties which characterize datasets. Thus, we dened a broad range of properties, respectively characteristics, initiating with the number of les, to the point of le specic characteristics like permissions. In the next step, we explored several mathematical and statistical approaches to replicate the selected characteristics. Therefore, we chose to model characteristics using relative frequency distributions, respectively unigrams, discrete as well as continuous random variables. Finally, we started to produce replicated datasets and analyzed the replicated characteristics against the characteristics of the corresponding origin dataset. Thus, the comparison between origin and replicated datasets is exclusively based on the selected characteristics. The achieved results highly depend on the origin dataset as well as on the characteristics of interest. Thus, origin datasets, which indicate a simple structure, tend more likely to deliver utilizable results. Otherwise, large and complex origin datasets might struggle to be replicated succiently. Nevertheless, the results aspire that tools like DART will be utilized to provide articial data1for persistent use cases.

This paper is about comparing variables and feature selection with greedy and non greedy algorithms. For the greedy solution the ID3 [J. Quinlan, 1986] algorithm is used in this paper, which serves as a baseline. This algorithm is fast and provides good results for smaller datasets. However if the dataset gets larger and the information, which we want to get out of it has to be more precise, several combinations should be checked. Therefore a non greedy solution is a possible way to achieve that goal. This way of getting information out of data tries every possibility/combination to get the optimal results. This results may contain combinations of variables. One variable on its own possibly provides no information about the dataset, but in combination with another variable it does. That is one reason, why it is useful to check every combination. Besides the precision, which is very good, the algorithm needs higher computational time, at least W(n!). The higher the amount of attributes in a dataset is the higher the computational complexity is. The results have shown, even for smaller datasets that the non greedy algorithm finds more precise results, especially in view of combination of several attributes/variables. Taken together, if the dataset needs to be analysed in a more precise way and the hardware allows it, then the non greedy version of the algorithm is a tool, which provides precise data especially at combinational point of view.

During the last decades, the amount of information available for researches has increased several fold, making the searches more difficult. Thus, Information Retrieval Systems (IR) are needed. In this master thesis, a tool has been developed to create a dataset with metadata of scientific articles. This tool parses the articles of Pubmed, extracts metadata from them and saves the metadata in a relational database. Once all the articles have been parsed, the tool generates three XML files with that metadata: Articles.xml, ExtendedArticles.xml and Citations.xml. The first file contains the title, authors and publication date of the parsed articles and the articles referenced by them. The second one contains the abstract, keywords, body and reference list of the parsed articles. Finally, the file Citations.xml file contains the citations found within the articles and their context. The tool has been used to parse 45.000 articles. After the parsing, the database contains 644.906 articles with their title, authors and publication date. The articles of the dataset form a digraph where the articles are the nodes and the references are the arcs of the digraph. The in-degree of the network follows a power law distribution: there is an small set of articles referenced very often while most of the articles are rarely referenced. Two IR systems have been developed to search the dataset: the Title Based IR and the Citation Based IR. The first one compares the query of the user to the title of the articles, computes the Jaccard index as a similarity measure and ranks the articles according to their similarity. The second IR compares the query to the paragraphs where the citations were found. The analysis of both IRs showed that the execution time needed by the Citation Based IR was bigger. Nevertheless, the recommendations given were much better, which proved that the parsing of the citations was worth it.

Open Information Extraction (OIE) targets domain- and relation-independent discovery of relations in text, scalable to the Web. Although German is a major European language, no research has been conducted in German OIE yet. In this paper we fill this knowledge gap and present GerIE, the first German OIE system. As OIE has received increasing attention lately and various potent approaches have already been proposed, we surveyed to what extent these methods can be applied to German language and which additionally principles could be valuable in a new system. The most promising approach, hand-crafted rules working on dependency parsed sentences, was implemented in GerIE. We also created two German OIE evaluation datasets, which showed that GerIE achieves at least 0.88 precision and recall with correctly parsed sentences, while errors made by the used dependency parser can reduce precision to 0.54 and recall to 0.48

Social media monitoring has become an important means for business analytics and trend detection, comparing companies with each other or keeping a healthy customer relationship. While English sentiment analysis is very closely researched, not much work has been done on German data analysis. In this work we will (i) annotate ~700 posts from 15 corporate Facebook pages, (ii) evaluate existing approaches capable of processing German data against the annotated data set and (iii) due to the insufficient results train a two-step hierarchical classifier capable of predicting posts with an accuracy of 70%. The first binary classifier decides whether the post is opinionated. If the outcome is not neutral, the second classifier predicts the polarity of the document. Further we will apply the algorithm in two application scenarios where German Facebook posts, in particular the fashion trade chain Peek&Cloppenburg and the Austrian railway operators OeBB and Westbahn will be analyzed

Vernetzte Daten und Strukturen erfahren ein wachsendes Interesse und verdrängen bewährte Methoden der Datenhaltung in den Hintergrund. Einen neuen Ansatz für die Herausforderungen, die das Management von ausgeprägten und stark vernetzten Datenmengen mit sich bringen, liefern Graphdatenbanken. In der vorliegenden Masterarbeit wird die Leistungsfähigkeit von Graphdatenbanken gegenüber der etablierten relationalen Datenbank evaluiert. Die Ermittlung der Leistungsfähigkeit erfolgt durch Benchmarktests hinsichtlich der Verarbeitung von hochgradig vernetzten Daten, unter der Berücksichtigung eines umgesetzten feingranularen Berechtigungskonzepts. Im Rahmen der theoretischen Ausarbeitung wird zuerst auf die Grundlagen von Datenbanken und der Graphentheorie eingegangen. Diese liefern die Basis für die Bewertung des Funktionsumfangs und der Funktionalität der zur Evaluierung ausgewählten Graphdatenbanken. Die beschriebenen Berechtigungskonzepte liefern einen Überblick unterschiedlicher Zugriffskonzepte sowie die Umsetzung von Zugriffskontrollen in den Graphdatenbanken. Anhand der gewonnenen Informationen wird ein Java-Framework umgesetzt, welches es ermöglicht, die Graphdatenbanken, als auch die relationale Datenbank unter der Berücksichtigung des umgesetzten feingranularen Berechtigungskonzepts zu testen. Durch die Ausführung von geeigneten Testläufen kann die Leistungsfähigkeit in Bezug auf Schreib- und Lesevorgänge ermittelt werden. Benchmarktests für den schreibenden Zugriff erfolgen für Datenbestände unterschiedlicher Größe. Einzelne definierte Suchanfragen für die unterschiedlichen Größen an Daten erlauben die Ermittlung der Leseperformance. Es hat sich gezeigt, dass die relationale Datenbank beim Schreiben der Daten besser skaliert als die Graphdatenbanken. Das Erzeugen von Knoten und Kanten ist in Graphdatenbanken aufwendiger, als die Erzeugung eines neuen Tabelleneintrags in der relationalen Datenbank. Die Bewertung der Suchanfragen unter der Berücksichtigung des umgesetzten Zugriffkonzepts hat gezeigt, dass Graphdatenbanken bei ausgeprägten und stark vernetzten Datenmengen bedeutend besser skalieren als die relationale Datenbank. Je ausgeprägter der Vernetzungsgrad der Daten, desto mehr wird die JOIN-Problematik der relationalen Datenbank verdeutlicht.

The rising distribution of compact devices with numerous sensors in the last decade has led to an increasing popularity of tracking fitness and health data and storing those data sets in apps and cloud environments for further evaluation. However, this massive collection of data is becoming more and more interesting for companies to reduce costs and increase productivity. All this possibly leads to problematic impacts on people’s privacy in the future. Hence, the main research question of this bachelor’s thesis is: “To what extent are people aware of the processing and pro- tection of their personal health data concerning the utilisation of various health tracking solutions?” This thesis investigates the historical development of personal fitness and health tracking, gives an overview of current options for users and presents potential problems and possible solutions regarding the use of health track- ing technology. Furthermore, it outlines the societal impact and legal issues. The results of a conducted online survey concerning the distribution and usage of health tracking solutions as well as the participants’ views on privacy concerning data sharing with service and insurance providers, ad- vertisers and employers are presented. Given those results, the necessity and importance of data protection according to the fierce opposition of the participants to various data sharing scenarios is expressed.

Es wird eine mobile Anwendung entwickelt, die Musikstudierende dabei unterstützt reflexiv ein Instrument zu lernen. Der Anwender soll in der Lage sein seinen Übungserfolg über Selbstbeobachtung festzustellen, um in weiterer Folge Übungsstrategien zu finden, die die Übungspraxis optimieren soll. Kurzfristig stellt die Anwendung dem Benutzer für verschiedene Handlungsphasen einer Übungseinheit (preaktional, aktional und postaktional) Benutzeroberflächen zur Verfügung. Mit Hilfe von Leitfragen, oder vom Anwender formulierten Fragen, wird das Üben organisiert, strukturiert bzw. selbstreflektiert und evaluiert. Im Optimalfall kann der Anwender seinen Lernprozess auch auf Basis von Tonaufnahmen mitverfolgen. Langfristig können alle Benutzereingaben wieder abgerufen werden. Diese werden journalartig dargestellt und können zur Selbstreflexion oder auch gemeinsam mit einer Lehrperson ausgewertet werden.

Information validation is the process of determining whether a certain piece of information is true or false. Existing research in this area focuses on specific domains, but neglects cross-domain relations. This work will attempt to fill this gap and examine how various domains deal with the validation of information, providing a big picture across multiple domains. Therefore, we study how research areas, application domains and their definition of related terms in the field of information validation are related to each other, and show that there is no uniform use of the key terms. In addition we give an overview of existing fact finding approaches, with a focus on the data sets used for evaluation. We show that even baseline methods already achieve very good results, and that more sophisticated methods often improve the results only when they are tailored to specific data sets. Finally, we present the first step towards a new dynamic approach for information validation, which will generate a data set for existing fact finding methods on the fly by utilizing web search engines and information extraction tools. We show that with some limitations, it is possible to use existing fact finding methods to validate facts without a preexisting data set. We generate four different data sets with this approach, and use them to compare seven existing fact finding methods to each other. We discover that the performance of the fact validation process is strongly dependent on the type of fact that has to be validated as well as on the quality of the used information extraction tool

The buzzword big data is ubiquitous and has much impact on our everyday live and many businesses. Since the outset of the financial market, it is the aim to find some explanatory factors which contribute to the development of stock prices, therefore big data is a chance to do so. Gathering a vast amount of data concerning the financial market, filtering and analysing it, is of course tightly tied to predicting future stock prices. A lot of work has already been done with noticeable outcomes in this field of research. However, the question was raised, whether it is possible to build a tool with a large quantity of companies and news indexed and a natural language processing tool suitable for everyday applications. The sentiment analysis tool that was utilised in the development of this implementation is To achieve this goal two main modules were built. The first is responsible for constructing a filtered company index and for gathering detailed information about them, for example news, balance sheet figures and stock prices. The second is accountable for preprocessing the collected data and analysing them. This includes filtering unwanted news, translating them, calculating the text polarity and predicting the price development based on these facts. Utilising all these modules, the optimal period for buying and selling shares was found to be three days. This means buying some shares on the day of the news publication and selling them three days later. Pursuant to this analysis expected return is 0.07 percent a day, which might not seem much, however this would result in an annualised performance of 30.18 percent. This idea can also be outlaid in the contrary direction, telling the user when to sell his shares. Which could help an investor to find the ideal time to sell his company shares.

The in-depth analysis of time series has been a central topic of research in the last years. Many of the present methods for finding periodic patterns and features require the use to input the time series’ season length. Today, there exist a few algorithms for automated season length approximation, yet many of them rely on simplifications such as data discretization. This thesis aims to develop an algorithm for season length detection that is more reliable than existing methods. The process developed in this thesis estimates a time series’ season length by interpolating, filtering and detrending the data and then analyzing the distances between zeros in the directly corresponding autocorrelation function. This method was tested against the only comparable open source algorithm and outperformed it by passing 94 out of 125 tests, while the existing algorithm only passed 62 tests. The results do not necessarily suggest a superiority of the new autocorrelation based method, but rather a supremacy of the new implementation. Further related studies might assess and compare the value of the theoretical concept.

This thesis aims to shed light on the early classification of time series problem, by deriving the trade-off between classification accuracy and time series length for a number of different time series types and classification algorithms. Previous research on early classification of time series focused on keeping classification accuracy of reduced time series roughly at the level of the complete ones. Furthermore, that research work does not employ cutting-edge approaches like Deep Learning. This work fills that research gap by computing trade-off curves on classification ”earlyness” vs. accuracy and by empirically comparing algorithm performance in that context, with a focus on the comparison of Deep Learning with classical approaches. Such early classification trade-off curves are calculated for univariate and multivariate time series and the following algorithms: 1-Nearest Neighbor search with both the Euclidean and Frobenius distance, 1-Nearest Neighbor search with forecasts from ARIMA and linear models, and Deep Learning. The results obtained indicate that early classification is feasible in all types of time series considered. The derived tradeoff curves all share the common trait of slowly decreasing at first, and featuring sharp drops as time series lengths become exceedingly short. Results showed Deep Learning models were able to maintain higher classification accuracies for larger time series length reductions than other algorithms. However, their long run-times, coupled with complexity in parameter configuration, implies that faster, albeit less accurate, baseline algorithms like 1-Nearest Neighbor search may still be a sensible choice on a case-by-case basis. This thesis draws its motivation from areas like predictive maintenance, where the early classification of multivariate time series data may boost performance of early warning systems, for example in manufacturing processes.


Research on recommender systems has gained a tremendous popularity in recent years. Although various recommender approaches are available nowadays, there is still a lack of work that tackles real-time recommendation on large and sparse data. To tackle the data sparsity problem, this thesis analyzes different trust-based approaches which improve the accuracy of the usually used Collaborative Filtering recommendation approaches. To show how the trust-based approaches can also be applied to generate real-time recommendations, this thesis extended ScaR, a scalable recommendation framework, with recommendation approaches which calculate the trust values between users using the Apache Solr search engine. Experimental results showed that using trust-based approaches, high quality recommendations can be served in realtime.

Everyone knows the annoying situation when personal items of appreciated value are disappeared and several precious minutes, or even hours, are was- ted for frantic searching. Modern technologies are useful for assisting in such moments. For example electronic key finders triggered by whistling ore remo- te controls are available over years, but the acceptance for these gadgets are rather low. An important field of research on that topic is on using modern smartphones for locating your everyday objects. Today’s smartphones are equipped with various hardware that can be used for retrieving locations. The primary used technology for this purpose is the Global Positioning System (GPS). For example Apple is successfully offering the service Find my iPhone, which can locate a misplaced iPhone with the usage of GPS. The limitation of GPS is the lack of accuracy in urban areas and especially inside of buildings. To counteract this limitation, GPS is often used together with WiFi triangulation, which needs a well developed WiFi infrastructure for proper operation, which is difficult to achieve in private households. The goal of this thesis is to develop an easy to use application for indivi- duals for retrieving their lost items in- and outdoors only with technologies present in their smartphones. A hybrid solution of localization and motion sensing will be used for tracing the user’s location. The focus will be on indoor tracing using accelerometer, gyroscope and compass data. The proto- type is implemented as an iPhone application to record motion and location data and a web application to calculate and visualize the user’s trace. The web application will also provide a user interface for backtracking the user’s trace to a lost item by time filtering or by tagging items. 

During a typical day, we have several social interactions with different people belonging to different semantic groups (e.g. Friends, family, co-workers). In this paper we try to find promising hypothesis to link data collected from a mobile sensing application running on the users smartphone to the social interactions he has during a typical day. We will search for possibilities to reliably determine (1) the number of interactions he has during the day, (2) the length of social interactions, (3) the number of participants, (4) who the participants were and (5) the semantic context of the interaction using data collected by a pilot study, where, additionally to the date collected by the framework, users label their interactions during the day. 

With this thesis we try to determine the feasibility of detecting face-to-face social interactions based on standard smartphone sensors like Bluetooth, Global Positioning System (GPS) data, microphone or magnetic field sen- sor. We try to detect the number of social interactions by leveraging Mobile Sens- ing on modern smartphones. Mobile Sensing is the use of smartphones as ubiquitous sensing devices to collect data. Our focus lies on the standard smartphone sensors provided by the Android Software Development Kit (SDK) as opposed to previous work which mostly leverages only audio sig- nal processing or Bluetooth data. To mine data and collect ground truth data, we write an Android 2 app that collects sensor data using the Funf Open Sensing Framework[1] and addi- tionally allows the user to label their social interaction as they take place. With the app we perform two user studies over the course of three days with three participants each. We collect the data and add additional meta-data for every user during an interview. This meta-data consists of semantic labels for location data and the distinction of social interactions into private and business social interactions. We collected a total of 16M data points for the first group and 35M data points for the second group. Using the collected data and the ground truth labels collected by our partici- pants, we then explore how time of day, audio data, calendar appointments, magnetic field values, Bluetooth data and location data interacts with the number of social interactions of a person. We perform this exploration by creating various visualization for the data points and use time correlation to determine if they influence the social interaction behavior. We find that only calendar appointments provide some correlation with the social interactions and could be used in a detection algorithm to boost the accuracy of the result. The other data points show no correlation during our exploratory evaluation of the collected data. We also find that visualizing the interactions in the form of a heatmap on a map is a visualization that most participants find very interesting. Our participants also made clear that la- beling all social interactions over the course of a day is a very tedious task. We recommend that further research has to include audio signal process- ing and a carefully designed study setup. This design has to include what data needs to be sampled at what frequency and accuracy and must provide further assistance to the user for labeling the data. We release the data mining app and the code used to analyze the data as open source under the MIT License.  

Many people face the problem of misplaced personal items in their daily routine, especially when they are in a hurry, and often waste a lot of time searching these items. There are different gadgets and applications available on the market, which are trying to help people find lost items. Most often, help is given by creating an infrastructure that can locate lost items. This thesis presents a novel approach for finding lost items, namely by helping people re-trace their movements throughout the day. Movements are logged by indoor localization based on mobile phone sensing. An external infrastructure is not needed. The application is based on a step based pedestrian dead reckoning system, which is developed to collect real-time localization data. This data is used to draw a live visualization of the whole trace the user has covered, from where the user can retrieve the position of the lost personal items, after they were tagged using simple speech commands. The results from the field experiment, that was performed with twelve participants of different age and gender, showed that the application could successfully visualize the covered route of the pedestrians and reveal the position of the placed items.  

The amount of multimedia content being created is growing tremendously. In addition, the number of applications for processing, consuming, and sharing multimedia content is growing. Being able to create and process metadata describing this content is an important prerequisite to ensure a correct workflow of applications. The MPEG-7 standard enables the description of different types of multimedia content by creating standardized metadata descriptions. When using MPEG-7 practically, two major drawbacks are identified, namely complexity and fuzziness. Complexity is mainly based on the comprehensiveness of MPEG-7, while fuzziness is a result of the syntax variability. The notion of MPEG-7 profiles were introduced in order to address and possibly solve these issues. A profile defines the usage and semantics of MPEG-7 tailored to a particular application domain. Thus usage instructions and explanations, denoted as semantic constraints, can be expressed as English prose. However, this textual explanations leave space for potential misinterpretations since they have no formal grounding. While checking the conformance of an MPEG-7 profile description is possible on a syntactical level, the semantic constraints currently cannot be checked in an automated way. Being unable to handle the semantic constraints, inconsistent MPEG-7 profile descriptions can be created or processed leading to potential interoperability issues. Thus an approach for formalizing the semantic constraints of MPEG-7 profiles using ontologies and logical rules is presented in this thesis. Ontologies are used to model the characteristics of the different profiles with respect to the semantic constraints, while validation rules detect and flag violations of these constraints. In similar manner, profile-independent temporal semantic constraints are also formalized. The presented approach is the basis for a semantic validation service for MPEG-7 profile descriptions, called VAMP. VAMP verifies the conformance of a given MPEG-7 profile description with a selected MPEG-7 profile specification in terms of syntax and semantics. Three different profiles are integrated in VAMP. The temporal semantic constraints are also considered. As a proof of concept, VAMP is implemented as a web application for human users and as a RESTful web service for software agents.  

The goal of this thesis is to improve query suggestions for rare queries on faceted documents. While there has been extensive work on query suggestions for single facet documents there is only little known about how to provide query suggestions in the context of faceted documents. The constraint to provide suggestions also for uncommon or even previously unseen queries (so-called rare queries) increases the difficulty of the problem as the commonly used technique of mining query logs can not be easily applied.

In this thesis it was further assumed that the user of the information retrieval system always searches for one specific document - leading to uniformly distributed queries. Under these constraints it was tried to exploit the structure of the faceted documents to provide helpful query suggestions. In addition to theoretical exploration of such improvements a custom datastructure was developed to efficiently provide interactive query suggestions. Evaluation of the developed query suggestion algorithms was done on multiple document collections by comparing them to a baseline algorithm that reduces faceted documents to single facet documents. Results are promising as the final version of the new query suggestion algorithm consistently outperformed the baseline.

Motivation for and potential application of this work can be found in call centers for customer support. For call center employees it is crucial to quickly locate relevant customer information - information that is available in structured form (and can thus easily be transformed into faceted documents).

“Wiktionary”, is a free dictionary which is part of Wikmedia Foundation. This webpage contains translations, etymologies, synonyms and pronunciations of words in multiple languages in that case we just focus on English.

A syntactic analyser (parser) turns the entry text in other structures, which will make easier the analysis and capture of nest entrance.

Unter Wissenschaftlern ist Twitter ein sehr beliebtes soziales Netzwerk. Dort diskutieren sie verschiedenste Themen und werben für neue Ideen oder präsentieren Ergebnisse ihrer aktuellen Forschungsarbeit. Die in dieser Arbeit durchgeführten Experimente beruhen auf einem Twitter-Datensatz welcher aus den Tweets von Informatikern, deren Forschungsbereiche bekannt sind, besteht. Die vorliegende Diplomarbeit kann grob in vier Teile unterteilt werden: Zunächst wird beschrieben, wie der Twitter-Datensatz erstellt wurde. Danach werden diverse Statistiken zu diesem Datensatz präsentiert. Beispielsweise wurden die meisten Tweets während der Arbeitszeit erstellt und die Nutzer sind unterschiedlich stark aktiv. Aus den Follower-Beziehungen der Nutzer wurde ein Netzwerk erstellt, welches nachweislich small world Eigenschaften hat. Darüber hinaus sind in diesem Netzwerk auch die verschiedenen Forschungsbereiche sichtbar. Der dritte Teil dieser Arbeit ist der Untersuchung der Hashtagbenutzung gewidmet. Dabei zeigte sich, dass die meisten Hashtags nur selten benutzt werden. Über den gesamten Beobachtungszeitraum betrachtet ändert sich die Verwendung von Hashtags kaum, jedoch gibt es viele kurzfristige Schwankungen. Da die Forschungsbereiche der Nutzer bekannt sind, können auch die Bereiche der Hashtags bestimmt werden. Dadurch können die Hashtags dann in fachspezifische und generelle Hashtags unterteilt werden. Die Analyse der Weitergabe von Hashtags über das Twitter-Netzwerk wird im vierten Teil mittels sogenannter Informationsflussbäume betrachtet. Aufgrund dieser Informationsflussbäume kann gemessen werden wie gut ein Nutzer Informationen verbreitet und erzeugt. Dabei wurde auch die Hypothese bestätigt, dass diese Eigenschaften von der Anzahl der Tweets und Retweets und der Stellung im sozialen Netzwerk abhängen. Jedoch ist dieser Zusammenhang nur in Einzelfällen stark ausgeprägt.  

A mobile application is developed which supports a doctor in the treatment of stroke patents in the phase when they are already at home. Specifically it supports the anaysis of the activity level and type of a stroke patient after he is send home. Quantitative measures for activity level and activity type are calculated using mobile Phone Sensors like Accelerometer, Gyroscope and Compass. The activity levels diversified are standing still, using a wheel chair, using a walking frame, walking on your own, or other.The gathered information then can be shown to a doctor giving him a clear, quantifyable view of the developement of the activity level of the patient....

die herkömmlichen Datenbanklösungen wie RDBMS wurden zu der Zeit entworfen, in der das heutige Wachstum der Daten nicht vorstellbar war. Während dieses Wachstum besonders in den letzten Jahren geschah, versuchten Unternehmen ihre Datenbanklösungen der neuen Anforderung anzupassen. Die Tatsache ist aber, dass die klassischen Datenbanksysteme wie RDBMS für Skalierung nicht geeignet sind. Neue Technologien mussten geschaffen werden, um mit diesem Problem leichte umgehen zu können und das ist genau das Thema dieser Arbeit. Die neuen Technologien, die zum Bearbeiten von Big Data entworfen sing gehören meistens zu der Hauptkategorie NoSQL. Diese Arbeit diskutiert die Herausforderungen vom Umgang mit großen Datenmengen und versucht, eine Grenze klarzustellen, mit der z.B. eine Firma wissen kann, ob sie für ihre Anwendungen eine NoSQL-Technologie braucht oder würde auch ein RDBMS reichen. Diese Arbeit diskutiert auch das geeignete Datenmodel das für verschiede NoSQL Technologien. Am Ende der Arbeit gibt es einen praktischen Teil, wo drei Kandidaten  von verschiedenen NoSQL-Kategorien gegeneinander evaluiert werden. 

Eine Vielzahl von Softwareherstellern haben sich mit der Unternehmenssuche beschäftigt, undunterschiedliche Enterprise Search Lösungen mit breitem Funktionsspektrum präsentiert. Um dieEnterprise Search Lösungen schnell und effizient untereinander vergleichen zu können, wurdedie Systemarchitektur der Suchlösungen modelliert und mittels Fundamental Modeling Concepts(FMC) dargestellt. Dies bietet die Möglichkeit sich einen Überblick über die einzelnen Lösungenzu verschaffen, ohne sich mit unzähligen Informationen in Datenblättern und Whitepapers herum-zuschlagen. Das Portfolio der zu vergleichenden Enterprise Search Lösungen erstreckt sich von denMarktführern wie Microsoft und Google, dem marktführendem Unternehmen für Suchtechnologieim Raum Deutschland, Österreich und der Schweiz - IntraFind - bis hin zu den Visionären wieCoevo, Sinequa und Dassault Systems.Aus den durch den Vergleich gewonnenen Informationen wurde der Microsoft SharePoint 2013 fürdie prototypische Umsetzung in einem Systemlabor ausgewählt. Entscheidender Grund dafür wardie Kosten/Nutzen-Frage. Microsoft ist einer der wenigen Anbieter die eine kostenlose Versionfür eine Einstiegs- bzw. Pilotlösung zur Verfügung stellen. Die Enterprise Search Lösung wurdeauf einer virtuellen Maschine installiert, und vor der vollständigen Ausrollung am Virtual VehicleResearch Center von zehn Mitarbeitern aus zwei verschiedenen Arbeitsbereichen (Informationsma-nagement und Engineering-Bereich) auf Nützlichkeit und Qualität der Suchergebnisse getestet. Esgibt kaum Studien wie Suchlösungen im Engineeringbereich eingesetzt werden bzw. wie Engineersmit solchen Suchlösungen umgehen und wie zufrieden sie eigentlich damit sind. Diese Tatsacheführte dazu, dass zur Evaluierung der Pilot-Suchlösung eine Kombination aus Thinking AloudTest und Interview eingesetzt wurde. Mittels Interview wurden Informationen zu den Probandengesammelt, aus welchen geeignete Suchtasks für die Testpersonen abgeleitet wurden, welcheim Rahmen des Thinking Aloud Tests von dem jeweiligen Probanden gelöst werden mussten.Anschließend wurde die Testperson zu Qualität der Suchergebnisse, Sucherlebnis und Nützlichkeitder Unternehmenssuche befragt.Es hat sich gezeigt, dass die Mitarbeiter Schwierigkeiten haben, die geeigneten Keywörter für dieSuche zu definieren. Je mehr sie jedoch über die gesuchte Information Bescheid wussten, destoleichter fiel es den Probanden passende Keywörter zu definieren. Kritisch wurde auch die Relevanzder Suchergebnisse bewertet. Die Probanden waren der Meinung, dass sie beim Suchen dergewünschten Informationen mittels Suchinterface mehr Zeit beanspruchen, als bei ihrer derzeitigenSuchmethodik. Es hat sich herausgestellt, dass Metadaten für die Suche von großer Bedeutung sind.Sie enthalten wichtige Informationen, welche das Suchen von Informationen wesentlich erleichtert.Die Probanden müssen ihren Informationsbedarf auch ohne die Unternehmenssuche decken, daherwurde im Rahmen der Evaluierung die derzeitige Suchstrategie der Probanden behandelt.Basierend auf den Aussagen der Probanden konnten aus der Evaluierung Anforderungen an Enter-prise Search Lösungen abgeleitet und Informationen gesammelt werden. Diese Anforderungenund Informationen liefern für die IT-Abteilung wichtiges Feedback, welches bei der Ausrollungdes Pilotprojektes unterstützen soll. 

The presented research provides an answer for the detection of anomalies in big datawhen the processing of the information has to be done in “quasi” real-time.An overview of the following topics is given:• what big data is• available tools for processing big data, as well as doing it in real-time• existing approaches to detecting anomaliesDifferent outlier detection algorithms are not only studied theoretically, but also practi-cally. The strengths and flaws of each approach are evaluated to see which are more-likelyto be used in each instance to deal with the data at its arrival time.Furthermore, those algorithms are tested with a dataset in order to observe a practicalapplication of anomaly detection.In conclusion, a statistical approach to the outlier detection problem gives the mostaccurate results when using “near” real-time systems. The depth and density approachesalso obtain quality results, but run into problems when clusters of outliers are conformed.

In this thesis an approach for Authorship Attribution is presented with a focus on Webforums. The approach thereby is based on distance metrics for comparision betweenfrequency vectors of multiple feature spaces, which are extracted by the existing NaturalLanguage Processing tools and used in existing literature on authorship attribution.An algorithm trains a model using these features obtained for each of the authors withinthe data set. The source of the data are Web forums messages, which are crawled withthe existing tools for a subsequent HTML parse and further analysis. The classifierdecides the authorship weighting each of the features. In total three aproaches weretested, taking into account different feature space weighting strategies.To allow the conclussions to generalise, the evaluated data sets were assembled formultiple languages (English, German and Spanish), as well as multiple topics. Theresults achieved show a promising result, specially with longer messages, where moredata is available. In contrary to existing research n-gram features do not appear to bethe best feature for authorship attribution for Web forums.

Table recognition is an important task in information retrieval anddocument analysis. Most scientic work today is available in the formof PDF documents, and tables within those documents often containvaluable information. Various approaches for table recognition ex-ist, common to all is the need for ground-truthed datasets, to trainalgorithms or to evaluate the results.Herein is presented a web-application for annotating elements andregions in PDF documents, in particular tables. The collected datais intended to serve as a ground truth useful to machine learning al-gorithms for detecting table regions and table structure, as well asto determine the quality and relevance of various table detection ap-proaches. The software system allows for previous attempts of auto-matic table detection to be imported, examined and further renedand corrected, thus providing a framework for visualizing results of ta-ble recognition. A survey is conducted, showing that the usage of thetool is convenient, compared to three other ways of creating groundtruth of tables in documents. The quality of the ground truth is as-sessed by comparison to other datasets and human evaluation. Thesoftware system is available under the terms of the Apache 2.0 License.

Knowledge workers are exposed to many influences which have the potential to interrupt work. The impact of these influences on individual’s, not only knowledge workers, often cause detrimental effects on physical health and well-being. Twelve knowledge workers took part as participants of the experiment conducted for this thesis. The focus of the experiment was to analyse if sound level and computer interactions of knowledge workers can predict their self reported stress levels. A software system was developed using sensors on knowledge worker’s mobile and desktop devices. Records of PC activity contain information about foreground windows and computer idle times. Foreground window records include the timestamp when a window received focus, the duration the window was held in the foreground, the window title and the unique number identifying the window. Computer idle time records contain information about the timestamp when idle time began and the duration. Computer idle time was recorded only after a minimum idle interval of one minute. Sound levels were recorded using an smartphone’s microphone (Android). The average sound pressure level from the audio samples was computed over an one minute timeframe. Once initialized with an anonymous participant code, the sensors record PC activity and sound level and upload the records enriched with the code to a remote service. The service uses a key value based database system with the code as key and the collection of records as value. The service stores the records for each knowledge worker over a period of ten days. After this period, the preprocessing component of the system splits the records of PC activity and sound level into working days and computes measures approximating worktime fragmentation and noise. Foreground window records were used to compute the average time a window was held in the foreground and the average time an application was held in the foreground. Applications are sets of foreground window records which share the same window title. Computer idle time records were used to compute the number of idle times between one and five minutes and the period of those idle times which lasted more than twenty. From the sound pressure levels the average level and the period of all levels which exceeded 60 decibels were computed. The figures were computed with the scope of an participant’s working day for five different temporal resolutions. Additionally, the stress levels are computed from midday and evening scales. Participants recorded stress levels two times a working day and entered them manually in the system. The first self report was made close to lunch break and the second at the end of an day at work. Since participants forgot to enter self assessed stress levels, the number of working days containing data of all types ranges between eight and ten. As a result, the preprocessing component stores the measures and stress levels used by the stress predicition analysis component. The correlation of the measures with the self reported stress levels showed that a prediction of those stress levels is possible. The state of well-being (mood, calm) increased the higher the number of idle times between one and five minutes in combination with an sound pressure level not exceeding 60 decibels.

In letzter Zeit wurde das Potenzial von Twitter für forschungsrelevante Anwendungen vermehrt wahrgenommen. Dies führt unter anderem zur Nutzung von Twitter im Zuge wissenschaftlicher Konferenzen. Daraus kann geschlossen werden, dass entsprechende Communities während wissenschaftlichen Konferenzen interessante Informationen zur Verfügung stellen. Jedoch ist es fast unmöglich alle Tweets, die während einer Konferenz veröffentlicht werden, zu lesen oder überhaupt erst interessante Informationen aus Tweets manuell zu extrahieren. So wurden während der WWW2012 Konferenz beispielsweise 6901 Tweets, mit dem der Konferenz designierten Hash-Tag #www2012, veröffentlicht. Diese Arbeit beschreibt die Implementierung und Evaluierung eines Systems welches Tweets, die im Kontext einer wissenschaftlichen Konferenz veröffentlicht wurden, clustert. Die resultierenden Cluster wurden visualisiert, um sie für den Menschen verständlicher zu machen. Die Evaluierung des Systems anhand der Tweets, die während der WWW2012 veröffentlicht wurden, verdeutlicht, dass sowohl Themen als auch organisatorische Events extrahiert werden können. Darüber hinaus zeigen die Ergebnisse die Notwendigkeit weitere Clustering-Techniken zu evaluieren und zusätzliche Techniken zu implementieren, um Beziehungen zwischen den Clustern herzustellen.  

Diese Arbeit befasst sich mit der Erweiterung einer bestehenden Webapplikation (Headstart (Kraker et al., 2013)) um eine Visualisierung für Zeitreihen (Time Series Data). Visualisierungen ermöglichen es, komplexe Sachverhalte in besser verständliche Formen zu bringen und diese einfacher zu interpretieren. Eine besonders interessante Art von Informationen sind Zeitreihen. Diese häufig auftretende Form von Daten bietet sich dazu an, um Trends und Muster zu erkennen und Aussagen über zukünftige Entwicklungen zu machen.Als Proof of Concept wird eine Visualisierung entwickelt, welche es den Anwendern von Headstart ermöglicht, Trends und Entwicklungen in Forschungsgebieten auszumachen. Um die Erweiterung in dem bestehenden Projekt zu bewerkstelligen, muss dieses erst um einen Statusverwaltungsmechanismus bereichert werden. Dessen Implementation bildet den einen Teil dieser Arbeit, während sich der zweite Teil der neuen Visualisierung widmet.Der Einbau der Statusverwaltung wurde mit Hilfe von vorgestellten Metriken aufgezeichnet und führte zu einer klaren Verbesserung des Projektes. Somit sind zukünftige Erweiterungen mit deutlich weniger Aufwand verbunden. Die Visualisierung für Zeitreihen durch Small Multiples bleibt der ursprünglichen Oberfläche treu und ermöglicht den Benutzern, einfach Vergleiche zwischen Forschungsgebieten anzustellen.


Das Ziel einer Knowledge Discovery Applikationen ist es, aus großen Datenmengen maschinell Information und Muster zu extrahieren. Dabei folgen die meisten Applikationen den gleichen Aufbau. Daten werden eingelesen und transformiert und dadurch in eine Form gebracht, die es maschinellen Methoden erlaubt diese auszuwerten, typischerweise organisiert in sogenannten Instanzen und Features. Hier kommt oft das Vector Space Modell zum Einsatz, in dem die Daten in einer Matrix angeordnet werden. Diese Arbeit beschreibt einen Ansatz, der diese limitierte Daten-Repräsentation in einer Reihe von Aspekten erweitert, um die Information innerhalb eines Daten-Satzes zu extrahieren, im Speziellen jene Information, die in der Beziehungen zwischen Features latent vorhanden ist. Eine zwei-dimensionale Matrix kann in einen bi-partiten Graphen transformiert werden. Diese Daten-Struktur kann dann erweitert werden zu einer n-partiten Graph-Struktur, in der Knoten die Features innerhalb des Daten-Satzes repräsentieren. Zusätzliche Flexibilität kann gewonnen werden, indem die Knoten erweitert werden, um zusätzliche Information aufzunehmen, beispielsweise um externe Quellen anzubinden. Typischerweise geht eine allgemeinere, flexiblere Daten-Struktur mit höheren Laufzeit-Anforderungen einher, die oft einen praktischen Einsatz unmöglich macht. Der vorgestellte Ansatz erreicht dieses hohe Maß an Flexibilität, ohne allerdings ein Laufzeitverhalten aufzuweisen, das durch die theoretische Obergrenze der Laufzeitkomplexität vorgegeben ist. Um die praktischen Nutzen des Ansatzes zu demonstrieren, werden eine Reihe von Knowledge Discovery Applikationen vorgestellt. Diese Applikationen unterscheiden sich in dem Ausmaß an benötigter Flexibilität und Größe der verwendeten Datensätze. Um die allgemeine Nützlichkeit des Ansatzes zu unterstreichen, unterscheiden sich die vorgestellten Applikationen auch hinsichtlich ihrer Domäne. Diese sind Social Web, Information Retrieval und Natural Language Processing. Startend mit einem Recommender System, das eine einfache Daten-Repräsentation verwendet, steigert sich die Flexibilität bis zu einer komplexen Applikation aus dem Bereich der Sprach-Technologien. Hier werden statistische, semantische und strukturelle Informationen ausgewertet um mehrdeutige Wörter mittels eines unüberwachten Lernverfahrens aufzulösen.  

Klassifikation als Teilgebiet des überwachten Lernens ist ein wichtiges Gebiet des Data Minings und der Wissenserschließung. Normalerweise werden Klassifikatoren von ExpertInnen auf dem Gebiet des Maschinellen Lernens erstellt. Daraus folgt aber auch, dass die EndanwenderInnen im Allgemeinen nicht wissen, wie und warum der Klassifikator welche Entscheidungen trifft. Dieses fehlende Verständnis führt wiederum zu fehlendem Vertrauen in die Algorithmen. Außerdem ist es nicht möglich, wertvolles Domänenwissen in die Algorithmen zu integrieren, wenn man die AnwenderInnen aus dem Erstellungs-und Adaptionssprozess von Klassifikatoren ausschließt. In dieser Arbeit wird das Konzept von visuell unterst ̈tzter Klassifikation beschrieben. Es wird untersucht, ob eine st stärkere Integration von EndanwenderInnen in den Data Mining Prozess mit Hilfe von interaktiven Visualisierungen die Erstellung, das Verstehen, die Beurteilung und die Adaption von Klassifikatoren verbessern kann. Dafür werden mehrere Visualisierungen, die unabhängig vom spezifischen Klassifikator angewendet werden können, entworfen und implementiert. Weiterhin wird das Konzept des Visuellen Aktiven Lernens als Erweiterung des Aktiven Lernens im Data Mining eingeführt. In Experimenten werden diese Visualisierungen und das Visuelle Aktive Lernen hinsichtlich ihrer Verwendbarkeit für das Verstehen, die Beurteilung und die Adaption von Klassifikatoren evaluiert. In Experimenten konnte Folgendes gezeigt werden: Erstens, die entwickelten Visualisierungen können AnwenderInnen das Verstehen und Beurteilen von Klassifikationsmodellen ermöglichen. Zweitens, eine Visualisierung für einen speziellen Textklassifikator erlaubt AnwenderInnen Zugriff auf das interne Klassifikationsmodell. Drittens, eine Kombination aus Datenvisualisierungung und Klassifikatorvisualisierung ermöglicht DomänenexpertInnen, Klassifikatoren neu zu erstellen. Viertens, Visuelles Aktives Lernen liefert bessere Ergebnisse als klassisches Aktives Lernen in klassifikatorunabhängigen Fällen. Fünftens, eine Darstellung von automatisch extrahierten Schlüsselphrasen aus Texten ermöglicht ein schnelles und akkurates Annotieren von Textdokumenten und damit schnelles und akkurates Generieren von Trainingsdaten für die Textklassifikattion. Es kann geschlussfolgert werden, dass die Kombination aus Klassifikation und Visualisierung, d.h. visuell unterstützte Klassifikation, ein sinnvoller Ansatz ist. Von einer engeren Einbindung von DomänenexpertInnen in Klassifikationsanwendungen profitieren sowohl die Algorithmen, als auch die AnwenderInnen.  

Tagging bezeichnet das Annotieren von digitalen Ressourcen mit Schlagworten - so genannten "Tags" - mit dem Zweck Information besser zu organisieren, leichter wiederfindbar zu machen und deren gemeinsame Nutzung zu ermöglichen. Gegenwärtig existiert im Web eine große Anzahl von Applikationen die es Benutzern erlauben Informationen zu annotieren. Diese Systeme werden soziale Taggingsysteme genannt. Delicious beispielsweise erlaubt Benutzern ihre Lesezeichen mit Hilfe von Tags zu organisieren. In Flickr können Benutzer Bilder verschlagworten und YouTube ermöglicht die Vergabe von Tags um Videos innerhalb des Systems leichter auffindbar zu machen. Obwohl diese Systeme in den letzten Jahren zunehmend in den Fokus der Forschung gerückt sind, ist noch immer wenig über die Verwendung von Tags innerhalb dieser Plattformen und die damit einhergehenden Absichten der Benutzer bekannt. In weiterer Folge gibt es auch keine Studien darüber wie sich die Motivation von Benutzern und das daraus resultierende Verhalten in den Eigenschaften eines solchen Systems widerspiegeln. Die vorliegende Arbeit führt die Unterscheidung zweier neuer Arten von Taggingmotivation ein - Beschreibung und Kategorisierung. Bisher verfügbare Arbeiten, die sich mit der Analyse von Motivation in sozialen Taggingsystemen beschäftigen, basieren entweder auf der Einschätzung von Experten oder der Auswertung von Fragebögen. Bis heute existiert keine automatisierte Untersuchung von Taggingmotivation in diesen Systemen. Diese Dissertation stellt eine quantitative Analyse von Benutzermotivation vor, bei der statistische Eigenschaften des Tagvokabulars eines Benutzers untersucht werden. Für die Unterscheidung der zwei Arten von Taggingmotivation werden eine Reihe von Methoden eingeführt und sowohl qualitativ als auch quantitativ evaluiert. Als Resultat dieser Untersuchungen wird die Messung von Taggingmotivation mithilfe einfacher statistischer Größen ermöglicht. In zusätzlichen Experimenten wird analysiert, wie sich Daten der zwei Benutzergruppen unterschiedlich auf verschiedene Methoden der Wissenserschließung in Taggingsystemen auswirken. Besonderes Augenmerk wird hierbei auf die automatische Klassifikation sowie das Erfassen von Semantik gelegt. Die Resultate der Experimente zeigen, dass Kategorisierer besser für soziale Klassifikationszwecke geeignet sind, während Beschreiber besser zu der in Taggingsystemen auftretenden Semantik beitragen. Diese Ergebnisse zeigen einen Zusammenhang zwischen der Verwendung dieser Systeme und der in ihnen vorkommenden Semantik. Dies lässt darauf schließen, dass sich das Verhalten von Benutzern auf die Struktur dieser Systeme auswirkt - Information die besonders für Designer und Architekten dieser Plattformen von Bedeutung ist. Der wissenschaftliche Beitrag der vorliegenden Arbeit liegt in der Einführung und Unterscheidung zweier Arten von Taggingmotivation und der damit verbundenen Methoden um zwischen ihnen zu differenzieren. Mithilfe einer Auswertung auf mehreren Taggingdatensätzen wird gezeigt, dass Taggingmotivation sowohl innerhalb einzelner als auch zwischen unterschiedlichen Plattformen variiert. Des Weiteren wird der Einfluss der einzelnen Taggingmotivationsgruppen auf Verfahren der Wissenserschließung analysiert. Diese Arbeit ist relevant für Wissenschafter und Systemdesigner die an Benutzermotivation in sozialen Taggingsystemen und den daraus resultierenden Auswirkungen interessiert sind.  

Betrachtet man die Entwicklung von mobilen Geräten der letzten Jahre, sieht man, dass Smartphones und Tablets immer mehr an Bedeutung gewinnen. Alleine in Österreich machen Smartphones bereits rund ein Drittel aller Mobiltelefone aus. Diese Geräte bringen aber nicht nur von Generation zu Generation schnellere Prozessoren, leistungsstärkere Grafikkarten und mehr Speicher, sondern auch immer mehr Sensoren die mittels APIs auslesbar sind. Das bietet Wissenschaftlern die Daten über das menschliche Verhalten (Bewegungen, Kommunikation, tägliche Abläufe, etc.) im echten Leben aufzeichnen wollen, eine sehr einfache Möglichkeit Benutzerdaten von einer möglichst breiten Zielgruppe zu erhalten. Nachdem diese Sensoren aber nun alle nur erdenklichen Informationen gesammelt haben, stellt sich die Frage nach einer passenden Visualisierung all dieser Zahlen. Diese Masterarbeit beschäftigt sich mit genau dieser Visualisierung von mobilen Sensordaten direkt auf mobilen Endgeräten. In einem ersten Schritt wird eine genaue Analyse der Aufgabenstellung durchgeführt und auf die zu visualisierenden Sensordaten, die vorherrschenden Limitierungen von mobilen Geräten hinsichtlich von Hardware-Resourcen sowie auf die speziellen User-Interaktions Paradigmen auf mobilen Geräten eingegangen. Weiters werden in dieser Arbeit grundsätzliche Visualisierungen vorgestellt, die es ermöglichen sehr viele verschiedene Arten von Daten effizient darzustellen. Nach einer genaueren Beleuchtung und einem Vergleich von ähnlichen Arbeiten, beschreibt der Hauptteil dieser Masterarbeit die Umsetzung eines Visualisierungs-Frameworks, dass eine performante und interaktive Darstellung von mobilen Sensordaten direkt am Smartphone bzw. Tablet erlaubt. Dieses Visualisierungs-Framework wurde mit einem Sensing-Framework zu einem voll funktionsfähigen Prototypen namens iPeeper kombiniert, der Sensordaten aufzeichnet, darstellt, und über mehrere Geräte synchronisiert.  

Das Internet entwickelt sich von einer Sammlung miteinander verknüpfter Dokumente hin zu einem interaktiven Medium, in dem der Begriff der „Bedeutung“ mit der vermehrten Veröffentlichung von strukturierten, untereinander verlinkten und für Maschinen verständ- lichen Daten eine große Rolle spielt. Im Kontext dieser Arbeit wird die Entwicklung eines „Semantic Web“ und der damit verwandten Technologien, wie das „Resource Description Framework“ (RDF) oder die Abfragesprache SPARQL erläutert, und ein Wizard zur automatisierten Generierung von Abfragen an Repositories der „Linked Open Data Cloud“ entwickelt. Mit diesem SPARQL-Wizard soll es für einen User auf möglichst einfache Art und Weise möglich sein, die Vorteile des Semantic Web bei der Informationsbeschaffung zu nutzen.

Das Konzept des Semantic Web sieht vor, Informationen anhand ihrer inhaltlichen Zusammenhänge strukturiert anzubieten, wodurch sie mit Hilfe der ihnen zugewiesenen Schlagwörter auffindbar gemacht werden können. Der Zugriff auf diese Daten funktioniert mit Hilfe der so genannten SPARQL-Suchanfragen (Queries), indem gezielt angegeben wird, welche Daten aus dieser großen Menge extrahiert werden sollen. Nach dem Erhalt können diese Daten weiterverarbeitet und unter anderem für eine benutzerfreundliche Darstellung visualisiert werden. Die Visualisierung der semantischen Daten hat mittlerweile eine sehr große Bedeutung im Bereich des Wissensmanagements und ist auch das Thema dieser Masterarbeit.Es wurde im Bereich der Visualisierung heterogener Daten schon einiges realisiert, dennoch wurde dabei auf das Thema der Wiederverwendung wenig eingegangen. Das Ziel dieser Arbeit ist einen generischen Ansatz zur visuellen Repräsentation der heterogenen Daten anzubieten. Die Idee der generischen Lösung basiert dabei auf dem Konzept der systematischen Wiederverwendung, nämlich der Softwareproduktlinien.Das für diesen Zweck entwickelte Framework unterstützt eine Reihe von interaktiven Diagrammen. Der Benutzer kann auf diesem Framework für eine SPARQL-Query eine Visualisierung durchführen und sie anschließen speichern. Um die gespeicherten Diagramme wieder zu verwenden kann das Framework anhand einer Query kontaktiert und das fertige Diagramm clientseitig angezeigt werden. Das Framework wurde so konzipiert, dass der Client ohne großen Aufwand ein Diagramm erstellen und in der Rolle des Entwicklers sogar das Framework um neue Diagramme erweitern kann, die dann als Visualisierungsvorlage angeboten werden.Die am Ende durchgeführte quantitative Evaluierung hat gezeigt, dass für dieses Framework vorgenommene Ansatz verglichen mit der traditionelle Methode zur Visualisierung effizienter ist.

This work presents the design and scientific background of a web-based information extraction system using the open-source GATE-library 1 (General Architecture for text engineering) [Ham12]. The application provides an extendable architecture for server-based high-level information extraction. Textual resources are annotated using a set of tools according to both, their semantic and grammatical representation. These annotations are then presented to the user via a web-interface.

Das Ziel dieser Arbeit ist das Extrahieren, Evaluieren und Speichern von Informationen aus tweets, wodurch eine Schnittstelle zwischen dem World Wide Web und dem semantischen Web modelliert wird. Unter der Verwendung des microblogging- und sozialen Netzwerkdienstes Twitter, wird ein Datensatz von tweets generiert. Dieser wird auf so genannte, von uns definierten, facts untersucht. Diese Filterung wird mit Hilfe von regular expressions (regex) durchgeführt. Die so gefundenen facts werden mit spezifischer Metainformation versehen und in einer Datenbank abgespeichert. Dies ermöglicht Maschinen die Daten intelligent zu durchsuchen und logische Verknüpfungen zwischen den Daten herzustellen. Durch die Verwendung der Programmiersprache Java ist die Applikation systemunabhängig. Die Arbeit liefert einfache Verständnisserklärungen zum semantischen Web, regex und Twitter, welche für die Applikation notwendig sind. Weiters werden das Konzept, verwendete Methoden, auftretende Probleme und gewonnene Resultate diskutiert.

 Das World Wide Web hat das Kommunikationsverhalten von Menschen sowie den Austausch von Informationen grundlegend verändert. Eine ständig wachsende Menge an digitalen Inhalten wird produziert und am Web verfügbar gemacht. Die Ideen des Semantic Webs und des Linking Open Data (LOD) Projekts tragen dazu bei, um den Zugriff auf Informationen am Web effizient zu ermöglichen. Durch derartige Ansätze wird es möglich, dass automatisierte Anwendungen Menschen bei deren Informationsbedürfnissen und täglichen Aufgaben unterstützen. Im Fokus dieser Dissertation stehen Herangehensweisen, um die Generierung und Nutzung von Linked Data zu optimieren. Die Forschungsarbeiten wurden in drei Themenbereiche gegliedert, welche besonders zur Optimierung von Linked Data beitragen: das Erstellen von vernetzbaren Daten, das Vernetzen von Linked Data und das Konsumieren von Linked Data. Zwei Hauptanwendungsfälle begleiten die Arbeit. Der erste Anwendungsfall "riese" befindet sich im Bereich öffentlicher Daten und stellt EuroStat Statistiken als Linked Data zur Verfügung. Der zweite Anwendungsfall "Link2WoD" adressiert die Medienindustrie und wurde entwickelt, um Online-Redakteure zu unterstützen. Der Demonstrator kann jedoch auch allgemein als Werkzeug für die Anreicherung von unstrukturierten Daten mit Linked Data eingesetzt werden. In der Arbeit werden Möglichkeiten für das Erstellen von vernetzbaren Daten aus strukturierten Daten, welche meist als relationale Daten vorliegen, gezeigt. Motiviert durch einen unserer Anwendungsfälle wird das Statistical Core Vocabulary (SCOVO) vorgestellt, welches der Repräsentation von statistischen Daten als Linked Data dient. Es erfolgt auch eine kurze Darstellung von Herangehensweisen, um vernetzbare Daten aus unstrukturierten Datenquellen zu extrahieren. In Bezug auf das Vernetzen von Linked Data werden sowohl benutzerbasierte wie auch automatische Methoden vorgestellt. Mit dem "User Contributed Interlinking" (UCI) haben wir eine auf Prinzipien von Wikis basierende Herangehensweise präsentiert, welche es Benutzern ermöglicht, einfach Links zu Datenbeständen hinzuzufügen. Darüber hinaus werden weitere Anwendungsbeispiele dieser Methodik gezeigt sowie automatisierte Ansätze, welche auf speziellen Spezifikationen und konzeptuellen Beziehungen basieren. Für das Konsumieren von Linked Data werden allgemeine Ansätze diskutiert, um die Daten sowohl für Menschen als auch für eine maschinelle Verarbeitung nutzbar zu machen. Dies erfolgt auch anhand einer Darstellung unserer Anwendungsfälle und Demonstratoren in den Anwendungsgebieten von öffentlichen Daten und in der Medienindustrie. Schließlich werden allgemeine Trends und Ideen für zukünftige Arbeiten präsentiert, um das volle Potenzial des Webs auszuschöpfen.  

Die zentrale Herausforderung für die Entwicklung von Software für arbeitsintegriertes Lernen (work-integrated learning, WIL) ist es, Lerninhalte bereitzustellen, die an die situativen Gegebenheiten und das Vorwissen der NutzerInnen angepasst sind (adaptive Systeme). Um Adaptivität zu realisieren ist ein Benutzermodell (User Model) erforderlich, das kontinuierlich an den Lernfortschritt angepasst wird. Im Gegensatz zum Schul- und Universitätskontext existieren kaum adaptive Systeme zur Unterstützung von WIL. Ziel meiner Masterarbeit war es, ein WIL User Model, WIL User Model Services und eine Software-Architektur zur Unterstützung von WIL zu entwickeln. Das WIL System sollte sich an die Arbeitsaufgabe und das Vorwissen der BenutzerInnen anpassen, reale Arbeitsdokumente als Lerninhalte benützen und in die Arbeitsumgebung der Benutzer integriert sein. Anforderungen für das System wurden einerseits aus der Theorie zu WIL und andererseits aus existierenden Use Cases abgeleitet. Die Anforderungsanalyse ergab, dass drei Arten von Funktionalität zentral für die Unterstützung von WIL erscheinen: Non-invasive Wissensdiagnose, Empfehlungen von Inhalten und Empfehlungen von ExpertInnen. In meiner Mas- terarbeit wurden diese Funktionalitäten über verschiedene Arten von User Model Services konzeptualisiert (Logging, Production, Inference und Control Services), die gemeinsam die WIL User Model Services (WIL UMS) bilden. Die WIL UMS wur- den prototypisch im adaptiven WIL System APOSDLE implementiert. APOSDLE’s Benutzermodell wird über Log Daten (“Knowledge Indicating Events”) automatisch aktualisiert. Ausgehend vom Benutzermodell empfiehlt APOSDLE reale Arbeitsdo- kumente und ExpertInnen. APOSDLE und die WIL UMS wurden als intelligente Lösung zur Unterstützung von WIL in vier Unternehmen installiert, und sind in die Arbeitsumgebung der BenutzerInnen integriert.  

Die Handhabung einer riesigen Menge an stetig steigender persönlicher Daten wird immer schwieriger. Durch unauffällige Überwachung des Benutzers kann der derzeitige Benutzerkontext erfasst werden und dem Wissensarbeiter dadurch bessere Unterstützung ermöglicht werden. Das Ziel dieser Masterarbeit ist es, für eine aktuelle Aufgabe relevante Entitäten in einem Benutzer-Interaktions-Kontext-Modell zu ermitteln. Ein Aktivierungsausbreitungsansatz wird auf die Graphenstruktur eines Benutzer-Interaktions-Kontext-Modells angewandt um, basierend auf dem derzeitigen Benutzerkontext, relevante Aufgaben des selben und eines anderen Benutzers zu finden. Das Benutzer-Interaktions-Kontext-Modell, die entstandene Ontologie and die automatischen Populationsmechanismen wurden von Andreas Rath als Teil seiner Forschungstätigkeit verwirklicht. Die Ziele dieser Masterarbeit sind (a) die Identifikation von relevanten Aufgaben in einem Benutzer-Interaktions-Kontext-Modell, (b) die Ermittlung von Konzepten und Eigenschaften der Benutzer-Interaktions-Kontext-Ontologie für den Aktivierungsausbreitungsansatz, (c) die Evaluierung der erforderlichen Anzahl an Iterationen sowie (d) die Evaluierung einer gute Ergebnisse liefernden Kombination von Aktivierungsabbau, Schwellwert und Relationsgewichtung für den Aktivierungsausbreitungsansatz und (e) die Visualisierung des Aktivierungsausbreitungsgraphen basierend auf dem Benutzer-Interaktions-Kontext-Graphen.  

Das automatische Auffinden von Dokumenten in digitalen Bibliotheken und dem World Wide Web gewinnt Aufgrund der riesigen Datenmengen zunehmend an Bedeutung. Focused Crawling hat zum Ziel nur themenrelevante Dokumente abzufragen und wird deshalb hauptsächlich im Bereich von themenspezifischen Suchmaschinen eingesetzt. Crawler werden auch dazu verwendet um das World Wide Web nach Daten von individuellem Interesse abzusuchen. Im Umfeld von digitalen Bibliotheken kommt Focused Crawling beim Erzeugen von Dokumenten Sammlungen und zur Verwaltung dieser zum Einsatz. Focused Crawling, und damit auch diese Arbeit, gliedert sich in zwei Teilbereiche, einem Web Mining Teil und einen Strategie-Planungs Teil. Der Web Mining Teil behandelt dabei auftretende Probleme im Bereich von Skalierung und Performanz. Das in dieser Arbeit vorgestellte KFetch WebMiner System, ein erweiterbares und flexibles Crawling System, bietet Lösungen fuer die wichtigsten Probleme im Bereich von Web Mining an. Der zweite Teil der Arbeit befasst sich mit Information Retrieval und Maschinellem Lernen im Bereich von Focused Crawling. Verschiedene Crawling Algorithmen werden hier miteinander verglichen und der Einfluss von "Whitelist" und "Blacklists" wird untersucht. Es hat sich herausgestellt, dass die Verwendung von "Whitelists" zu einer Verbesserung führen kann. Des Weiteren wird ein Crawling Algorithmus vorgestellt, der auf Reinforcement Learning mit Funktions Approximation und Vorwissen basiert.

Linked Data bietet einen Rahmen für die Erstellung, Veröffentlichung und Weitergabe von Informationen durch den Einsatz semantischer Technologien. Die Linking Open Data Initiative spielt durch die Veröffentlichung und Vernetzung verschiedenster Datenquellen im Internet eine wichtige Rolle bei der Realisierung des Semantic Web auf globaler Ebene. Der Zugriff auf eine riesige Menge an Linked Data eröffnet spannende Möglichkeiten für die nächste Generation Web-basierter Anwendungen. Es gibt jedoch noch immer viel zu wenige Anwendungsfälle, die das volle Potential von Linked Data nutzen. Dies liegt hauptsächlich an einigen offenen Fragestellungen im Zusammenhang mit der Verwertung und der Veröffentlichung von Linked Data sowie mit Applikationen, die auf Linked Data aufbauen, sowohl aus Sicht der Entwickler als auch der Anwender.Diese Dissertation soll die Kernthemen der Verwendung von Linked Data adressieren (z. B. Suchen und Abfragen, vereinfachte Benutzeroberflächen, Identity Management und Disambiguierung) sowie die Veröffentlichung von Linked Data erleichtern. Es werden konzeptionelle Modelle präsentiert, die dabei helfen können, das Linked Data Ökosystem besser zu verstehen. Darüber hinaus wird ein innovativer Ansatz vorgestellt, um durch den intelligenten Einsatz semantischer Technologien eine einfach zu bedienende Anwendung für normale Web-Nutzer zu entwickeln. Diese Anwendung kann durch den Einsatz von Linked Data relevante Informationen automatisch erfassen, verarbeiten und präsentieren und dabei  komplexe semantische Mechanismen und Abfragestrukturen verbergen. Insgesamt leistet diese Arbeit Beiträge in fünf Bereichen:Erstens identifiziert diese Arbeit die Notwendigkeit von konzeptionellen Konstrukten, um Linked Data  besser zu verstehen, und stellt die Linked Data Wertschöpfungskette vor. Ferner werden mögliche Problembereiche aufgezeigt; einer davon der Mangel an benutzerfreundlichen Schnittstellen für die Nutzung von Linked Data Ressourcen. Zweitens wird eine Technik zum Auffinden relevanter URIs aus unterschiedlichen Datensätzen von Linked Data entwickelt und implementiert, um tiefere Einblicke zu gewinnen und die Suchmechanismen für verknüpfte Daten zu vereinfachen. Drittens wird eine benutzerfreundliche Schnittstelle für die Erkundung von Linked Data namens CAF-SIAL (Concept Aggregation Framework for Structuring Information Aspects of Linked Open Data) vorgestellt. Dieses Framework ist in der Lage, Informationen in einer benutzerfreundlichen Umgebung zu strukturieren und darzustellen. Die Anwender müssen dabei nicht mehr lernen, wie Linked Data Konstrukte abgefragt und durchforstet werden. Die Ergebnisse der Evaluierung zeigen, dass dieses vollautomatische System die Nutzer bei der Exploration von Linked Data Ressourcen unterstützt.Viertens wurde ein HTML-Archiv eines digitalen Journals RDFiziert und automatisch mit externen Linked Data Ressourcen verknüpft. Anschließend wurde es der Linked Data Community öffentlich zur Verfügung gestellt. Fünftens wurde, um den Mehrwert der Linked Data Cloud zu demonstrieren, CAF-SIAL in zwei Anwendungsfällen eingesetzt: In einer digitalen Zeitschrift (Journal of Universal Computer Science) wurden Autoren mit ihren Profilen verknüpft, die von CAF-SIAL basierend auf Linked Data erstellt wurden, um die Nutzer der Zeitschrift dabei zu unterstützen, zusätzliche Informationen für die Zusammenarbeit zu finden. In einem zweiten Anwendungsfall wurden potentielle Experten von einem Expertise Mining System in einem hyperbolischen Baum visualisiert. Diese Experten wurden dann mit ihren Profilen in CAF-SIAL verknüpft, was sich als sehr nützlich für die Verwalter der Zeitschrift bei der Identifizierung und Zuordnung von Rezensenten in einer Peer-Review-Umgebung erwies.

Ein MediaWiki ist eine Social Web Applikation, welche es einer Gruppe von Personen einfach ermöglicht Informationen kollaborativ zusammenzutragen, Text zu erstellen und aktuell zu halten. Die wichtigsten Funktionen eines MediaWikis sind, das Erstellen und Bearbeiten von Artikeln, das Verlinken der Artikeln um eine Navigation zwischen den Artikeln zu ermöglichen und das Zusammenfassen der Artikeln in Kategorien ([Barrett, 2009]). Unter gewissen Umständen ist es notwendig die Qualität eines Artikels in einem MediaWiki einzuschätzen bzw. die Qualität eines Artikels zu steigern. Nach [Wang & Strong, 1996] hat schlechte Qualität von Daten einen erheblichen sozialen und wirtschaftlichen Einfluss. Im Rahmen dieser Arbeit wurde wissenschaftliche Literatur, die sich mit der Qualität von Artikeln und Daten beschäftigt, analysiert und zusammengefasst. Aus dem Ergebnis dieser Analyse und in Zusammenarbeit mit einem Unternehmen wurden Features formuliert, die dazu führen, dass die Qualität von MediaWiki Artikeln eingeschätzt werden kann und des Weiteren den Benutzern eines Mediawikis dabei unterstützen die Qualität von Artikeln zu steigern. Nachdem Features gefunden wurden, wurde ein Prototyp von einer Toolbar mit diesen Features in Adobe Flex entwickelt, die als Erweiterung in ein MediaWiki eingebunden werden kann.

In this thesis we examine the automatic generation of training data in order to train a machine learning algorithm. We will use a rule-based approach to generate the training data which is build using the GATE Natural Language Processing framework. The machine learning algorithm is using a statistical model, the maximum entropy model (MEM) in our case, to do the information extraction task. We will introduce an architecture and an application for the automatic generation of training data. In order to test our approach we will introduce and adapt evaluation metrics. The implications of using automatic test data on the structure of the result will be elaborated. We will partition the error in different regions and see its impact. We see that under certain circumstances the statistical model outperforms the rule-based extraction algorithm, that was used to train that model.

Die Motivation Wissen formal zu repräsentieren besteht üblicherweise darin es für Maschinen verarbeitbar zu machen. Daher werden Wissensrepräsentationsformalismen sinnvollerweise so gewählt, daß sie gut automatisch verarbeitbar sind. Darunter leidet allerdings häufig die Verständlichkeit der Repräsentation für Menschen. Auf der anderen Seite sind es meistens Menschen, die Wissen formalisieren oder formalisiertes Wissen aktuell halten müssen. Diese Diskrepanz ist die zentrale Motivation der vorliegenden Doktorarbeit, Möglichkeiten zu untersuchen wie die Evaluierung der konzeptionellen Richtigkeit von Ontologien automatisch unterstützt werden kann. Wenn zum Beispiel ein logischer Satz zu einer Ontologie, einem formalen Wissensmodell über Konzepte und Beziehungen zwischen Konzepten, hinzugefügt wird, kann es passieren daß die Ontologie zwar logisch weiterhin widerspruchsfrei ist aber konzeptionell falsch. Als spezieller Formalismus werden im Rahmen dieser Doktorarbeit Beschreibungslogiken betrachtet. Zuerst wurde sowohl analytisch als auch anhand einer Benutzerstudie betrachtet, inwieweit die systematische Begutachtung von Inferenzen den Ontologieevaluierungsprozess unterstützen kann. Als weitere Forschungstätigkeit wurde die Verwendung von konkreten Daten zur Erstellung von Beispielen fur die Bedeutung von logischen Sätzen über Konzepte und Relationen, terminologische und Rollenaxiome, untersucht. Vor der vorliegenden Doktorarbeit wurden in der Literatur den Auswirkungen von terminologischen und Rollenaxiomen auf konkrete Daten kaum Bedeutung geschenkt. Es war also notwendig, zuerst eine formale Definition zu finden die dem Ziel entspricht, Wissen über Daten das neu hinzukommt oder verloren geht auszudrücken. Darauf aufbauend werden die Entscheidbarkeit des Problems gezeigt und ein Entscheidungsalgorithmus beschrieben. Beide Forschungsarbeiten führten zu einer Erweiterung des MoKi, eines wiki-basierten Ontologieeditors, um Funktionalitäten die Ontologieevaluierung unterstützen. MoKi ist somit, nach bestem Wissen der Autorin, zu diesem Zeitpunkt der einzige State-of-the-Art Ontologieeditor der konzeptionelle Ontologieevaluierung unterstützt.

In der dynamischen Welt der IT entwickelte sich das Kennzeichen der Adaptivität zu einem der wichtigsten. Um die Adaptivität eines Systems gewährleisten zu können, muss eine entsprechende Infrastruktur sichergestellt sein. Jede Komponente des Systems sollte die Adaptivität zu einem gewissen Grad unterstützen. Wie soll ein System entworfen werden welches einerseits so weit wie möglich abstrahiert ist und ein hohes Maß an Flexibilität bietet, andererseits jedoch die Genauigkeit der Recommendation nicht beeinflusst? Um dieses Problem lösen zu können, haben andere Systeme wie CUMULATE (Benutzermodel Komponente im KnowledgeTree System) so genannte intelligente Inferenz-Agenten vorgestellt. Diese Agenten waren jeweils für eine Eigenschaft des Benutzers zuständig (z.B. Motivation oder Wissen des Benutzers). Die vorliegende Arbeit hat ein ähnliches Konzept verfolgt. Anstatt auf die Eigenschaften des Nutzerprofils wird der Schwerpunkt auf die Umstände/Situationen in denen die Benutzer/Inenn arbeiten gesetzt. Eine Möglichkeit wäre die zu Hilfenahme mehrerer Typen von Inferenz-Agenten (Konfiguration der Benutzerprofil-Komponente), welche für verschiedene Situationen vorkonfiguriert sind. Unterschiedliche Situationen ergeben sich durch neue Systeme, neue Domänen, unterschiedliche Domänenzustände sowie neue Arbeits- und Verhaltensmuster. Sollte die aktuelle Konfiguration aus irgendeinem Grund nicht ausreichend sein, so sollte sie relativ einfach durch eine besser angepasste Konfiguration ausgetauscht werden können. Das Problem dabei ist allerdings, dass nicht bekannt ist, welche Konfiguration für die aktuelle Situation die passendste ist. Es muss demnach ein Überprüfungsmechanismus gefunden werden, welcher sich um diese Problematik kümmert. Dieser Mechanismus wird als Simulation Framework in dieser Masterarbeit vorgestellt. Den praktischen Teil dieser Masterarbeit stellt die Implementation des UPS Prototype 3 und des Simulation Framework dar, und darauf aufbauend die Simulationen von Benutzerverhaltenweisen um die UPS Komponente des APOSDLE-Systems kalibrieren zu können. Die Simulationen zeigen eindeutig, dass jene Algorithmen, welche den sogenannten Aging Faktor berücksichtigen, die besten Ergebnisse erzielen. Mit dieser Erkenntnis wurde die Anzahl der möglichen Konfigurationen im System von ursprünglich sechs auf letztendlich zwei reduziert.  

In der heutigen Zeit steigt die Menge an digitalen Daten tagtäglich. Durch das Internet ist ein Teil davon der breiten Masse jederzeit zugänglich. Dabei unterstützen Suchmaschinen den Benutzer aus der scheinbar unerschöpflichen Menge an Daten die gewünschten Informationen herauszufiltern. Ebenso wird es im Intranet eines großen Unternehmens zunehmend schwieriger die Unmengen an Daten adäquat zu organisieren und zu strukturieren, um die gesuchten Informationen schnell zu finden. Für den niederländischen Halbleiterhersteller namens NXP Semiconductors wurde in dieser Arbeit ein Wissensmanagementsystem entwickelt, um den Zugang zu den Spezifikationen des intern entwickelten JCOP-Betriebssystems zu optimieren. Dabei können Spezifikationen vom Benutzer verwaltet, gruppiert und durchsucht werden. Als Grundlage für die Volltextsuche wurde ein bewährtes Information-Retrieval-Verfahren namens Vektorraummodell verwendet. Bei der Indizierung der Spezifikationen wird der Text extrahiert, gefiltert und in einen Index eingebettet. Dadurch wird dem Benutzer ermöglicht den Volltext der Spezifikationen zu durchsuchen. Aufbauend auf die Volltextsuche der Spezifikationen wurde mittels eines maschinellen Lernverfahrens namens K-Nearest-Neighbour die vom Benutzer durchgeführte Gruppierung einzelner Spezifikationen mit den Ergebnissen der K-Nearest-Neighbour-Klassifikation verglichen. Nach mehreren Optimierungsschritten konnte der Recall der Klassifikation auf über 70% und die Accuracy auf über 90% verbessert werden.

Der enorme Zuwachs an Daten verschiedensten Typs und unterschiedlichster Herkunft f¨uhrte in den letzten Jahren zu riesigen, teils un¨ubersichtlichen und unstrukturierten Datenmengen. In Anbetracht dessen ist die geeignete Aufbereitung sowie die effiziente Handhabung großer Datenmengen von besonderer Relevanz. Computerunterst¨utzte Visualisierung bzw. speziell die Visualisierung von semantischen Graphstrukturen spielt dabei eine zentrale Rolle. Sowohl die derzeitige Situation als auch die Prognose der zuk¨unftigen Entwicklungen unterstreicht die Aktualit¨at und besondere Bedeutung dieses Themas. Die Masterarbeit beleuchtet zun¨achst den theoretischen Hintergrund ausgew¨ahlter Themenbereiche der Graph- und Information-Visualisation. Die anschließende Evaluierung bereits bestehender Tools, Packages und Frameworks soll Aufschluss ¨uber aktuell verf¨ugbare Softwarel¨osungen zur Visualisierung von Graphen bzw. semantischen Graphstrukturen geben. Im Rahmen des praktischen Teils der Arbeit erfolgt, unter Ber¨ucksichtigung der Ergebnisse der Evaluierung, die Implementierung eines Systems zur Visualisierung und dynamischen Aggregierung von RDF-Graphen.

Die zunehmende Vernetzung und Öffnung von Unternehmen nach extern bedingt, dass ein großer Teil erfolgsbestimmender Einflussfaktoren außerhalb des eigenen Wirkungsbereichs liegt. Deswegen ist es für erfolgreiches Management wichtiger denn je, Informationen zu den Sichtweisen und Motivationsfaktoren der zentralen, externen Stakeholder so zu erheben, dass sie mit den eigenen Sichtweisen zusammengeführt und weiterverarbeitet werden können. Die Informationen können auf verschiedene Weise eingeholt werden. Gerade das Web 2.0 bietet hier Chancen, unternehmensinterne, strukturierte Informationen mit weiterführenden anzureichern. Diese Anreicherung ist zentraler Betrachtungspunkt der Arbeit und leitet sich aus einem speziellen Anwendungsfall ab, in welchem Erfolgsfaktoren und deren Verbindungen in Unternehmen betrachtet werden. Es wird untersucht, wie durch Diskussion über gängige Web 2.0 Plattformen wie Blogs oder Wikis etc. vorhandene, strukturierte Informationen durch Dritte angereichert werden können. Als Lösungsansatz wird eine Plattform zur Diskussion strukturierter Informationen als Rich Internet Application konzipiert und entwickelt. Diese hat den Charakter einer Suchmaschine und im Gegensatz zu herkömmlichen Diskussionsplattformen, wie z.B. Blogs, erfolgt die Diskussion strukturiert mittels Bewertungen. Im Rahmen einer Pilotnutzung und Expertenbefragung wird diese evaluiert. Die vorliegenge Masterarbeit zeigt, dass mit Rich Internet Applications ein hohes Maß an Usability erreicht werden kann, um strukturierte Informationen in Form von Erfolgsfaktoren erfolgreich mit weiterführenden Informationen durch Dritte anzureichern. Der vorliegenden Masterarbeit liegt ein Auftrag der SUCCON Schachner & Partner KG an die TU Graz zugrunde. Einzelne der im Rahmen dieses Auftrages durchgeführten Konzeptions- und Entwicklungstätigkeiten wurden in Absprache mit der SUCCON zur Behandlung im Rahmen der vorliegenden Masterarbeit freigegeben.  

Die kontinuierliche Wissensdiagnose stellt eine zentrale Herausforderung in adaptiven Lernsystemen, vor allem im Arbeitskontext, dar. Implizite Wissensdiagnose ist eine Möglichkeit, arbeitsgebundenes Wissen auf indirektem Weg über das Benutzerverhalten zu erfassen. Die vorliegende Feldstudie konzentriert sich auf die Validierung einer impliziten Wissensdiagnose (Knowledge Indicating Events, KIE) durch das User Model des arbeits-integrierten adaptiven Lernsystems APOSDLE. Eine Gruppe von sechs Untersuchungs-personen testete in einem Kleinunternehmen das adaptive Lernsystem APOSDLE drei Monate lang in ihrer natürlichen Arbeitsumgebung. Um den Genauigkeitsgrad des User Models messen zu können, wurde das erfasste Wissen im User Model mit externen Kriterien (Selbst- und Fremdeinschätzung) verglichen. Dafür wurden zum Einen die erfassten Arbeitsbereiche und zum Anderen die erfassten Wissenslevels (Expertise, Advanced, Beginner) im User Model berücksichtigt. Die Ergebnisse zeigen einen mäßigen Zusammenhang zwischen den erfassten Arbeitsbereichen des Systems und der Selbst- und Fremdeinschätzung. Zwischen dem erfassten Wissenslevels des Systems und dem selbst- und fremdeingeschätzten Wissenslevels wurde ein eher geringer Zusammenhang beobachtet. Aus der Literatur geht hervor, dass gewöhnlich mäßige Zusammenhänge zwischen User Model und externen Kriterien gefunden wurden. Aufgrund dessen erscheint eine Einbeziehung der KIE vielversprechend für die Wissensdiagnose im arbeits-integrierten Lernsystem APOSDLE. Die zusätzliche ROC Kurven Analyse zeigt eine geringere bis mittlere Sensitivität des Systems. Durch qualitative Inhaltsanalysen von Interviews und einem User Diary wurden folgende Faktoren als beeinflussend für die Validität des User Models festgestellt: Systembenutzung, Exploratives Verhalten eines Benutzers und das KIE-Mapping sowie die KIE-Algorithmen des Systems.

Kooperative Verschlagwortungssyteme erlauben es Anwendern, unterschiedliche Arten von Web-Ressourcen (URLs, Fotos, Publikationen etc.) mittels eines frei wählbaren und offenen Vokabulars, sogenannten "Tags" zu annotieren. Während die Forschung zu Beginn primär auf die Analyse der Struktur und der Dynamik von kooperativen Verschlagwortungssystemen fokusiert war, kam es kürzlich zur Untersuchung von Motivationsstrukturen, die der Verschlagwortung zu Grunde liegen. Die vorliegende Masterarbeit zielt auf ein tieferes Verständnis hinsichtlich der Verschlagwortungscharakteristiken von zwei grundverschiedenen Typen von Motivation ab - Kategorisierung versus Beschreibung. Sogenannte "Kategorisierer" verwenden Tags primär zum Aufbau und zur Pflege einer hilfreichen Navigationsstruktur ihrer Ressourcen. Dazu etablieren sie ein persönliches Vokabular an Tags, das dazu neigt, sich schnell zu stabilisieren und eine gleichmäßige Verwendungshäufigkeit der Tags aufweist. "Beschreiber" haben das vordergründige Ziel, Ressourcen äußerst detailliert zu annotieren, um die Suche möglichst gut zu unterstützen. Da sie ihre Tags ad-hoc und beschreibend einsetzen, wächst ihr Tag-Vokabular typischerweise viel stärker und weist zudem eine ungleichmäßige Verteilung auf. Basierend auf 10 Verschlagwortungsdatensätzen, die von 6 unterschiedlichen kooperativen Verschlagwortungssystemen (BibSonomy, CiteULike, Delicious, Flickr, Diigo und Movielens) akquiriert wurden, werden innerhalb dieser Masterarbeit die Verschlagwortungspraktiken von Kategorisierern und Beschreibern systematisch verglichen. Zu diesem Zweck wurde eine pragmatische Analyse durchgeführt, die auf ausgewählten statistischen Metriken basiert, welche unterschiedliche Intuitionen der Verschlagwortungscharakteristiken von Kartegorisierern und Beschreibern widerspiegeln. Die Masterarbeit beinhaltet überdies noch empirische Ergebnisse einer qualitativen Benutzerstudie. Im Zuge einer binären Klassifikationsaufgabe zur Abschätzung, ob Benutzer eher Kategorisierer oder Beschreiber darstellen, wurde untersucht, welche statistischen Metriken dabei am ehesten der menschlichen Beurteilung entsprechen. Die zentralen Ergebnisse dieser Masterarbeit beziehen sich folglich auf eine Reihe ausgewählter Verschlagwortungscharakteristiken, welche vergleichend für Kategorisierer und Beschreiber analysiert wurden. Die Ergebnisse zeigen, dass es mittels einfachen jedoch robusten statistischen Maßen möglich ist, die Unterschiede in der Verschlagwortungspragmatik von Benutzern automatisch zu identifizieren.  

Das 21. Jahrhundert ist durch Energie- und Ressourcenverschwendung gekennzeichnet. Die Auswirkungen dieses Verhaltens können in der ganzen Welt wahrgenommen werden. Der Wandel der Gesellschaft hin zur nachhaltigen Nutzung der zur Verfügung stehenden Ressourcen kann als Anstoß für diese Arbeit gesehen werden. Diese Masterarbeit beschäftigt sich mit der Erstellung eines webbasierten Ansatzes zur Überwachung und Visualisierung von Anlagedaten. Die zu überwachenden Informationen kommen aus dem Bereich der Energietechnik. Einleitend werden die Rahmenbedingungen dieser Arbeit definiert. Des Weiteren werden die funktionalen und nichtfunktionalen Anforderungen erläutert. Aufbauend darauf werden softwareentwicklungstechnische Entscheidungen getroffen, welche bei der Implementierung der RIA-Applikation erforderlich waren. Die Applikation ist Teil eines Gesamtproduktes, welches als verteiltes System realisiert ist. Der agile Softwareentwicklungsprozess Scrum wird als Prozess eingesetzt. Technologisch wurde die RIA- Applikation mit Silverlight realisiert. Der praktische Teil dieser Arbeit veranschaulicht die Realisierung der Visualisierung der Anlagedaten im zeitlichen, domain- und geospezifischen Kontext. Zu Beginn des praktischen Abschnittes wird ein Überblick über die RIA-Applikation gewährt, darauf aufbauend veranschaulichen Code-Ausschnitte zum besseren Verständnis die verschiedenen Visualisierungen. Abschluss dieses Teils bildet die Erklärung des Zusammenspiels der einzelnen Module der RIA-Applikation. Das Resümee über die eingesetzten Technologien und Praktiken bildet den Gesamtabschluss dieser Masterarbeit.  

Aufgrund der wachsenden Anzahl von Informationen, die ständig zu verarbeiten sind, werden aussagekräftige Visualisierungen von Informationen immer wichtiger. Gleichzeitig finden auch durch die ständig schneller werdende Computerhardware und die größer werdende Bandbreite bei Internetzugängen anspruchsvolle dreidimensionale Inhalte im Web immer stärkere Verbreitung. Die Darstellung von Informationsvisualisierungen im Web ist somit eine gute Möglichkeit, um viele Nutzer zu erreichen. Die Erweiterung von zweidimensionalen Visualisierungen um eine weitere Dimension kann hierbei zur besseren Strukturierung der Informationen genutzt werden. Die dreidimensionale Darstellung von Informationen im Web verlangt aber auch nach entsprechenden Technologien, die diese Aufgabe erfüllen können. Somit werden in dieser Arbeit derzeit verfügbare web-basierte 3D-Formate ermittelt, diese anhand von Kriterien verglichen und es wird auf Grund der hohen Verbreitung Flash für eine prototypische Umsetzung einer Informati-onsvisualisierung ausgewählt. Da es in Flash mehrere 3D-Engines gibt, werden diese einer genaueren Untersuchung unterzogen, um für die Informationsvisualisierung die passende auswählen zu können. Die Arbeit zeigt, dass es mit Flash möglich ist eine Informationsvisualisierung umzusetzen, auch wenn dabei aufgrund der geringen Hardwareunterstützung oft Kompromisse bei der Geschwindigkeit und der ungenauen Tiefenberechnung einzugehen sind.

Data Mining ist ein Schlagwort, in das heutzutage viele Erwartungen im Bereich der Informatik gesteckt werden. Das maschinen-unterstützte "Graben" und "Fördern" von komplexen Zusammenhängen in großen Datenbeständen ist auch von Interesse für eine Grazer Softwarefirma, die sich mit Datenanalyse im Bereich der Produktion beschäftigt. Diese Arbeit bearbeitet ein erstes Szenario dem sich die Firma widmen möchte: das Erkennen von Mustern in der Zustandshistorie einer produzierenden Maschine. Außer der Sequenz der Zustände und deren Dauer steht nur wenig Information zur Verfügung, die verwendet werden kann. Die Frage ist daher, ob zwischen den einzelnen Maschinenzuständen signifikante Korrelationen bestehen. Die sequentielle Natur der Daten bedingt zwei unterschiedliche Zugänge der Bearbeitung: zum einen bieten sich klassische Methoden der Klassifikation, zum anderen Methoden des so genannten Sequence- beziehungsweise des Episode-Mining an. Diese Arbeit präsentiert zunächst verschiedene mögliche Ansätze aus beiden Gebieten, um danach eine Methode aufzugreifen und Ergebnisse erster Versuche zu liefern. Diese Versuchen sollen zeigen, dass ein Auffinden von Mustern möglich ist.  



Diese Masterarbeit befasst sich mit einer Untersuchung von Methodiken für die Analyse und das Verstehen von Diskussionen, die im Web statt finden. Hauptaugenwerk wird hierbei auf die Erforschung der Meinungen, die sich aus den Inhalten von Webdiskussionen, konkret aus Diskussionsforen, ermitteln lassen, gelegt. Im Rahmen des praktischen Teils wird ein Prototyp für die Analyse und Auswertung der Informationen aus den Foren für die Domäne Marktforschung im Rahmen des nationalen Forschungsprojektes Understanding Advertising erstellt.

Diese Masterarbeit befasst sich mit einer Untersuchung von Methodiken für die Analyse und das Verstehen von Diskussionen, die im Web statt finden. Hauptaugenwerk wird hierbei auf die Erforschung der Meinungen, die sich aus den Inhalten von Webdiskussionen, konkret aus Diskussionsforen, ermitteln lassen, gelegt. Im Rahmen des praktischen Teils wird ein Prototyp für die Analyse und Auswertung der Informationen aus den Foren für die Domäne Marktforschung im Rahmen des nationalen Forschungsprojektes Understanding Advertising erstellt.

Mit dem Begriff Web 2.0 wird eine Evolution bezeichnet, welche das Web seit einigen Jahren durchläuft. Kernelement dieses positiven Wandels ist die stetig zunehmende Bedeutung der durch Nutzer freiwillig und selbstorganisiert geteilten Inhalte. Am Web transformieren Nutzer von rein passiven Informationskonsumenten zu äußerst aktiven Informationsproduzenten. Dieser Effekt hat zur Herausbildung sozialer Web-Plattformen wie Wikipedia, Youtube, Facebook oder MySpace beigetragen, welche ihre Geschäftslogik auf nutzergenerierten Inhalten aufbauen. Angespornt durch den Erfolg solcher Web-2.0-Anwendungen in der Informationsteilung wollen auch Unternehmen das Web 2.0 für sich nutzbar machen. In ihrer Idealvorstellung von Corporate Web 2.0 schwebt ihnen vor, Strukturen und Muster des Web 2.0 in die Unternehmenslandschaft zu integrieren. Doch müssen Entscheider im Corporate Web 2.0 das entstehende Spannungsfeld zwischen Selbst- und Fremdorganisation, also Freiwilligkeit contra Hierarchie beherrschbar machen, um die Potentiale von Web 2.0 im Unternehmen vollständig auszuschöpfen. Diese Dissertation erforscht einen differenzierten Anwendungsbereich von Corporate Web 2.0, den intraorganisationalen Wissenstransfer über die beiden speziellen Web 2.0 Anwendungen Wiki und Weblog. Als sozio-technische Systeme weisen Wiki und Weblog besondere Charakteristika auf, welche das Verstehen und das Abschätzen ihrer Wirkung im betrieblichen Umfeld erheblich erschweren. Im Gegensatz dazu finden verantwortliche Wissensmanager wenig akademische qualitätsgesicherte Literatur vor, in welcher die beim Einsatz von Wiki und Weblog im Unternehmen beobachteten Phänomene systematisch empirisch untersucht werden. Als Antwort auf diese Knappheit verfolgt der Dissertant im Rahmen einer explorativen Mehrfachfallstudie die zentrale Forschungsfrage, ob und wie Unternehmen ihre Mitarbeiter dazu bringen, Wissen über Wiki und Weblog zu teilen. Die anwendungsnahe Dissertation legt den Untersuchungsfokus einerseits auf die für intraorganisationalen Wissenstransfer verantwortlichen Experten für Wiki und Weblog, berücksichtigt aber auch die Perspektive der Mitarbeiter als Nutzer dieser aus Sicht einer Wirtschaftsinformatik neuen computergestützten Informationssysteme. Durch die systematische Untersuchung des intraorganisationalen Wissenstransfers mit Wikis und Weblogs leistet diese Dissertation als explorative Forschungsarbeit einen Beitrag zu einem besseren Verständnis von Corporate Web 2.0 in Theorie und Praxis.  

Der Fokus dieser Arbeit liegt auf der Anwendung von Data Mining im realen Businesssumfeld. Wir stellen eine breite Palette von Data Mining Methoden und Techniken vor und veranschaulichen diese mit Beispielen aus eigenen praktischen Erfahrungen. Neben einer aktuellen Sichtweise auf das Thema Data Mining, betrachten wir diese Disziplin auch aus vergleichsweise unkonventionellen Perspektiven (z.B. Informationstheorie, Kolmogorow Komplexität, uvm.) und verwenden die neuesten und renommiertesten Quellen der Literatur. Diese Arbeit erkennt den prozessorientierten Charakter von Data Mining an und hebt die Notwendigkeit ihrer engen Integration in den strategisch wichtigen Entscheidungsfindungsprozessen einer Organisation hervor. Wir stellen die bedeutendsten Modelle der Data Mining Prozess-Aufgliederung vor und betrachten die wichtigsten Phasen des Prozesses im Detail. Ebenso berichten wir über unsere Erfahrungen im Aufbau einer Data Mining Gruppe in einem Handelsunternehmen. Zurzeit haben die Wissenschaftler leider kaum Zugang zu interessanten Quellen der realen Geschäftsdaten und arbeiten selten in enger Kooperation mit Spezialisten aus dem Anwendungsumfeld. Im Gegensatz dazu ist diese Dissertation von praktischen Anforderungen an Data Mining im heutigen Businessumfeld geprägt und resultiert aus der Arbeit mit realen Geschäftsdaten. Nach der Analyse der tatsächlichen Geschäftsanforderungen haben wir einen neuartigen universellen and skalierbaren Ansatz zur Modellierung des Kundenverhaltens entwickelt, welcher sowohl in der Versicherungsbranche, als auch im Handelsumfeld erfolgreich umgesetzt werden konnte. Wir schlagen auch einige Anwendungsmöglichkeiten der dargestellten Methode vor. Weiters zeigen wir am Beispiel eines tatsächlich umgesetzten Projekts, wie die Data Mining Techniken dazu verwendet werden können, die direkte Kundenkommunikation im Handelsumfeld zu optimieren, zu personalisieren und zu gestalten. Abschließend analysieren wir die Zukunftsaussichten dieser jungen Wissensdisziplin. Aus eigener Erfahrung mussten wir feststellen, dass Data Mining im Versicherungs- und Handelsumfeld in Österreich leider noch in den Kinderschuhen steckt und einen langen Weg vor sich hat. Wir berichten auch über die bedeutendsten Herausforderungen, die wir im Laufe unserer Data Mining Tätigkeit erlebt haben, und die wichtigsten Erkenntnissen, die wir aus unserer praktischen Arbeit in diesem Umfeld gelernt haben. 

Diese Masterarbeit befasst sich mit einer Untersuchung von Methodiken für die Analyse und das Verstehen von Diskussionen, die im Web statt finden. Hauptaugenwerk wird hierbei auf die Erforschung der Meinungen, die sich aus den Inhalten von Webdiskussionen, konkret aus Diskussionsforen, ermitteln lassen, gelegt. Im Rahmen des praktischen Teils wird ein Prototyp für die Analyse und Auswertung der Informationen aus den Foren für die Domäne Marktforschung im Rahmen des nationalen Forschungsprojektes Understanding Advertising erstellt.

Die vorliegende Arbeit untersucht den Nutzen von konnektionistischen Modellen für das Adaptive Information Retrieval. Adaptives Information Retrieval bezeichnet die Anpassung des Suchprozesses an den individuellen Kontext sowie die individuellen Bedürfnisse des Benutzers. Das Ziel von adaptiven Retrieval-Systemen ist, auf Basis von Benutzer-Feedback zur Güte (d.h. Relevanz) vorheriger Resultate, die Effektivität des Systems zu verbessern. Im Rahmen dieser Diplomarbeit wurde ein Modell für das Adaptive Information Retrieval entwickelt, das die Adaption des Systems in Bezug auf langfristige Benutzerbedürfnisse ermöglicht, indem das Modell auf Ideen und Techniken aus dem Bereich der probabilistischen Indizierung und Retrievals sowie der Neuronalen Netze zurückgreift. Das entwickelte Modell stellt eine Erweiterung des assoziativen Retrieval-Modells von Scheir [2008] dar. Dieses assoziative Modell repräsentiert Assoziationen zwischen Informationsobjekten (d.h. Indexterme und Dokumente) als einen gewichteten Graphen, der auch als Assoziatives Netz bezeichnet wird. Die Verarbeitung von Anfragen in Scheiers Modell ist mittels Aktivierungsausbreitung analog zur Informationsverarbeitung in Neuronalen Netzen realisiert. Das konnektionistische Modell, das im Laufe der Arbeit entwickelt wurde, benutzt den effizienten Backpropagation Algorithmus, um die Struktur des Assoziativen Netzes - basierend auf Relevanz-Feedback - zu modifizieren, mit dem Ziel, dass das Modell in der Lage ist, den intuitiven Begriff der Relevanz besser wiedergeben zu können. In weiterer Folge beschreibt die Arbeit die Referenzimplementierung des Modells im APOSDLE-System und präsentiert die Ergebnisse einer Systemevaluierung basierend auf einer kleinen Testkollektion aus Dokumenten, Anfragen und Relevanzbewertungen. Die Evaluierung zeigt eine signifikante Verbesserung der Effektivität des adaptiven Modells gegenüber dem originalen, assoziativen Modell. Somit schafft das vorgestellte Modell die Grundlage, Relevanz-Feedback in das Retrieval-Modell von Scheir [2008] einfließen zu lassen.  

Diese Arbeit beschäftigt sich mit der Begrifflichkeit der Reflexion und im speziellem mit dem Einsatz eines reflexiven Prozesses im arbeitsintegrierten Lernen. Reflexion als eine Fähigkeit des Wissensarbeiters seinen Entscheidungsfindungsprozess durch das Miteinbeziehen von Erfahrungswissen positiv zu beeinflussen. Als Wissensarbeiter werden vor allem solche Personen verstanden, die auf Basis ihres Fachwissens und ihrer Kreativität Innovationen vorantreibt. Es wird versucht den Prozess der Reflexion unter Zuhilfenahme von einschlägiger Literatur zu zerlegen und die einzelnen Bestandteile herauszuarbeiten. Zudem werden Modelle vorgestellt, die dazu bestimmt sind einen reflexiven Prozess zu beschreiben. Aufbauend auf diese Erkenntnisse werden verschiedene Methoden eingeführt, die einen Reflexionsprozess unterstützen können. Diese Methoden werden auf ihren möglichen Einsatz als Unterstützungsmethoden für Reflexion geprüft. Der Einsatz von Reflexionsmethoden ist jedoch nur ein Teil davon, was in dieser Arbeit unter Reflection Support zu verstehen ist. Das Ziel war es ein möglichst generelles System zu schaffen, welches den arbeitsintegrierten Lernprozess durch Reflexion unterstützt. Diese Beschreibung liefert die Voraussetzungen dafür, dass der Prozess der Reflexion im Umfeld des arbeitsintegrierten Lernens ablaufen kann. Die Ergebnisse, die aus diesem abstrakten Design gewonnen wurden, wurden in letzter Konsequenz dem Zielsystem APOSDLE (Advanced Process- Oriented Self- Directed Learning Environment) zugeführt. Es entstand ein Prototyp, der Reflection-Support im APOSDLE Projekt verwirklicht hat. Die so genannte Trigger Engine hat nicht nur die Aufgabe den Benutzer des APOSDLE Systems mit den richtigen Reflexionstools zu unterstützten, sondern vor allem die Funktion den geeigneten Zeitpunkt dieser Reflexionsmöglichkeiten herauszufinden. Als Ergebnis wurde ein Prototyp geschaffen der als Modul im APOSDLE System eingesetzt werden kann.  

In der heutigen Zeit werden dem Benutzer eine Vielzahl von Diensten und Anwendungen über das Netzwerk angeboten. Egal ob dem Privatanwender im Internet, oder dem Mitarbeiter in einem Unternehmensportal. In beiden Bereichen muss der Benutzer mit verschiedenen Anwendungen kommunizieren und interagieren. Ein großes Problem stellt dabei die Identifizierung an einen solchen Dienst dar. Jeder der angebotenen Dienste arbeitet mit einem eigenen isolierten Identifikationsmechanismus. Am häufigsten ist der Gebrauch von Benutzername und Passwort in Verwendung.\\ Durch die steigende Anzahl der verwendeten Dienste, steigt auch die Anzahl der Benutzernamen-Passwort Paare für den Benutzer. Um dieser Entwicklung entgegen zu wirken gibt es verschiedene Single Sign-On Lösungen. Ziel hinter einem Single Sign-On System ist die einmalige Authentifizierung an einem System und die Verwendung sämtlicher weiterer Dienste ohne erneute Anmeldung. Dadurch muss der Benutzer nur ein Benutzername-Passwort Paar merken. Dies führt unter anderem zu einer höheren Sicherheit und einer Verbesserung der Usability. \\ Diese Arbeit nimmt sich diesem Thema an und untersucht vorhandene Single Sign-On Lösungsansätze. Durch die Betrachtung der einzelnen Single Sign-On Systeme, wird ein Überblick über den Aufbau und der Funktionsweise gegeben. Auf Basis dieser Recherche werden Entscheidungskriterien bestimmt, welche die einzelnen Lösungsansätze hinsichtlich der Tauglichkeit für eine praktische Umsetzung bewerten.\\ Der daraus resultierende Single Sign-On Lösungsansatz wird in weiterer Folge für die Online Plattform der Firma Bravestone Information Technology GmbH konzipiert und umgesetzt.  

Suchmaschinen ermöglichen Benutzern des World Wide Web ihre Informationsbedürfnisse zu formulieren. Jedoch geht während der Formulierung von Suchabfragen oft die ursprüngliche Absicht verloren. Diese Masterarbeit widmet sich diesem Problem mit der Untersuchung einer Konstruktionsmethode von Graphen, die Suchziele aus Suchdatensätzen beinhalten. Während bisherige Arbeiten hauptsächlich die Klassifikation von Suchabfragen in Taxonomien behandeln, werden hier Suchabfragen, die explizite Ziele enthalten, untersucht. Um Beziehungen zwischen Suchzielen ableiten zu können, wird ein neuer Typ von Graphen vorgestellt, der aus Suchdatensätzen erstellt werden kann: Bipartite Ziel-Tag Graphen. Die Arbeit zeigt, wie diese Graphen dazu verwendet werden können, um die Absicht eines Benutzers zu einer von ihm abgesetzten Suchabfrage abzuleiten oder verwandte Ziele eines Ziels zu ermitteln. Einer der wesentlichen Beiträge dieser Arbeit ist eine parametrisierte Methode für die Erstellung der Graphen und die dazugehörigen qualitativen und quantitativen Evaluierungen. Des Weiteren wird SearchGoalNet - ein Netzwerk das 57562 Suchziele von Benutzern enthält - vorgestellt und Anwendungen, die darauf basieren, erläutert.  



Bisher wurde E-Learning vorwiegend als ein Kurs Management System angesehen, welches hauptsächlich auf die Bedürfnisse des Lehrbeauftragten fokussiert war. Wir betrachten E-Learning als den Wissenstransfer-Aspekt von Wissensmanagement mit vernetzen Systemen, welche Wissenserzeugung, -organisation und -archivierung fördern. Die revolutionären Entwicklungen des Webs führten zu Kulturformen wie Plagiaten und dem Copy-Paste-Syndrom. Unsere Untersuchungen zeigten, dass momentan verwendete und Techniken beschränkt und ineffektiv mit diesen Angelegenheiten umgehen. Wir erforschen die Einrichtung von Übungsbetreuungs-Mechanismen, wobei sich der gesamte Schwerpunkt auf die Unterstützung des Lernenden verschiebt. Wir schlagen ein E-Learning Ökosystem namens ICARE vor, welches Funktionalität zur Begleitung von studentischen Lernaktivitäten einbettet. Es wurde um die Fähigkeit zur Eingrenzung von Missbräuchen innerhalb des Kontexts von Lernaktivitäten verstärkt. Zum Einsatz kommt das Erstellen von genaueren Profilen von Lernenden, um Einsichten über Lernziele, Absichten und von Studenten ausgearbeitete Aufgaben während des Lernens ans Tageslicht zu befördern. Das vorgeschlagene E-Learning Ökosystem legte die Bedeutung der neuartigen kontextbewussten aufgabenspezifischen Unterstützung offen. Es wurde auch gezeigt, dass diese Fähigkeit nützlich in der Unterstützung von bedarfsorientiertem (just-in-time) Lernen durch Wissensarbeiter ist. Wir demonstrierten 3 Fallstudien, wobei diese Fähigkeit in der Unterstützung von Wissensarbeit appliziert wird. Eine Schlüsselkomponente des Ökosystems ist die Data Mining (DM) Technologie, welche für die Ähnlichkeitserkennung in der Eingabe zu Aufgaben und in der kontextabhängigen Profilerstellung von Lernenden und Wissensarbeitern benutzt wird. Unsere Untersuchungen deckten Gefahren ausgehend von der uneingeschränkten Datenverwertung von globalen DM Giganten, wie z.B. Suchmaschinen, auf. Sie illustrieren weiters das versteckte Potential von Google, welches sich als das führende globale Suchmaschinenunternehmen etabliert hat. Wir beschreiben ein Modell, das die Expansion des Einflusses von Web-Suchen durch das ordnungsgemäße Abdecken und Kontrollieren aller Aspekte unseres Lebens beschreibt. Institutionelle Ansätze werden dann gebraucht, die den Ansturm dieser DM Giganten einschränkt. Solche Bemühungen, zusammen mit technologischen Mitteln, werden in dieser Dissertation beschrieben, um unsere Abhängigkeit von globalem DM zu reduzieren und um das Setzen des Schwerpunkts auf Aufgabenbereiche wie E-Learning zu erleichtern.  

Im Laufe der letzten Jahre wurde das Semantic Web Realität. Obgleich einige praktische Fragen, wie beispielsweise Interoperabilität, schon teilweise behandelt wurden, sind die Themen Skalierbarkeit und Expressivität in Bezug auf die Ausnützung von Multimedia-Metadaten im Semantic Web bislang vernachlässigt worden. Bestehende Web (2.0) Anwendungen, die Millionen von multimedialen Inhalten handhaben, beginnen von Semantic Web Technologien zu profitieren. Die vorliegende Arbeit unterstützt Designentscheidungen beim Bau von multimedialen Semantic Web Applikationen. Dabei wurden, ausgehend von einer umfassenden Analyse praxisnaher Probleme (basierend auf Projekten bei denen der Verfasser dieser Arbeit beteiligt war) drei Bereiche identifiziert: Erstens, Performanz und Skalierbarkeitsfragen auf der Datenzugriffsebene, zweitens, effiziente und effektive Repräsentation von Beschreibungen multimedialer Inhalte, und schließlich der Gebrauch von Multimedia-Metadaten am Semantic Web. Gemein ist den oben genannten Forschungsbereichen die Kompromissfindung in Bezug auf Expressivität vs. Skalierbarkeit. In der Arbeit werden die Erkenntnisse bezüglich skalierbarer und dennoch ausdrucksstarker Semantic Web Applikationen im Multimediabereich im Rahmen einer Reihe realitätsnaher Aufgabenstellungen dargestellt. Schließlich werden zukünftige Entwicklungen (wie interlinking multimedia) diskutiert.

Der aktuell zu beobachtende, stark steigende Umfang an maschinell zu verarbeitenden Daten macht es notwendig, neue Methoden zur Bewältigung dieser einzusetzen. Neben einer Verbesserung der Suchmöglichkeiten ist es der Wille, die textuellen Inhalte besser zu verstehen und zu nutzen, der als treibende Kraft zu identifizieren ist.Haben im 19. Jahrhundert Enzyklopädien dazu beigetragen, dass Menschen einen einheitlichen Wortschatz zur Kommunikation nutzen konnten, ist im 21. Jahrhundert die Notwendigkeit gegeben, dass sich Maschinen eines universalen Wortschatzes zur Kommunikation bedienen können.Enzyklopädien gelten als umfassendes Abbild des menschlichen Wissens einer Epoche. Der Wunsch dieses Wissen aus den textuellen Quellen zu extrahieren und zur weiteren automatisierten Verarbeitung aufzubereiten, ist zentraler Betrachtungspunkt dieser Arbeit.Dazu werden ausgewählte Methoden des Ontology Learning angewandt, um aus den Enzyklopädietexten Taxonomien und Konzepthierarchien abzuleiten. Die extrahierten Informationen werden evaluiert und unter Verwendung weiterer Verfahren, wie z.B. Onlinevaliderung automatisch verbessert.Die vorliegende Arbeit zeigt, dass unter der Vorraussetzung der geeigneten Methodik, qualitativ hochwertige semantische Informationen aus den enzyklopädischen Daten gewonnen werden können, welche als Grundlage für die Erstellung einer Ontologie verwendet werden.

Für das Management einer Unternehmung ist es mitunter eine Herausforderung, Entscheidungen auf Basis von Kennzahlen bzw. Reports zu treffen. Die enorm steigende Menge an Transaktionsdaten bei gleichzeitiger Vergrößerung des Umfanges an Funktionalitäten der Softwaresysteme und darüber hinaus geforderter Erweiter- und Wiederverwendbarkeit von bestehenden Softwaremodulen oder -bibliotheken, Flexibilität, Skalierbarkeit ... - fordern den Einsatz entsprechender Architekturen und Technologien in solch einem Umfeld. In dieser Arbeit wird das Architekturmuster Service-Oriented Aritecture (SOA) als Ansatz für eine universale Middleware, welche auch die Daten für ein Reportingsystem bereitstellen kann, an exemplarischen Java-basierten Technologien erprobt. Dabei sollen über sämtliche Layer hinweg aktuelle Technologien eingesetzt werden, beispielsweise Hibernate oder JPA für den Persistencelayer, OSGi als modulares SOA Framework und Webservices als Schnittstelle on Top of the Middleware, dessen Dienste ein Reportingframework nutzen kann. Zur Auswahl eines Reportingframeworks für die Verwendung in dieser Komposition werden die Features einiger kommerzieller als auch Opensource Implementierungen gegenübergestellt. Da OSGi ein dynamisches Komponentensystem für die Java Plattform ist und da es von den meisten Opensource (und auch proprietären) Bibliotheken noch keine OSGi konformen Bundles (Releases) gibt, werden ausgewählte Java Bibliotheken prototypenhaft in solche Plug-ins gebundled. Auf Basis dieser Bundles wird ein Prototyp-Service erstellt, wobei auch kurz die Vorteile der Versionseigenschaften von OSGi anhand einer Beispielmigration des Dienstes demonstriert wird. Eine kurze Erläuterung soll die Vorteile des Einsatzes einer solchen (Enterprise) Service-Oriented Architecture basierten Middleware auch im Bereich des Reportings gegenüber einem klassischen datenbankzentrierten Datawarehouse-System darlegen. 

E-Government Anwendungen und Services entwickeln sich ständig weiter. Diese Entwicklung wird durch kontinuierlich steigende Anforderungen und Erwartungen der heutigen Informationsgesellschaft und Innovationen von Informations-und Kommunikationstechnologien (IKT) getrieben. Um e-Government Strategien umsetzen zu können, muss die Verwaltung ihre bisherigen Geschäftsprozesse an die neuen Anforderungen und Möglichkeiten anpassen. Das Ziel von e-Government ist die Verbesserung der Qualität und Effizienz der Verwaltung, um wertvolle, leicht zugängliche, und sichere elektronische Behördendienste für Unternehmen und Bürger anbieten zu können. Die Herausforderung liegt in der Integration von verteilten und technisch unterschiedlichsten Systemen, wobei eine der wichtigsten Anforderungen von e-Government die Integration von bestehenden Services und die Wiederverwendung vorhandener Anwendungen und Backoffice Systemen ist. Diese Masterarbeit stellt eine Lösung des Integrationsproblems vor, die auf Methoden der Service-Oriented Architecture (SOA) basiert. SOA ist ein Paradigma, aus dem konkrete Softwarearchitekturen abgeleitet werden können. In diesem konkreten Fall wird eine SOA-Architektur präsentiert, die Probleme bei der Integration von heterogenen Backoffice Systemen durch den Einsatz von Web Services löst. Entsprechende SOA Design-Kriterien und Richtlinien werden in der vorliegenden Arbeit beschrieben. Im Rahmen des praktischen Teiles dieser Masterarbeit wurden Software Anwendungen und Services implementiert, die als Teil des e-Government Programms in Österreich entwickelt wurden, um die Kooperation zwischen Behörden effizienter zu gestalten.  


Ziel der Arbeit ist es zunächst zu untersuchen, wie Instrumente für den Wissensaustausch, speziell Diskussionsforen aber auch Blogs, in der Lehre effizient und effektiv eingesetzt werden können. Für diesen Zweck werden anhand eines Kreislaufes aus Design, Re-Design(s) und Evaluierung über einen Zeitraum von 2 Jahren hinweg drei unterschiedlich konzipierte Case Studies an der Technischen Universität Graz mit rund 450 Studierenden und insgesamt 12 Lehrenden/Studienassistenten durchgeführt. Die Lehrenden haben dabei die Aufgabe den Wissensaustausch mit den Instrumenten für den Wissensaustausch bestmöglich zu unterstützen – diese Rolle wird häufig auch als e-Moderator bezeichnet. Ausgehend von einer umfangreichen Literaturstudie sowie der Analyse gesetzter Aktionen von e-Moderatoren in den Diskussionsforen der ersten Case Study, werden effekt-äquivalente Interventionen abgeleitet, d.h. Interventionen die genau die Effekte generieren, die auch ein e-Moderator durch eine Aktion seinerseits erreicht (z.B. Motivation von Studierenden an der Diskussion mitzuwirken). Die Hauptidee der effekt-äquivalenten Interventionen besteht jedoch darin, dass sie zwar dieselben Effekte generieren, wie eine Aktion eine e-Moderators, allerdings ohne, dass Arbeit für den e-Moderator entsteht. Dass diese Idee tatsächlich greift, wird in einer weiteren Case Study empirisch gezeigt. Eine umfangreiche Matrix, die Aktionen von e-Moderatoren effekt-äquivalenten Interventionen zuordnet, ist ein wesentliches Ergebnis dieser Arbeit. Ergänzt wird dies um Guidelines für den Einsatz von Wikis und Blogs in der Lehre, sodass auch weitere moderne Werkzeuge zum Wissensaustausch in der Arbeit berücksichtigt werden.

Im unternehmerischen Umfeld bedarf es virtueller Lern-Arbeitsumgebungen, die Neulinge und Experten gleichermaßen effizient unterstützen und Lernunterstützungsformen in spezifischen Aufgabenbereichen ad hoc anbieten. Derzeit muss kontextspezifische Lernunterstützung aber aufwendig Maß geschneidert und in Form eines von Grund auf neu entwickelten Systems in die Arbeitsumgebung eingeführt werden.Mit dieser Dissertation wurde zur Lösung dieses Problems ein effizienter Entwicklungsprozess für solche virtuellen Lern-Arbeitsumgebungen - die so genannte AD-HOC Methodik - entwickelt und getestet. Bei der AD-HOC Methodik werden Lernproblemsachverhalte mit Learning Patterns, die, ähnlich den Object Oriented Design Patterns, für verschiedene Lernmuster geeignete Unterstützungsformen beschreiben, adressiert. Die Umsetzung der Lernunterstützungsformen geschieht dann mit "generischen Funktionen". Mit diesen werden die Designanforderungen der Umgebung mit den kommunikations-, kooperations- und informationsbezogenen Werkzeugen vorhandener Systeme in Beziehung gesetzt, um darauf basierend die virtuelle Lern-Arbeits- umgebung umzusetzen. Schließlich wurde die AD-HOC Methodik in drei Fallstudien in unterschiedlichen Bereichen erfolgreich getestet.Somit steht mit dieser Dissertation erstmals eine systematische Methodik zur effizienten und kostengünstigen Entwicklung von virtuellen Lern-Arbeitsumgebungen zur Verfügung.Schlüsselwörter: Wissensmanagement, E-Learning, CSCL, Wissensarbeit, Learning Pattern Katalog, Generische Funktionen, Produktivität, System Design.

In den Forschungsbereichen Wissenserschließung (Knowledge Discovery) und Wissensmanagement-Systeme (Knowledge Management Systems) ist Metadaten ein sehr breiter Begriff. Andere Begriffe wie Ontologien oder Topic Maps grenzen den Begriff Metadaten ein und definieren so ein spezifischere Forschungsgebiete, die auch außerhalb der Bereiche Wissenserschließung und Wissensmanagement, zum Beispiel im Semantic Web, eine große Bedeutung erlangt haben.Ein Aspekt von Metadaten ist die bessere Interpretierbarkeit im Vergleich zur Betrachtung von unstrukturierten textuellen Daten. Im Fall von semantischen Metadaten wird nur wenig Spielraum gelassen die Bedeutung des Inhalts zu interpretieren. So sind Beschreibungen von Zusammenhängen zwischen Konzepten besser modellierbar und für Algorithmen und Verarbeitungsmethoden wird die Semantik von Daten besser zugänglich gemacht. Damit wird auch die Möglichkeit eröffnet Wissenserschließungsmethoden auf einer höheren abstrakten Ebene der Semantik anzusiedeln. Die Thematik einfacher Metadaten auf Basis von Schlüssel-Wert Paaren (auch Attribute genannt) gilt als hinreichend erforscht, als zukunftsweisend wurden Metadatenstrukturen auf Basis gerichteter Graphen erkannt. Daher konzentriert sich Arbeit speziell auf komplexe Metadatenstrukturen wie semantische Informationen auf Basis von Graphen.

Im globalen Wettbewerb erkennen viele Organisationen die Bedeutung von Wissen als strategischen Erfolgsfaktor an. Ein großes Potenzial für gezielte Wissensmanagementmaßnahmen erschließt sich aus den individuell stattfindenden Wissensprozessen. Die meisten bisherigen Versuche schlugen fehl, die Wissensprozesse auszuwerten und darzustellen, da sie entweder zu komplex, unübersichtlich oder zu wenig Fachinhalte aufwiesen.Das in dieser Arbeit vorgestellte Analyse-Werkzeug KnowFlow Report Engine nimmt sich dieser Herausforderung an. Mit Hilfe von gerichteten und ungerichteten Graphen werden die Wissensprozesse einer Organisation analysiert, ausgewertet und dargestellt. Eine Reihe von geeigneten Filterungen ermöglicht es, die Komplexität flexibel anzupassen.Auf Basis dieser Auswertungen können Analysten in Zukunft gezielt Wissensmanagements-Methoden und -Werkzeuge einsetzen, um die Ressource Wissen für die Organisation als Vorteil zu nutzen.

Aufgrund des enormen Informationsaufkommens in den letzten Jahren, ist es für Benutzer schwierig, relevante und interessante Informationen zu finden. Aus diesem Grund werden verstärkt personalisierte Systeme in Intranet System oder Webapplikationen eingesetzt.Um Anwendungen zu personalisieren wird anhand von Informationen über den Benutzer ein Modell generiert. Zur Erstellung eines langfristigen Benutzerprofiles eignet sich implizites Feedback besonders, da es die Interessen des Users widerspiegelt.In dieser Arbeit werden deshalb zuerst Interessensindikatoren genauer untersucht. Aufgrund dieser Ergebnisse wurde eine eigene Taxonomie von auswertbaren impliziten Interessensindikatoren erstellt. Aufbauend auf diese Indikatoren wird ein generisches Benutzermodell erzeugt.In dieser Arbeit wird das ”History-Based-Model“ verwendet. Im praktischen Teil dieser Arbeit wurde eine Webapplikation erstellt, die es ermöglicht implizite Interessensindikatoren zu beobachten und daraus ein Benutzermodell zu erstellen.Da die Anwendung nur mit freien Webtechnologien implementiert werden sollte, wurde AJAX verwendet. Da AJAX eine neue Technologie ist, wurde eine detaillierte Einführung in die Technologie sowie deren Einsatzmöglichkeiten gegeben.


Die Notwendigkeit des effektiven Managements von Wissen wird heute von Unternehmen zunehmend erkannt. Aus diesem Grund wurden neue vielversprechende und mächtige Technologien von Wissenschaft und Wirtschaft entwickelt. Mit der Verfügbarkeit und Weiterentwicklung dieser Innovationen verstärkt sich auch die Bereitschaft von Unternehmen Wissensmanagement-Technologien anzuwenden. Die erfolgreiche Anwendung derartiger Technologien in Unternehmen stellt jedoch eine komplexe, mehrdimensionale Herausforderung und ein aktuelles Forschungsgebiet dar. Die vorliegende Arbeit nimmt sich deshalb diesem Thema an und stellt einen Framework für die Entwicklung von geschäftsprozessunterstützenden, technologischen Wissensinfrastrukturen vor. Während dabei Geschäftsprozesse den Ausgangspunkt für die Anwendung von Wissensmanagement-Technologien bieten, so repräsentieren Wissensinfrastrukturen ein Konzept, dass Wissensmanagement in Organisationen ermöglicht. Der in dieser Arbeit entwickelte B-KIDE Framework bietet Organisationen Unterstützung in der Entwicklung von Wissensinfrastrukturen, welche innovative Wissensmanagementfunktionalitäten beinhalten und sichtbar organisatorische Geschäftsprozesse unterstützen, an. Das entwickelte B-KIDE Tool erleichtert die Anwendung des B-KIDE Frameworks für Entwickler von Wissensinfrastrukturen. Drei durchgeführte, empirische Studien mit Unternehmen unterschiedlichster Branchen bekräftigen die Relevanz und Viabilität der eingeführten Konzepte.

Mit der vor allem im digitalen Sektor immer stärker wachsenden Informationsflut geht ein ebenfalls ständig größer werdender Wunsch nach Organisation und Beherrschung dieser Daten einher. Sei es, um allgemeine Informationen, wie sie täglich auf Milliarden von Internetseiten erscheinen, oder um spezielle Informationen, wie sie im schulischen und universitären Bereich auftreten, zu kontrollieren und zu erfassen. Eine gute Möglichkeit, Informationen in einer kontrollierten Art und Weise zu sammeln und aufzubereiten stellen digitale Bibliotheken dar. Wenn der Datenbestand solcher Bibliotheken jedoch über ein gewisses Maß hinauswächst und überdies auch Daten beinhaltet, die vertrauenswürdig zu behandeln sind, ist der Einsatz von Zugriffs-Kontrollsystemen, welche Asset- und Rechtemanagement beinhalten, unumgänglich.In dieser Arbeit wird nun dargestellt, welche Möglichkeiten sich aus heutiger Sicht bieten, ein Digital Rights Management System für den Einsatz im Bereich digitaler Bibliotheken aufzubauen. Beruhend auf der Heterogenität der aktuell existierenden DRM-Lösungen ergibt sich eine Inkompatibilität der einzelnen Standards zueinander. Folgedessen wird ein DRM-System vorgestellt, welches auf Basis von Ontologien diese Inkompatibilitäten weitestgehend zu überbrücken im Stande ist. Die praktische Einsetzbarkeit von DRM in Verbindung mit Information-Retrieval wird letztendlich durch eine prototypisch ausgeführte Implementierung eines digitalen Handapparates gezeigt.

Durch die Fülle an vorhandener Information steigt das Bedürfnis nach einer geeigneten Strukturierung eben dieser Datenflut, um dem jeweiligen Benutzer/System die Extraktion von Wissen zu erleichtern, oder überhaupt erst zu ermöglichen. Der erste Schritt um vorgegebene Datenbestände zu strukturieren besteht darin, geeignete Konzepte zu finden und zu definieren, nach denen die Dokumente gruppiert werden können. Die Summe der einzelnen Konzepte und die Beziehungen untereinander bilden dann die Struktur (Ontologie, Taxonomie) in die, im nächsten Schritt, alle Dokumente des Datenbestandes eingeordnet werden sollen. Dieser Vorgang ist im Allgemeinen nicht nur mit hohem Zeitaufwand verbunden, sondern führt in der Regel auch zu Problemen bei der automatischen Zuordnung von Dokumenten zu Konzepten.Ziel dieser Arbeit ist es nun bestehende, unstrukturierte Datenbestände mit Hilfe von machine-learning Algorithmen (Clustering) in einem semi-automatischen Prozess als Wissensstrukturkarte abzubilden. Dieser Prozess umfasst die Manipulation der Datenrepräsentation mit der Absicht, relevante Konzepte für weiterführende Aufgaben (z.B. Textklassifikation) zu extrahieren.

Informationen, die aus verschiedenen Quellen stammen und von unterschiedlichen Zielgruppen gelesen werden, sind schwierig zu organisieren. Unterschiedliche Anforderungen müssen berücksichtigt werden, um einen zielgruppengerechten Prozess aufzusetzen.In dieser Master Thesis werden Strategien und Tools beschrieben, die zur Verwaltung heterogener Datenbestände dienen und die Arbeit mit einem System verbessern sollen. Es werden drei unterschiedliche Bereiche betrachtet, die den Zyklus der Informationsverabeitung abbilden. Der Bereich "Publizieren" beschäftigt sich mit dem Prozess, wie ein Dokument in eine Datenbank aufgenommen werden kann. Im Bereich "Suche und Navigation" finden sich Hilfsmittel und Tools, um zu den gewünschten Dokumenten zu gelangen. Der Bereich "Maintenance" schließlich beschreibt Wege, wie das vorhandene System den Anforderungen des Wachstums gerecht werden kann.

Wissenslandkarten werden in der gängigen Literatur immer wieder als Werkzeuge der Effizienzsteigerung in Unternehmen bezeichnet. Diese These beruht auf der Annahme, dass sie das Finden von Unternehmensinformationen erleichtern und so Doppelspurigkeiten vermeiden.Diese Diplomarbeit geht der Frage auf den Grund, wie die eigen entwickelte Wissenslandkarte des Know-Center konzipiert sein muss, um die Wiederverwendung von projektbezogenen Informationen in neuen Projekten zu unterstützen.Sie umfasst eine theoretische Auseinandersetzung mit den wichtigsten Begriffen dieser Arbeit anhand der gängigen Literatur. Darauf folgt ein praktischer Teil, der die Beschreibung der Entwicklung der Know-Center Wissenslandkarte zum Inhalt hat. Des Weiteren kommt es zu einer Evaluierung der Wissenslandkarte im Hinblick auf die Forschungsfrage.

Online Community Plattformen dienen dazu, die Interaktion zwischen Internetbenutzern, die durch gemeinsame Interessen oder Aufgaben miteinander verbunden sind, zu ermöglichen und zu erleichtern. In der vorliegenden Arbeit werden solche „virtuellen Treffpunkte“ vor dem speziellen Hintergrund von jährlichen Konferenzen erörtert. Der Ausgangspunkt ist die Frage, mit welchen Maßnahmen der Informations- und Wissensaustausch zwischen den Konferenzterminen verbessert werden kann. Das Hauptziel dieser Arbeit ist die Entwicklung eines Konzepts, in dem die Anforderungen der verschiedenen Teilnehmergruppen einer internationalen Tagung analysiert werden. Es besteht die Annahme, dass der Einsatz einer Online Community Plattform für Konferenzen dem Zusammenhalt der Teilnehmer in Gemeinschaften und gleichzeitig der Akquisition neuer Teilnehmer dient.Ein Review aktueller Fachliteratur mündet in der Klärung des Begriffs „Community“, sowie einer Darstellung der Basiswerkzeuge und Erfolgsfaktoren für Online Communities. Acht halbstrukturierte, problemzentrierte Interviews mit Mitarbeitern eines österreichischen Forschungs- und Beratungsunternehmens werden durchgeführt und mit einer qualitativen Inhaltsanalyse ausgewertet. Die Befragten werden aufgrund ihrer Schlüsselrollen in der Organisation der genannten internationalen Tagung ausgewählt. Aus den Interviewergebnissen werden die Ziele der unterschiedlichen Teilnehmergruppen verglichen und nach Priorität geordnet. Danach erfolgt die Ausarbeitung mehrerer Anwendungsfälle („Use-Cases“), um detaillierte Szenarien aufzuzeigen, wie eine Online Plattform die Schlüsselrollen unterstützt.In den Use Cases sind hauptsächlich die funktionalen und technischen Anforderungen für die Online Plattform enthalten. Abschließend werden Potentiale für gemeinsame Aktivitäten in und zwischen den Teilnehmergruppen vor dem Hintergrund des jährlichen Rhythmus der Konferenz identifiziert. Basierend auf diesen Ergebnissen beinhaltet weiterführende Forschung die Wahl einer geeigneten technischen Plattform und die Bewertung eines ersten Prototyps.

Um Risikomanagement den heutigen wirtschaftlichen Bedingungen anzupassen und insbesondere wissensintensive Unternehmen bestmöglich zu unterstützen, wird am Grazer Know-Center an einem Framework zur Integration von Wissensrisiken in bestehende Risikomanagementmodelle und -systeme geforscht. Die Bewertung von Wissensrisiken ist ein kritischer Bereich, dessen Erfolg von der Kompatibilität der klassischen Risikobewertungsmodelle mit der praktischen Anwendbarkeit für Wissensrisiken abhängt. Das Ziel der Arbeit ist, eine optimale Methode zur Bewertung von Wissensrisiken zu empfehlen. Diese Methode muss eine geeignete Bewertung von Wissensrisiken ermöglichen und zudem anhand klassischer Risikobewertungsmodelle erfolgen. Um dieses Ziel zu erreichen, ist eine umfassende Literaturaufarbeitung über die vorherrschenden Ansätze notwendig. Die finale Auswahl der Modelle ist geprägt durch die Häufigkeit ihrer Verwendung in Theorie und Praxis. Zusätzlich zur Beschreibung dieser Modelle wird deren Anwendung für Wissensrisiken diskutiert. Im zweiten Teil der Arbeit werden die vorgestellten Modelle klassifiziert und anhand eines selbst definierten Kriterienkatalogs bewertet. Die Ergebnisse dieser Analyse werden anschließend aufbereitet und miteinander verglichen. Zudem wird ein Analyseraster zur Entscheidungsunterstützung bei der Auswahl der Modelle entwickelt. Abschließend wird eine Methode zur Bewertung von Wissensrisiken anhand klassischer Risikobewertungsmodelle empfohlen.

Aufgrund steigenden Wettbewerbs, neuen Gesetzen und Vorschriften gewinnt der Umgang mit Risiken immer mehr an Bedeutung. Ein effizientes Risikomanagement erfordert die Betrachtung von erfolgskritischen Risiken. In wie fern sich die Entwicklung von geeigneten Steuerungsmaßnahmen für diese Risiken unterstützen lässt, untersucht der Autor in dieser Arbeit.Dazu fasst er die für ein Unternehmen mit wissensintensiven Geschäftsprozessen und Tätigkeiten kritischen Risiken in einer neuen, weiter reichenden Definition zusammen. Darin wird zwischen wissensbasierten und wissensgefährdenden Risiken unterschieden. Aufbauend auf dieser Definition für den Begriff Wissenrisiken entwirft der Autor das Risk Response Planning Modell und implementiert einen Prototyp zur vereinfachten Anwendung.Wesentliche Stützpunkte des Modells sind ein Katalog an abstrahierten, generellen Wissensrisiken und ein Katalog an geeigneten Steuerungsmaßnahmen. Diese Kataloge werden durch eine vom Autor entwickelte Logik miteinander verbunden. Instanziiert ein Benutzer ein neues fallspezifisches Risiko von einem aus dem generischen Wissensrisikokatalog, kann das Modell anhand der logischen Verbindung zwischen den beiden Katalogen dem Benutzer geeignete generische Steuerungsmaßnahmen vorschlagen. Auf diese Weise unterstützt das Modell den Benutzer bei der Entwicklung von passenden Steuerungsmaßnahmen für Wissensrisiken.

Die digitale Informationsflut des 21. Jahrhunderts bietet jedem Forscher und Entwickler genug Motiv, um sich mit Information Retrieval jeder Art zu beschäftigen. Die Verknüpfung verschiedenster Medien wie Internet, Radio, Fernsehen, Tageszeitungen oder Telefon führt zu eine heterogenen Informationslandschaft, in der sich einheitlich Navigation und gemeinsame Suche nur schwer verwirklichen lassen. Das Wissensgebiet ?Information Retrieval? liefert viele ausgereifte Methoden für den Umgang mit Textdokumenten, auch für Bilder existieren bereits erprobte Retrieval-Mechanismen. Metadaten erlauben eine Anreicherung von Daten mit semantischen computerlesbaren Informationen unabhängig von ihrem Medium. Magick kombiniert diese Techniken, um eine als cross-media Applikation die scharfen Grenzen zwischen Medien zu verwischen und für den Anwender die Informationslandschaft homogener zu gestalten.

Die Motivation der vorliegenden Arbeit hat den Schwerpunkt im konzisen Auffinden von relevanten Gesetzesstellen im Hochschulrecht ausgehend von einem bekannten Sachverhalt. Dies entspricht dem rechtswissenschaftlichen Vorgang der Subsumtion, also der Zuordnung eines Sachverhalts zu einem, im Gesetz definierten Tatbestand.In weiterer Folge gewann der Gedanke eine Art von Hochsprache für das Semantic Web zu kreieren mehr Gewicht. Diese Stoßrichtung wird durch die zunehmende Verbreitung von Semantic Web-Basisvokabularen, wie z.B. Topic Maps, gerechtfertigt. Allerdings stoßen solche Vokabulare schon heute an eine entscheidende Grenze: Den Menschen, der ein solches Vokabular verwendet. Vergleicht man oben genannte Vokabulare mit einer Maschinensprache (Assembler) so wird offensichtlich, was fehlt, um das Semantic Web benutzer- und entwicklerfreundlicher zu machen: eben Hochsprachen, die das leisten, was LISP, Java usw. im Bereich der konventionellen Programmierung bieten.Weiters unterscheidet sich die Art, wie die Darstellung der Wissensmaterie (Ontologie) in der vorliegenden Arbeit vollzogen wird, von bisherigen Ansätzen. Der Heraklit'sche Gedanke (Panta Rhei) dient hier als Vorbild, um Wissensgebiete als eine Ansammlung von Vorgängen zu betrachten.Diese Diplomarbeit ist dem Bereich der angewandten AI zuzuordnen und als ein Beitrag zum Semantic Web mit dem Schwerpunkt auf die Implementierbarkeit und dem konkreten Nutzen der Ergebnisse zu verstehen.



Netzwerke zum Wissensaufbau, zur Wissensnutzung und zum Wissenstransfer sind seit Bestehen humaner Organisationsformen bekannt. Die gezielte Zusammenarbeit und Vernetzung von Wissensträgern zur gemeinsamen Nutzung von Wissen, wird als Wissensnetzwerk bezeichnet. Die Rolle der Informationstechnologie ist in diesem Umfeld heiß diskutiert, von Wissenschaftlern und Praktikern gleichermaßen. Technologieunterstützung ist keine Bedingung für den Aufbau bzw. den Bestand von Wissensnetzwerken, sie ermöglicht jedoch in vielen Bereichen eine Verbesserung der Rahmenbedingungen. Die Arbeit beschreibt aus der Sicht von Wissensnetzwerken die zeitliche Relevanz, den Nutzen und die Praxistauglichkeit von einzelnen Informationstechnologien. In diesem Zusammenhang ist ein Schwerpunkt der Arbeit die Untersuchung von integrierten Lösungen vor dem Hintergrund von Wissensmanagement. Die Analyse von praktischen Fragestellungen liefert schlussendlich Hinweise dafür, wie Informationstechnologien für Wissensnetzwerke den Rahmenbedingungen entsprechend eingesetzt werden können.

Ausgangspunkt dieser Arbeit ist die Beobachtung, dass ein Mehrwert für Wissensmanagementsysteme dann entsteht, wenn Wissensträger noch besser als bislang miteinander in Beziehung gesetzt werden können. Wissensträger können im Kontext von Wissensmanagement sowohl Nutzer als auch Dokumente sein. Vor diesem Hintergrund ist das Ziel dieser Arbeit, einerseits Zusammenhänge im Dokumentenbestand an sich und andererseits sowohl zwischen Nutzern untereinander als auch zwischen Nutzern und dem Dokumentbestand zu identifizieren und messbar zu machen.Ausgangspunkt hierfür bilden Ansätze aus dem Bereich der Recommender- und People-Locator-Systeme. Das durch Mitwirkung des Know-Center entwickelte System PADDLE - "Personal Adaptable Digital Library Environment" - stellt den Dokumentbestand bereit und soll in weiterer Folge um die angesprochene Funktionalität erweitert werden.Als Grundlage hierfür werden sogenannte Affinitätsmetriken auf der Basis von Metadaten entwickelt, mittels derer die Ähnlichkeit zwischen Wissensträgern gemessen werden kann. Es werden parametrisierbare Metriken über unterschiedliche Bezugsformen, wie Fach-, Zeit- und Ortsbezug konzipiert. Der Fokus liegt derzeit auf thematischen Meta-Daten, die den Inhalt eines Dokument anhand einiger weniger Schlagworte beschreiben. Die Konzepte werden prototypisch implementiert und in PADDLE integriert. Abschließend wird untersucht, wie gut sich die durch die Wahl geeigneter Parameter erzielbaren Ergebnisse mit der subjektiven Bewertung von "Ähnlichkeit" im Beispieldokumentbestand decken.

Gewaltige Fortschritte in der Computertechnologie und die Weiterentwicklung des Internets haben zu neuen Ansätzen beim Lernen und Lehren geführt, die unter dem Begriff e-Learning zusammengefasst werden. Diese Dissertation legt dar, was von e-Learning erwartet werden kann, und untersucht, obwohl eigentlich auf die technologischen Aspekte orientiert, alle Arten von Anforderungen für e-Learning Umgebungen: pädagogische, funktionale und nicht-funktionale. Ein spezielles Kapitel wird allen für das eLearning Gebiet relevanten Standards gewidmet, aufgrund ihrer Wichtigkeit bei der Steigerung der Interoperabilität, der Senkung von Kosten und der Akzeptanzsteigerung.Ein Beispiel für ein State-of-the-Art e-Learning System, das vom Autor entworfen und unter seiner Führung entwickelt wurde, wird ausgeführt, auf dessen Basis erfolgreich abgeschlossene Projekte präsentiert, um die möglichen Einsatzgebiete aufzuzeigen, und Ideen für weitere Entwicklungen werden skizziert.

Der Schwerpunkt der heutigen wissensintensiven Gesellschaft liegt in der Bereitstellung von Wissen in Echtzeit in richtiger Form und Menge an den Wissensarbeiter. Personalisierung, also die Anpassung eines Systems an die Benutzeranforderungen, gewinnt immer mehr an Bedeutung als Möglichkeit zur Lieferung relevanten Wissens. Personalisierung kann statischer oder dynamischer Form sein. Statische Personalisierung findet zum Zeitpunkt des Entwurfs oder des Übersetzens statt, wobei dynamische Personalisierung zur Echtzeit stattfindet. Statische Personalisierung ist beschrännkt, weil es Personalisierung zu einem bestimmten Zeitpunkt lediglich unter Berücksichtigung des derzeitigen Interesses und Wissenshintergrundes des Wissensarbeiters definiert. Die Einschränkungen sind offensichtlich: Dynamische Wechsel in Interesse und Wissen werden von den bisherigen Konzepten nicht erfasst. Vor diesem Hintergrund gewinnt dynamische Personalisierung zunehmend an Bedeutung. Die Hauptidee dynamischer Personalisierung ist die Unterstützung von Wissensarbeitern, so dass diese Personalisierungseigenschaften definieren können, die sich ständig an die Bedürfnisse, Interessen, den Kontext und die Umwelt dieser Wissensarbeiter in der sie tätig sind anpassen. Obwohl sich zur Zeit etliche wissenschaftliche Ansätze mit statischer Personalisierung befassen, wird relativ geringe Aufmerksamkeit auf die konzeptionelle Basis dynamischer Personalisierung gelegt. Eine umfassende Studie der existierenden wissensintensiven Systeme verschiedener Bereiche zeigt deutlich, dass bereits viele Systeme Eigenschaften anbieten, die dynamische Personalisierung unterstützen, jedoch existieren von einem wissenschaftlichen Standpunkt aus keine soliden und exakten Modelle der Hauptmerkmale dynamischer Personalisierung.Das Ziel dieses Arbeit ist dynamische Personalisierung aus konzeptioneller Sicht zu untersuchen. Dieses Ziel wird durch das Begründen eines allgemeinen Verständnisses und durch Definition des Begriffs dynamische Personalisierung, sowie durch die Einführung eines Gerüsts für die Beschaffung und Bereitstellung von dynamischer Personalisierung fuer wissensintensive Systeme basierend auf dem aktuellen Benutzer Kontext erreicht. Dieser Benutzer Kontext beinhaltet nicht nur Benutzer Präferenzen und Profilinformationen, sondern auch umweltbedingte Aspekte wie Zeit, Ort, Zugangsgerät und Netzwerkseigenschaft. Das Gerüst beinhaltet ein abstraktes Meta-Modell zur Bereitstellung von dynamischen Personalisierungsfunktionen, bereichs-spezifischen Modellen und eine “Mapping”-Methodologie. Das Verwenden dieser Methodologie (einer Sequenz von Leitfäden) erlaubt die Ableitung bereichsspezifischer Modelle für verschiedene wissensbasierte Bereiche vom abstrakten Meta-Modell. Die dynamischen Personalisierungsfunktionen von Modellen und Applikationen der verschiedenen wissensintensiven Bereiche werden durch dynamische Personalisierungsfunktionen der zugehörigen bereichspezifischen Modelle dargestellt. Das Gerüst ist allgemein gehalten, um die Anwendbarkeit des Gerüstes fuer eine grosse Anzahl von wissensintensiven Bereichen, die dynamischer Personalisierungsfunktionen bedürfen, zu ermöglichen.

eLearning kann in Unternehmen so gut wie nie komplett neu eingeführt werden. Sehr oft haben sich traditionelle Unterrichtskonzepte etabliert und müssen bei der Erstellung eines neuen Konzepts berücksichtigt werden. Über die Einführung von eLearning von Beginn an, findet man sehr viel an Informationen - aber kaum jemand berücksichtigt den Prozess einer nahtlosen Integration von eLearning in bestehende traditionelle Unterrichtsstrukturen. Das Ziel dieser Arbeit ist, zu beschreiben wie dieser Integrationsprozess aussehen kann und wie ein eLearning-System inklusive aller notwendigen Komponenten implementiert werden kann. Anhand eines Industrieprojektes wird die praktische Anwendbarkeit diese Prozesses gezeigt, und die Umsetzung am Beispiel eines bekannten eLearning System durchgeführt.

Der Großteil der gängigen Wissensmanagementliteratur ist entweder aus einer Wirtschaftsperspektive geschrieben, wobei technische Überlegungen nur am Rande gestreift werden, oder aus einer Technologieperspektive, wobei der wirtschaftliche Kontext meist zu wenig Beachtung findet. Im Gegensatz dazu beschäftigt sich diese Dissertation mit der Rolle von Technologien im Wissensmanagement, ohne dabei organisatorische Fragen aus den Augen zu verlieren.Zwei unterschiedliche aber komplementäre Sichtweisen von Wissensmanagement werden präsentiert, die eine basierend auf Prozessen, die andere auf Interaktionen. Lessons Learned aus vergangenen Wissensmanagementprojekten werden gesammelt, zusammengefasst, kategorisiert und benutzt, um die dringlichsten Fragestellungen im Wissensmanagement hervorzuheben. Sieben Wissensmanagementprozesse und ihre Beziehungen werden detailliert diskutiert: Planen, Generieren, Integrieren, Organisieren, Transferieren, Warten und Bewerten von Wissen. Technologien mit dem Potenzial zur Unterstützung von Wissensmanagement werden in elf Gruppen eingeteilt und ihre Relevanz für Wissensmanagement wird systematisch untersucht, indem der Beitrag jeder der Technologiegruppen zu jedem der Wissensmanagementprozesse beurteilt wird. Viele offene Fragen und Gelegenheiten für zukünftige Forschung und Entwicklung werden identifiziert, sowohl organisatorische als auch technische. Eine ausgesprochen umfangreiche Wissensmanagementbibliographie schließt die Dissertation ab. Auszug aus dem Buch Knowledge Management → 272,72 kBOrder from Springer →