события → выступления и публикации |
| ||||||||||||||||||||||||
Анонсы и архивТекущие семинарыСеминар Михаила Агеева «Моделирование успешного поиска на основе поведения пользователя»Сегодня мы открываем регистрацию на следующий семинар, который состоится 23 мая 2012 года в московском офисе Яндекса. В рамках Цикла научных семинаров выступит Михаил Агеев, кандидат физико-математических наук (с 2005 г.), старший научный сотрудник научно-исследовательского вычислительного центра МГУ им. М.В.Ломоносова. Тема доклада: «Моделирование успешного поиска на основе поведения пользователя». Тезисы: Понимание поведения пользователей поисковых систем и анализ стратегий эффективного поиска информации в сети интернет важно для улучшения поисковых систем. Наиболее распространенным источником данных о поведении пользователей являются логи поисковых систем, однако логи не содержат информации о целях и намерениях пользователя. В докладе представлены модели и алгоритмы, позволяющие определить связи между действиями пользователей, целью поиска и успехом в поиске информации. Данные о поведении пользователей собираются при помощи онлайн-игры, в которой пользователям предлагается найти ответы на сложные информационные вопросы. Модель поведения пользователя позволяет выделить факторы, характеризующие опыт пользователя, и оценить их связь с успехом поиска. Предложен алгоритм, который по наблюдаемому поведению пользователя предсказывает успешность поиска на реальных данных. Представленная работа коллектива авторов удостоена награды Best Paper Award конференции ACM SIGIR 2011. Во время семинара будет доступна онлайн-трансляция, которую можно будет посмотреть тут. Начало мероприятия в 19.00, а подтвердить регистрацию вы можете с 18.30 (лучше подойти к этому времени, чтобы успеть к началу лекции). План выступленийавгуст 2011![]() Fabrizio Silvestri, Salvatore Orlando, Raffaele Perego Title: HPC-Lab@ISTI Meets Yandex: Query Log Analysis to Improve SE Operations Abstract: High Performance Computing, HPC, is a research group at the ISTI institute in Pisa. One of the main activity of HPC-Lab consists in studying applications of query log mining to search. In the last years several results have been proposed by members of the lab. In this talk we will present three recent results: i) A novel effective and efficient query recommendation method based on the concept of Search Shortcuts; ii) A novel recommendation paradigm based on the concept of user task instead of the well-known concept of user query, and iii) A very efficient result diversification algorithm that is based on results from i) and ii). Salvatore Orlando: скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. Raffaele Perego: скачать презентацию (pdf), видеоверсию (avi) семинара. Fabrizio Silvestri: скачать презентацию (pdf), видеоверсию (avi) семинара. август 2011![]() Evangelos Kanoulas, Ben Carterette Title: Advances in Information Retrieval Evaluation Abstract: There is great interest in producing effectiveness measures that model user behavior in order to better model the utility of a system to its users. These measures are often formulated as a sum over the product of a discount function of ranks and a gain function mapping relevance assessments to numeric utility values. We develop a conceptual framework for analyzing such effectiveness measures based on classifying members of this broad family of measures into four distinct families, each of which reflects a different notion of system utility. This is a theory of model-based measures within which we can hypothesize about the properties that such a measure should have and test those hypotheses against user and system data. After presenting a theory, we turn to modeling complex user behavior: query reformulations. Real users often begin an interaction with a search engine with a sufficiently under-specified query that they will need to reformulate before they find what they are looking for. We consider the problem of evaluating retrieval systems over test collections of multi-query sessions. We propose two families of measures: a model-free family that makes no assumption about the user's behavior over a session, and a model-based family with a simple model of user interactions over the session. In both cases we generalize traditional evaluation metrics such as average precision to multi-query session evaluation. We demonstrate the behavior of the proposed metrics by using the new TREC 2010 Session track collection and simulations over the TREC-9 Query track collection. Evangelos Kanoulas: скачать презентацию (pdf) семинара. Ben Carterette: скачать презентацию (pdf), видеоверсию (avi) семинара. август 2011![]() Julia Stoyanovich Title: Making interval-based clustering rank-aware Abstract: In online applications such as Yahoo! Personals and Trulia.com, users define structured profiles in order to find potentially interesting matches. Typically, profiles are evaluated against large datasets and produce thousands of ranked matches. Highly ranked results tend to be homogeneous, which hinders data exploration. For example, a dating website user who is looking for a partner between 20 and 40 years old, and who sorts the matches by income from higher to lower, will see a large number of matches in their late 30s who hold an MBA degree and work in the financial industry, before seeing any matches in different age groups and walks of life. An alternative to presenting results in a ranked list is to find clusters in the result space, identified by a combination of attributes that correlate with rank. Such clusters may describe matches between 35 and 40 with an MBA, matches between 25 and 30 who work in the software industry, etc., allowing for data exploration of ranked results. We refer to the problem of finding such clusters as rank-aware interval-based clustering and argue that it is not addressed by standard clustering algorithms. We formally define the problem and, to solve it, propose a novel measure of locality, together with a family of clustering quality measures appropriate for this application scenario. These ingredients may be used by a variety of clustering algorithms, and we present BARAC, a particular subspace-clustering algorithm that enables rank-aware interval-based clustering in domains with heterogeneous attributes. We validate the effectiveness of our approach with a large-scale user study, and perform an extensive experimental evaluation of efficiency, demonstrating that our methods are practical on the large scale. Our evaluation is performed on large datasets from Yahoo! Personals, a leading online dating site, and on restaurant data from Yahoo! Local. Скачать презентацию (pdf), видеоверсию (avi) семинара. август 2011![]() Mike Thelwall Title: Sentiment strength detection for the social web: From YouTube arguments to Twitter praise Abstract: This talk will describe simple methods for detecting positive and negative sentiment strength in the informal language that is common in the social web. The Java program SentiStrength will be described, demonstrated and evaluated for English language text. SentiStrength will also be applied to large scale social web text from Twitter and YouTube to show how its results can be used. The talk will explain how SentiStrength is language-neutral but can be adapted to different languages by changing the linguistic input files and some of the algorithm parameters. Скачать презентацию (pdf), видеоверсию (avi) семинара. июнь 2011![]() Maarten de Rijke Full professor Information Processing and Internet, University of Amsterdam. Director Center for Creation, Content and Technology. Director Intelligent Systems Lab Amsterdam Title: Adapting Rankers Online Abstract: At the heart of many effective approaches to the core information retrieval problem---identifying relevant content---lies the following three-fold strategy: obtaining content-based matches, inferring additional ranking criteria and constraints, and combining all of the above so as to arrive at a single ranking of retrieval units. As retrieval systems become more complex, learning to rank approaches are being developed to automatically tune the parameters for integrating multiple ways of ranking documents. Using online learning to rank approaches, retrieval systems can learn directly from interactions with users, while they are running. Such systems can continuously adapt to user preferences throughout their lifetime, leading to better search performance in settings where expensive manual tuning is infeasible. In the talk I will focus on two issues related to online learning to rank: fist, I will discuss the issue of balancing exploitation (that is, using what has been learned so far) and exploration (i.e., trying our alternatives so as to learn effectively). Second, present a new method for comparing retrieval functions using implicit feedback. Our method is based on a probabilistic model of such comparisons. Our analytical and experimental results show that our method is more accurate, and more robust to noise than existing methods. The talk is based on joint work with Katja Hofmann and Shimon Whiteson. Скачать презентацию (pdf), видеоверсию (часть 1, часть 2) (mov) семинара. Смотреть в Клубе. май 2011![]() Константин Серебряный Закончил механико-математический факультет Московского государственного университета в 2000 году. Семь лет работал над оптимизирующими компиляторами (4 года в SUN и 3 года в Intel). В 2004 защитил диссертацию на степень кандидата технических наук по теме «Методы высокоуровневой оптимизации циклов». С 2007 года Константин работает в московском отделении Google и занимается динамическим анализом программ, в том числе поиском ошибок многопоточного кода. Тема доклада: Быстрый динамический анализ программ на примере поиска гонок (data races). Тезисы: Доклад посвящен динамическому анализу программ и, в частности, поиску гонок (data races). В рамках семинара будут рассмотрены следующие темы: • Динамический анализ программ. Введение в теорию поиска гонок. Анализ потока событий программы. Требования по производительности. • Базовый алгоритм инструмента ThreadSanitizer. Анализ производительности или почему алгоритм медленный? • Ускорение и параллелизация базового алгоритма ThreadSanitizer. • War stories: опыт внедрения регулярного тестирования для поиска гонок в Google Russia. Скачать презентацию (pdf), видеоверсию (mov) семинара. Смотреть в Клубе. апрель 2011![]() Djoerd Hiemstra Dr. Djoerd Hiemstra is associate professor at the database group of the University of Twente. He wrote an often cited Ph.D. thesis on language models for information retrieval and contributed to over 100 research papers in the field of information retrieval. Title: Peer-to-peer search that works Abstract: I present a new generation of peer-to-peer search systems inspired by BitTorrent. In our peer-to-peer search approach, each peer is both a search client (a system that submits queries to the network) and a search server (a system that answers queries). Peers that submit a lot of queries, will have to answer a lot of queries as well. Peers may answer queries by providing their own indexed collection, or by caching search results. I present simulations that show the effects of search result caching on query load balancing. I also show how the network can learn from the search result snippets without downloading or crawling the documents themselves. Finally, I will show an approach to include results from structured databases and other deep web search sites into the peer-to-peer search network. Скачать презентацию (pdf), видеоверсию (mp4) семинара. Смотреть в Клубе. март 2011![]() Norbert Fuhr Norbert Fuhr studied technical computer science and received a PhD (Dr.-Ing.) from the Technical University of Darmstadt, Germany in 1986. He became associate professor at the University of Dortmund in 1991. Since 2002, he is full professor at the University of Duisburg-Essen, Germany. His current research interests are information retrieval models, user interfaces for information systems, and their evaluation. Title: The Optimum Clustering Framework: Implementing the Cluster Hypothesis Abstract: In this talk, we present a theoretic foundation for optimum document clustering. Key idea is to base cluster analysis and evaluation on a set of queries, by defining documents as being similar if they are relevant to the same queries. Three components are essential within our optimum clustering framework, OCF: (1) a set of queries, (2) a probabilistic retrieval method, and (3) a document similarity metric. After introducing an appropriate validity measure, we define optimum clustering with respect to the estimates of the relevance probability for the query-document pairs under consideration. Moreover, we show that well-known clustering methods are implicitly based on the three components, but that they use heuristic design decisions for some of them. We argue that with our framework, more targeted research for developing better document clustering methods becomes possible. Experimental results demonstrate the potential of our considerations. Скачать презентацию (pdf), видеоверсию (ts) семинара. Смотреть в Клубе. февраль 2011![]() Jussi Karlgren Ph D in computational linguistics and adjoint professor of language technology, is a senior researcher at the Swedish Institute of Computer Science in Stockholm, Sweden. Title: Constructional syntactic analysis for information access tasks Abstract: In this talk, I will describe experiments to use non-terminological information to find attitudinal expressions in written English text. The experiments are based on an analysis of text with respect to not only the vocabulary of content terms present in it (which most other approaches use as a basis for analysis) but also with respect to presence of structural features of the text represented by *constructional features* (typically disregarded by most other analyses). In our analysis, following a construction grammar framework, structural features are treated as occurrences, similarly to the treatment of vocabulary features. The constructional features in play are chosen to potentially signify opinion but are not specific to negative or positive expressions. The constructional framework is used to classify clauses, headlines, and sentences from three different shared collections of attitudinal data. We find that constructional features transfer well across different text collections and that the information couched in them integrates easily with a vocabulary based approach, yielding improvements in classification without complicating the application end of the processing framework. Скачать презентацию (pdf), видеоверсию (zip) семинара. Смотреть в Клубе. январь 2011![]() Леонид Лейбович Иомдин И.о. заведующего лабораторией компьютерной лингвистики Института проблем передачи информации им. А.А.Харкевича РАН, ведущий научный сотрудник, кандидат физических наук. Занимается разработкой систем машинного перевода (англо-русский, русско-английский перевод) и многоцелевых лингвистических процессоров. Созданием глубоко аннотированных корпусов текстов. Исследованиями в области теоретической лингвистики (в первую очередь, синтаксиса, семантики и прагматики) и лексикографии. Тема доклада: Правиловая система машинного перевода ЭТАП-3: опыт разработки и некоторые уроки Тезисы: В докладе будут представлены основные подходы и методы, использованные Лабораторией компьютерной лингвистики ИППИ РАН им. А.А.Харкевича при создании данной системы, в первую очередь, ее русско-английского направления. Будут рассмотрены теоретико-лингвистические основания системы (синтаксис зависимостей, организация словаря, лексические функции) и характерные особенности ее работы (множественный перевод, интерактивный режим). Работа системы будет проиллюстрирована на реальных примерах детальным разбором основных этапов алгоритма. В заключение будут сформулированы некоторые выводы из опыта создания системы ЭТАП-3, которые могут оказаться полезными для разработчиков других систем автоматической обработки текстов, а также для классических лингвистов. Скачать презентацию (pdf), видеоверсию (часть 1, часть 2) (avi) семинара. Смотреть в Клубе. декабрь 2010![]() Поликарпов Михаил Игоревич Начальник лаборатории Институт Теоретической и Экспериментальной Физики, доктор физ.-мат. наук, проф. Тема доклада: Кварки, глюоны, теория и суперкомпьютерное моделирование Тезисы: Доклад посвящен исследованию основной загадки теории сильных взаимодействий - попыткам объяснения эффекта невылетания цвета. Этот эффект (отсутствие свободных кварков и глюонов) легко наблюдать путем численного моделирования теории на компьютерах, в то время как исследователи сорок лет не могут это сделать аналитически, причем не будет преувеличением сказать, что задачей занимались одни из лучших физиков нашего времени. Моделирование сильных взаимодействий на компьютерах позволяет не только показать невылетание кварков и глюонов, но и предсказать много параметров теории сильных взаимодействий, которые совпадают с экспериментально известными числами. Более того, оказывается возможным предсказывать новые явления, которые не обнаружены пока на эксперименте. Для этого используются крупнейшие суперкомпьютеры, а сложность вычислений такова, что время счета некоторых величин измеряется годами. Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. октябрь 2010![]() Татьяна Ландо, Екатерина Зудина, Дарья Мигунова, Александр Гололобов и др. Тема доклада: RuSSIR 2010, как это было?.. Тезисы: Семинар посвящен Российской Летней Школе по информационному поиску RuSSIR, которая проводилась в сентябре в Воронеже. Основными целями школы являются - познакомить слушателей со спектром современных проблем и методов информационного поиска, привлечь внимание студентов и молодых ученых к задачам информационного поиска. Российская летняя школа по информационному поиску в этом году прошла уже в четвертый раз. Как и в предыдущие годы школа собрала много интересных докладчиков и заинтересованных слушателей. К сожалению, не все имеют возможность приехать на школу лично. Для тех, кто хотел, но по разным причинам не смог на нее попасть, мы устраиваем рассказ с обзором курсов, которые читались в этом году в Воронеже. Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. сентябрь 2010![]() Ricardo Baeza-Yates Ricardo Baeza-Yates is VP of Yahoo! Research for Europe, Middle East and Latin America, leading the labs at Barcelona, Spain and Santiago, Chile, as well as supervising the newer lab in Haifa, Israel. In 2009 he was awarded the Latin American distinction for contributions to CS in the region and became an ACM Fellow. Тема доклада: Towards a Distributed Search Engine Тезисы: In the ocean of Web data, Web search engines are the primary way to access content. As the data is on the order of petabytes, current search engines are very large centralized systems based on replicated clusters. Web data, however, is always evolving. The number of Web sites continues to grow rapidly and there are currently more than 20 billion indexed pages. In the near future, centralized systems are likely to become ineffective against such a load, thus suggesting the need of fully distributed search engines. Such engines need to achieve the following goals: high quality answers, fast response time, high query throughput, and scalability. This talk surveys and organizes recent research results, and outlines the main challenges of designing a distributed Web retrieval system. Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. август 2010![]() Kalervo Järvelin Professor at the Dept. of Information Studies and Interactive Media, University of Tampere. Тема доклада: Why do people use short queries in real life? A session-based analysis of short query effectiveness. Тезисы: There is overwhelming evidence suggesting that the real users of IR systems often prefer using extremely short queries (one or two individual words) but they try out several queries if needed. Such behavior is very different from the process modeled in traditional test collection-based IR evaluation based on using more verbose queries and only one query per topic. In this talk we will evaluate sequences of short queries as sessions based on empirically grounded session strategies. We employ a TREC test collection with graded relevance judgments and simulate sessions based on session strategies for repeatability and control. The experimental results indicate that web-like very short queries (including one-word query sequences) typically lead to good enough results even in a TREC type test collection. This finding motivates the observed real user behavior: as few very simple attempts normally lead to good enough results, there is no need to pay more effort. We conclude by discussing the consequences of our finding for IR evaluation. Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. июль 2010![]() Evgeniy Gabrilovich Evgeniy Gabrilovich is a Senior Research Scientist and Manager of the NLP & IR Group at Yahoo! Research. His research interests include information retrieval, machine learning, and computational linguistics. Recently, he organized a workshop on the synergy between user-contributed knowledge and research in AI at IJCAI'09, and a workshop on information retrieval for advertising at SIGIR'09. Evgeniy presented tutorials on computational advertising at CIKM'09, IJCAI'09, ACL'08, and EC'08. He served on the program committees of WWW, WSDM, SIGIR, CIKM, AAAI, ACL, EMNLP, HLT, COLING, and JCDL. Evgeniy earned his MSc and PhD degrees in Computer Science from the Technion - Israel Institute of Technology. In his Ph.D. thesis, he developed a methodology for using large scale repositories of world knowledge (e.g., all the knowledge available in Wikipedia) to enhance text representation beyond the bag of words. Тема доклада: Recent advances in computational advertising: design and analysis of ad retrieval systems. Тезисы: Online advertising is the primary economic force behind numerous Internet services ranging from major Web search engines to obscure forums. A new discipline - Computational Advertising - has recently emerged, which studies the process of advertising on the Internet from a variety of angles. A successful advertising campaign should be integral to the user experience and relevant to the users' information needs, as well as economically worthwhile to the advertiser and the publisher. This talk will survey the evolution of online advertising systems, and discuss the unique challenges posed by searching the ad corpus. At first approximation, finding user-relevant ads can be reduced to conventional information retrieval. However, the complex structure of ad campaigns, along with the cornucopia of pertinent non-textual information and economic considerations, makes ad retrieval substantially (and interestingly) different. We show how to adapt standard IR methods for ad retrieval, in particular by developing structure-aware indexing techniques and by augmenting the ad selection process with external knowledge. We demonstrate how to enrich query representation using Web search results, and thus use the Web as a repository of relevant query-specific knowledge. We also discuss the findings of our recent studies of the interplay between the organic and sponsored search results, and the insights we gained by studying how users interact with the ads. Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. июнь 2010![]() Воронцов Константин Вячеславович, Гуз Иван Сергеевич ЗАО «Форрексис», Вычислительный Центр РАН Тема доклада: Применение технологий клиентской аналитики для повышения лояльности и доходности клиентов Тезисы: В современном маркетинге умение своевременно выявлять потребности клиентов и предсказывать их поведение является залогом будущей лояльности клиентов к компании. Чем больше клиент пользовался услугами/продуктами компании, тем больше известно информации о его предпочтениях и тем более точными будут прогнозы его текущих потребностей. Для построения устойчивых долгосрочных отношений с клиентами необходимо организовать эффективную стратегию взаимодействия с ними, основанную на выявлении их потребностей, учитывающую всю историю взаимодействия. Ведь в этом случае клиентам нет смысла уходить к конкурентам, поскольку там им пришлось бы проходить весь путь обучения новой компании своим реальным потребностям с самого начала. Для выстраивания таких отношений с клиентами необходимо научиться решать ряд прикладных задач, таких как: • Какие основные сегменты клиентов существуют и какова их доходность? • Что, когда, кому предлагать? • Как рассчитать ценность клиента в долгосрочной перспективе? • Какова вероятность того, что клиент прекратит пользоваться услугами компании? • Что предлагать клиенту, чтобы он не прекратил пользоваться услугами компании? Решение этих задач требует как глубоких знаний конкретной бизнес области, так и методов data mining, позволяющих интерпретировать найденные при решении закономерности. На семинаре будут рассмотрены математические основы методов поиска логических закономерностей, а также подходы к решению описанных выше задач и их взаимосвязь, помогающие компаниям из различных отраслей повышать лояльность своих клиентов. И.С.Гуз: скачать презентацию (pdf), видеоверсию (часть 1, часть 2) (avi) семинара. К.В.Воронцов: скачать презентацию (pdf), видеоверсию (основная часть, ответы на вопросы) (avi) семинара. Смотреть в Клубе. май 2010![]() Yorick Alexander Wilks Oxford Internet Institute, Professor of Artificial Intelligence Department of Computer Science University of Sheffield. Тема доклада: The WWW and the Semantic Web—what is their relationship? Тезисы: The aim of the paper is to discuss implications of the so-called Semantic Web, particularly for the future of science; some might call this Berners-Lee's second big idea, and part of the talk will be about whether and how different this is from the World Wide Web we all know, and whether Berners-Lee's original conception was not closer to this second idea than the first, the WWW. I illustrate some of the indispensable aid the Semantic Web idea is giving to modern sciences, and the basis of residual skepticism about it, which may all turn out to be misplaced, as has proved the case with Machine Translation and Artificial Intelligence. I contrast this development with two neighboring developments: Wikiscience and the organization of personal knowledge on the Internet. Скачать презентацию (pdf), видеоверсию семинара - доклад, ответы на вопросы (avi). Смотреть в Клубе. апрель 2010![]() Andreas Rauber Andreas Rauber is Associate Professor at the Department of Software Technology and Interactive Systems (ifs) at the Vienna University of Technology (TU-Wien). Тема доклада: Searching for Music Тезисы: Searchin for music has turned into a widely popular activity, both on the web as well as within commercial music databases. Yet, building suitable techniques to do so poses significant challenges. This talk will present some of the challenges underlying the concept of music search. It will show the different modalities affected, before focusing specifically on feature sets characterizing the audio content using signal processing techniques as well as psycho-acoustic models. We will further take a look at the integration of textual features for song lyrics analysis before demonstrating a few applications for music search and playlist generation, ranging from mobile devices to virtual worlds. Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. март 2010![]() Константин Авилов Научный сотрудник Института вычислительной математики РАН, к.ф.-м.н. Тема доклада: Математическое моделирование в эпидемиологии как задача анализа сложных данных. Тезисы: Медицина и биология в последние десятилетия стали мощным источником экспериментальных и статистических данных, требующих систематизации, анализа и развития методов прогнозирования. Создание математических моделей биологических процессов – один из наиболее эффективных методов решения поставленных задач. Однако специфика объекта моделирования порождает ряд методологических и математических проблем, связанных, в первую очередь, с самим построением моделей. В докладе будет дано введение в математическую эпидемиологию как в одну из типичных областей применения техники моделирования. Будут рассмотрены как классические модели «общего назначения» (SI-, SIR-модели и т.д.), так и специальные модели, предназначенные для анализа реальных данных (на примере эпидемиологии туберкулеза). Важной особенностью большинства таких моделей является то, что их структура строится на основе экспертного знания об объекте моделирования и о его внутренних взаимосвязях. Это лишает процесс построения модели системности и не позволяет при верификации моделей на реальных данных различить ошибки в «экспертной аксиоматике» и случайные ошибки в данных и настройке моделей. Во второй части семинара мне хотелось бы обсудить возможности и современные методы автоматизированного или полуавтоматизированного поиска сложных нелинейных зависимостей в высокоразмерных данных. Такие методы могли бы послужить инструментом для построения математических моделей «от данных». Надеюсь, что доклад и дискуссия заинтересуют специалистов как в области прикладной математической биологии, так и в области глубинного анализа данных (data mining). Скачать презентацию (pdf), видеоверсию семинара - выступление, ответы на вопросы (avi). Смотреть в Клубе. февраль 2010![]() Andrew V. Goldberg Andrew Goldberg is a Principal Researcher at Microsoft Research - Silicon Valley. His research interests include design, analysis, and experimental evaluation of algorithms, data structures, algorithm engineering, and computational game theory. Goldberg received his Ph.D. degree in Computer Science from M.I.T. in 1987. He also holds a B.S. degree from M.I.T. and an M.S. degree from U.C. Berkeley. Before joining Microsoft, he worked for Stanford University, NEC Research Institute, and InterTrust STAR Lab. His graph algorithms are taught in computer science and operations research classes and their implementations are widely used in industry and academia. Goldberg received a number of awards, including the NSF Presidential Young Investigator Award, the ONR Young Investigator Award, and the Mathematical Programming Society A.W. Tucker Prize. He is an ACM Fellow. Тема доклада: Highway Dimension and Provably Efficient Shortest Path Algorithms Тезисы: Computing driving directions has motivated many shortest path heuristics that answer queries on continental scale networks, with tens of millions of intersections, in real time, and with very low storage overhead. We give the first theoretical analysis of several underlying algorithms on a non-trivial class of networks. To do this, we introduce the notion of highway dimension. Our analysis works for networks with low highway dimension and gives a unified explanation of good performance for several seemingly different algorithms. Joint work with Ittai Abraham, Amos Fiat, and Renato Werneck. Я.ру: Семинар «Highway Dimension and Provably Efficient Shortest Path Algorithms» Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. январь 2010![]() Виктор Лемпицкий University of Oxford, Postdoc Researcher Тема доклада: Локализация объектов на фотоизображениях Тезисы: Задача автоматического поиска объектов определенного класса, например лиц или пешеходов, на фотоизображениях привлекает всё больший интерес со стороны исследователей. С одной стороны, за последнее десятилетие применение новых методов машинного обучения, оптимизации, а также больших обучающих выборок привело к существенному улучшению скорости и точности локализации. С другой стороны, до скорости и точности, с которой эту задачу решает мозг человека или животного, ещё очень далеко. В докладе я расскажу о нескольких наиболее популярных и интересных подходов к решению задач, предложенных ранее, а также, чуть подробнее, остановлюсь на новом методе локализации объектов на основе Хаф-деревьев. Я.ру: Семинар «Локализация объектов на фотоизображениях» Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. декабрь 2009![]() Юрий Лифшиц Yahoo! Research, Research Scientist Тема доклада: Динамика двусторонних рынков Тезисы: Представьте себе, что у вас есть несколько рыночных площадей. На каждую из них каждые выходные приходит сколько-то покупателей и сколько-то продавцов. Со временем продавцы догадываются, что лучше торговать на рынке с самым большим количеством покупателей. Одновременно покупатели постепенно перебираются на площадь с самым большим количеством продавцов. Этот процесс называют сетевым эффектом. Такая же картина наблюдается на сайтах о работе, в системах контекстной рекламы и системах поиска по товарам. Мы рассмотрим два вопроса: как предсказывать развитие двусторонних рынков во времени и как инвестировать усилия в развитие площадки: когда сделать скидку продавцам, а когда — сфокусироваться на покупателях? Чтобы ответить на эти вопросы, мы построим модель, основанную на стохастических дифференциальных уравнениях. Будут представлены как теоретические свойства модели, так и результаты измерений ряда двусторонних рынков в интернете. Я.ру: Семинар «Динамика двусторонних рынков» Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. ноябрь 2009![]() Виктор Бочаров СПбГУ, факультет филологии и искусств, ассистент кафедры информационных систем в искусстве и гуманитарных науках. Тема доклада: Онтологический парсинг словарной информации Тезисы: Доклад посвящён автоматическому пополнению онтологии на основе машиночитаемой версии «Российского энциклопедического словаря» и раздела «Википедии» на русском языке. В основе данной работы лежит гипотеза: в большинстве случаев, родовой по отношению к определяемому термин представлен опорным словом - первым по порядку существительным (именной группой) в именительном падеже. Предварительные исследования показали, что в целом структура словарных статей отвечает заявленной гипотезе, однако использование ее напрямую во многих случаях приводит к не вполне корректным результатам. Для улучшения результатов были сделаны дополнения по сравнению с базовой гипотезой:
Я.ру: Семинар из цикла «Информационный поиск и анализ данных» Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. октябрь 2009![]() Максим Гринев Доцент, старший преподаватель кафедры системного программирования, заведующий отделом ИСП РАН Тема доклада: Семантический анализ текстов с использованием Википедии Тезисы: Система Текстерра, разрабатываемая в Институте системного программирования РАН, автоматизирует анализ текстовых документов на естественном языке и позволяет решать следующие основные задачи: выделение ключевых слов и построение онтологий, классификация документов, а также семантический поиск и навигация в текстовых документах. Доклад посвящен обзору методов, лежащих в основе технологии Текстерра. Во время доклада будет продемонстрирован поисковик по блогам, построенный с использованием этой технологии. Я.ру: Семинар из цикла «Информационный поиск и анализ данных» Скачать презентацию (pdf), видеоверсию (avi) семинара. Смотреть в Клубе. |
|
© 1997—2012 «Яндекс»
|