Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры Страница 62
Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры читать онлайн бесплатно
84
Средние значения опросов Института Гэллапа за семь дней были основаны на опросах примерно 2700 потенциальных избирателей. См. Election 2012 Likely Voters Trial Heat: Obama vs. Romney // Gallup, доступно в сети Интернет: http://goo.gl/ujbzb.
85
Информацию об учебном курсе MOOC можно найти в Introduction to Artificial Intelligence, доступно в сети Интернет: https://www.udacity.com/course/cs271. Учебник Норвига: Russell Stuart J., Norvig Peter. Artificial Intelligence: A Modern Approach. Englewood Cliffs, NJ: Prentice Hall, 1995.
86
«Википедия» внимательно следила за судебными разбирательствами, их непростым и непрерывным потоком. См. Google Book Search Settlement // Wikipedia (23 июня 2013 г.), доступно в сети Интернет: http://goo.gl/8E5Cx. Некоторые юридические аспекты обсуждаются в статье Trigona Giovanna Occhipinti. Google Book Search Choices // Journal of Intellectual Property Law and Practice 6, no. 4 (10 марта 2011 г.). P. 262–273. В более общем виде эта же информация содержится в книге Leaffer Marshall A. Understanding Copyright Law, 5th ed. Albany, NY: Matthew Bender, 2011. Довольно подробная библиография по этому вопросу приведена в работе Bailey Charles W., Jr. Google Books Bibliography // Digital Scholarship, 2011, доступно в сети Интернет: http://goo.gl/grff2. См. комментарии Рубина на сайте Rubin Thomas C. Searching for Principles: Online Services and Intellectual Property // Microsoft, доступно в сети Интернет: http://goo.gl/GX3CB.
87
См. Barbaro Michael, Zeller Tom, Jr. A Face Is Exposed for AOL Searcher No. 4417749 // New York Times (9 августа 2006 г.), доступно в сети Интернет: http://goo.gl/c8MCY; About AOL Search Data Scandal, доступно в сети Интернет: http://goo.gl/6hnfuI.
88
Доступно в сети Интернет: http://www.google.org/flutrends/intl/ru/ru/#RU/ Сервис Google, позволяет определить скорость распространения вируса гриппа в различных странах (Прим. пер.).
89
Вследствие своей актуальности для проблемы секвенирования генома разработан весьма впечатляющий теоретический аппарат по анализу проблемы сбора текстов из крошечных элементов. Качественные изменения в этом вопросе возникли после развития статистического аппарата Ландера – Уотермена. Благодаря значительным улучшениям технологии секвенирования генома и вследствие достаточно сложной повторяющейся структуры генома млекопитающих эта статистика может применяться не только для работы над геномом, но и для анализа текстов с помощью n-грамов. См. Lander E. S., Waterman M. S. Genomic Mapping by Fingerprinting Random Clones // Genomics 2, no. 3 (апрель 1988 г.). P. 231–239. Доступно в сети Интернет: http://academic.research.microsoft.com/Publication/1323792/genomic-mapping-by-fingerprinting-random-clones-a-mathematical-analysis.
90
См. Quayle Dan. Standing Firm. New York: HarperCollins, 1994; Fass Mark. How Do You Spell Regret? One Man’s Take on It // New York Times (29 августа 2004 г.), доступно в сети Интернет: http://goo.gl/gWW4wK.
91
Пэйлин весьма ловко использовала 1-грам в своем твите от 18 июля 2010 г. Перед этим она воспользовалась этим словом во время телевизионного выступления. См. Read Max. Sarah Palin Invents New Word: «Refudiate» // Gawker (19 июля 2010 г.), доступно в сети Интернет: http://goo.gl/XjV7TJ.
92
См. Macrone Michael. Brush Up Your Shakespeare. New York: HarperCollins, 1990; McQuain Jeffrey, Malless Stanley. Coined by Shakespeare. Springfield, MA: Merriam-Webster, 1998.
93
Несмотря на свою консервативную репутацию среди лингвистов, AHD довольно долго был новаторским с точки зрения применяемых методов. В 1967 году Генри Кучера и У. Нельсон Фрэнсис опубликовали Brown Corpus, сборник текстов, состоявший из миллиона слов и представлявший широкий набор жанров. Эта публикация обеспечила инструментарий для развития корпусной лингвистики как научной дисциплины и тем самым является во многих отношениях самым ранним и самым важным предвестником корпуса, созданного нами в Google. Вскоре после этого издатель Х. Миффлин связался с Кучерой по вопросу создания корпуса для нового словаря, над которым работала его компания. По сути, издатель намеревался реализовать на практике стратегию Элдриджа (см. сноски к разделу «1937: Одиссея данных»), используя лексическую статистику для конструирования словаря английского языка. Первое издание American Heritage Dictionary, вышедшее в свет в 1969 году, стало первым словарем, построенным по такому принципу. Разумеется, нам было крайне интересно посмотреть, насколько хорошо методы создания AHD выглядят с учетом нашего нового мощного корпуса, основанного на текстах Google Books. К счастью, Джозеф П. Пикетт, ответственный редактор AHD с 1997 по 2011 год, с радостью поучаствовал в этом процессе. Благодаря его активному сотрудничеству и помощи со стороны его подчиненных наш анализ American Heritage Dictionary был чрезвычайно успешен. Все цифры относительно AHD в настоящей книге взяты из прямого общения с ними или из представленной ими информации (Пикетт даже стал одним из соавторов Michel2011.) Хотя мы время от времени и критикуем AHD в нашей книге, ясно, что сотрудники AHD отлично понимали: новые методы анализа помогут им улучшить свой словарь. Мы считаем крайне важной прозрачность в лингвистическом процессе, и никакой другой справочный источник несравним с AHD в этом отношении.
94
Команда AHD снабдила нас списком из 153 459 слов, словника четвертого издания их словаря. Иногда одно и то же слово появлялось в списке несколько раз, к примеру, слово console («держатель» и «утешать») появлялось сначала как существительное, а затем – как глагол (мы удалили все удвоенные записи такого рода). Также мы удалили из списка выражения, состоявшие более чем из одного слова (такие как men’s room – «мужской туалет»). В результате список состоял из 116 156 слов.
95
Эти цифры относятся к последнему печатному изданию OED (2-е изд., 1989 год). Многие люди, в том числе директор издательства Oxford University Press Найджел Портвуд, подозревают, что третье издание уже никогда не появится в печатном виде вследствие общей миграции такого рода источников в сеть Интернет. Увы, с OED мы не сотрудничали. На веб-сайте OED указано, что «количество словоформ, имеющих определение и/или проиллюстрированных» равно 615 100. Как отмечено во введении, в этом издании содержалось также 169 000 «фраз и комбинаций, выделенных курсивом или жирным шрифтом», не представляющих собой 1-грамы. По нашему расчету, разница между этими двумя значениями составляет 446 000. Это не точный расчет, а, скорее, верхняя граница – второе издание OED имеет не больше 446 000 слов в виде 1-грам, а, скорее, даже меньше. Не так давно работники OED пригласили нас поучаствовать в симпозиуме, посвященном будущему словарю, поэтому, возможно, нас ждет более динамичное сотрудничество, в стиле AHD. Разумеется, точные цифры будут как нельзя более кстати. См. Oxford English Dictionary, 2nd ed. Oxford: Oxford University Press, 1989; Dictionary Facts // Oxford English Dictionary, доступно в сети Интернет: http://goo.gl/DL6a7; Aarts Bas, McMahon April. The Handbook of English Linguistics. Hoboken, J: John Wiley & Sons, 2008; Jamieson Alastair. Oxford English Dictionary «will not be printed again» // Telegraph (29 августа 2010 г.), доступно в сети Интернет: http://goo.gl/V5g8Ak.
Жалоба
Напишите нам, и мы в срочном порядке примем меры.