Пошуковик Google не розуміє ментів Автор: lesya · Опубліковано: 21.12.2010 11:25 · Розділ: Нові технології

Лінгвістичний сервіс Google Ngram подарував кожному бажаючому шанс стати автором геніального дослідження. Тисячі зацікавлених користувачів цими днями мали можливість випробувати нову іграшку від Google - Ngram Viewer. Вводиш в рядок пошуку будь-яке слово й на екрані висвітлюються дані щодо частотності його використання та вживання в книгах та інших писемних джерелах з 1800 до 2000 року. Творці сервісу - група фахівців з питань вивчення та застосування кількісних методів у соціальних науках з Гарварду - у своїй статті, опублікованій виданням Science висловлюють сподівання, що Ngram допоможе культурологам, лінгвістам і соціологам аналізувати різні культурні тренди: як, наприклад, змінювалося слововживання, якою була цензура, які соціальні явища висувалися на перший план у творах художньої, наукової, популярної літератури тощо.

Минулого року Google підвів проміжні підсумки проекту з оцифрування світових бібліотек. В базі пошуковика виявилося близько 15 мільйонів книг. Вчені на чолі з Жаном-Баптистом Мішелем та Ерезом Ліберманом Ейден відібрали з них третину - 4% всіх книг, свого часу опублікованих на основних сучасних мовах, включаючи російську та китайську, 2 млрд слів і виразів. В процесі роботи вченим вдалося з'ясувати, що словниковий запас американців протягом останніх ста років збагатився на 70%, при цьому майже половина нових слів не потрапила до словників.

Російськомовних книг і журналів у базі нового сервісу кілька десятків тисяч (хоча на деякі запити пошук видає до 6,5 млн результатів російською, - потрапляють різні сторінки або частини однієї книги). В основному - це джерела фондів головних бібліотек. В базу потрапила достатня кількість помилок розпізнавання тексту під час сканування, тому пошук характеризується певною неточністю. Наприклад, знак дефісу пошуковик часто сприймає як пробіл, отож топонім Хуй-хе стає для нього двома різними лексемами. А невірно розпізнані «елементи» та «моменти» в текстах XIX століття перетворюються на «ментів».

Зазвичай соціологи використовують такий частотний аналіз вживання слів у пресі або в блогахз метою обчислення динаміки настроїв, хвилі дії пропаганди та різноманітних піар-кампаній. Набираєш слово «чеченець» - аналізуєш контекст вживання. Схожий принцип використовується в роботі продавців контекстної реклами: щоб правильно підібрати ключові слова, які ведуть до потрібної соціальної групи, необхідно знати, хто і в якому контексті ці слова вживає. Соціологи за допомогою Ngram зможуть пояснити, навіщо з'являлися нові слова, і що ж власне стало поштовхом до їх творення.

Скажімо, слова «хіпстера» в російськомовній базі немає, а в американській воно зустрічається втричі частіше, ніж в англійській, - слово вигадали американці в 50-ті, для позначення тих, кого в Росії називають бітниками.

Отож тепер у кожного, хто має доступ до інтернету, з'явився шанс стати автором геніального дослідження. Але ймовірність знайти щось дивовижне та оригінальне, відверто кажучи, невелика. Вірна прикмета соціолога: знайшов нетривіальну закономірність - шукай помилку - тут спрацьовує повністю. Як у випадку з «ментами» і «моментами». Щоправда, цікавим є той факт, що різкий сплеск популярності слова «менти» припадає не на 50-і з їхнім стрімким розвитком потужної злодійський культурою та навіть не на 90-і, а на 2000-і, до того ж на їхню другу половину. І начебто бестселери в кишенькових палітурках вже відійшли в минуле, а «ментовське беззаконня» ще не розпочалося, - однак саме в ті роки це жаргонне слово стало повсякденним і загальновживаним.

Тим часом автори статті, опублікованої виданням Science, за допомогою Ngram підтвердили, що за часів Сталіна ім'я Троцького стали згадувати рідше, ніж під час правління Леніна, і показали, що у наших сучасників знижується інтерес до Фрейда і зростає - до Дарвіна. А найпопулярнішим англомовним письменником виявився Марк Твен. Взагалі, простір для лінгвістичного та культурологічного аналізу надзвичайно великий. Наприклад, завдяки використанню сервісу можна дізнатися, що після 1917 року російськомовні письменники та публіцисти почали набагато рідше вживати слова «суспільство», «любов», «вуха» та «горілка», замінивши їх «порядком», «страхом», «самоваром» і «квасом». А звичайні блогери слідом за гарвардцями зіставляють популярність автомобіля з поїздом і трамваєм, гамбургера з сендвічем, Елвіса Преслі з Мерилін Монро та із задоволенням відзначають, що слова «секс» у Радянському Союзі майже не було.

Джерело: http://slon.ru


Інші новини розділу

  • Цікаві факти про компресор

    Цікаві факти про компресор · Jane Holiday · 19.05.2017 12:02

    Компресор – це енергетична машина чи пристрій для підвищення тиску (стискання) та переміщення газоподібних речовин. «Батьком» компресора був насос, він винайдений тисячу років тому. Зараз вони використовуються в найрізноманітніших галузях промисловості.


  • Стиснене повітря - новий спосіб збереження енергії

    Стиснене повітря - новий спосіб збереження енергії · kseniya_www · 15.04.2017 21:14

    Канадська компанія Hydrostor розробила нову систему зберігання енергії на основі стисненого повітря, яка дешевша літій-іонних акумуляторних батарей, а також не використовує природний газ, як це роблять інші системи такого типу.


  • 2017: найочікуваніші гаджети

    2017: найочікуваніші гаджети · Anastasia · 16.01.2017 10:19

    Минулий рік не відзначився революційними новинками у сфері широкого вжитку. Прозорі чи гнучкі смартфони не з’явилися на ринку, а гаджети, які працюють за допомогою безпровідної зарядки акумулятора, без сумніву потрібно вдосконалювати. Також відкритим залишається питання про заряд звичних акумуляторів, які при інтенсивному використанні смартфону працюють не більше одного дня. До вашої уваги підбірка апаратів, які будуть конкурувати на ринку і зацікавлять суспільство у 2017.


  • Найкращі технологічні новинки 2016

    Найкращі технологічні новинки 2016 · Anastasia · 09.01.2017 13:35

    Минулий рік видався багатим на техно-новинки в сфері віртуальної реальності та використання дронів. Не менш важливим є представлення концепту «сонячного даху», що у майбутньому дасть можливість позбавитися електроенергії. Інтенсивність розвитку саме цих відгалужень зумовлена в першу чергу потребою людства у збереженні екологічної системи нашої планети.


  • Як вибрати праску?

    Як вибрати праску? · Anastasia · 04.01.2017 17:06

    Вдома ми користуємося багатьма гаджетами, які спрощують нам життя і допомагають виглядати на всі сто. Тому при виборі праски для домашнього вжитку ще в магазині слід звертати увагу на такі дрібниці як поверхня, якість ручки та допоміжні деталі. Далі декілька корисних порад, щоб обрати найоптимальніший варіант за співвідношенням ціна - якість.