ЦеНеБлог

Google: проблеми з мовою?

« Не читайте українських сайтів | | Феномен українського патріотизму »

16 грудня 2010

Google: проблеми з мовою?

Всі ми звикли до думки, що Google — найкращий у світі пошуковик. Але чи так це насправді? Ідеальних речей не існує, і Google — не виняток. Дещо він робить дуже й дуже погано.

  1. Google плутає літери. Так, на запит «їду» він знаходить купу сторінок зі словом «іду». Що цікаво, замість українського «іду» гугл уперто знаходить російське «иду». Аналогічно зі словами Європа, етика та ін. В деяких випадках проти таких заскоків допомагає використання опції «шукати українською» або лапок, в інших не рятує й це. Змусити гугл шукати саме те слово, яке ми шукаємо, з точністю до букви — неможливо. Ї=І, І=И, Є=Е, Е=Э, Ґ=Г. Змиріться з цим. Або перейдіть на пошук інструментом, краще оптимізованим для східнослов'янських мов (скажімо, Яндекс видає результати, що більш точно відповідають запиту)
  2. Google програє́ перед Яндексом у знанні української граматики. Відома російська пошукова система набагато краще оптимізована під слов'янські мови, у т.ч. й українську. Скажімо, якщо я вводжу в полі пошуку слова «синій кіт», це означає, що я шукаю сторінки, де може бути і безпосередньо «синій кіт», і відмінкові форми, напр., «синього кота», але НЕ «синій кит». Яндекс відповідає моїм запитам, google — ні.
  3. Google Translate перекладає з англійської на суржик. При перекладі з англійської на українську вже вкотре помічаю, як в український текст вклинюються якісь незрозумілі русизми (скажімо, Mr. = г-н — чому «господин», а не «містер» чи «пан»?). Чому так? Перш за все, гуглоперекладач не користується словниками, натомість поповнює свої знання з різноманітних зразків перекладу. Якість цих зразків контролюється погано — фактично, туди можуть потрапити неякісні результати інших автоперекладачів, і гугл сприйме їх як правильні. Якщо ж зразком для наслідування стала україномовна версія якогось із багатомовних сайтів, то цілком закономірно, що російський текст, присутній на україномовній сторінці, гугл сприйняв як щиру українську мову.
    Все це схоже на правду, але справжньою причиною є те, що Google використовує російську мову як проміжну при перекладі на українську. В цьому легко переконатись, узявши якусь англійську фразу й переклавши її за допомогою гуглоперекладу спершу на російську, а з неї — на українську. Отриманий результат слово-в-слово відповідає тому, що ми отримали б при «безпосередньому» гуглоперекладі на українську. До російсько-українського перекладу у мене претензій нема (він якісний настільки, наскільки взагалі може бути якісним машинний переклад), але чим більше посередників, тим гірший результат, англійська вже є посередником між більшістю мов, у т.ч., при перекладі на російську. Іншими словами, німецько-український гуглопереклад (він же німецько-англо-російсько-український) має більше спільного з грою в зіпсований телефон, ніж англо-китайський чи навіть китайсько-(англо-)арабський. Цікаво, що зворотній переклад з української на англійську робиться вже без участі російської мови (результат такого двоступеневого перекладу виявився непридатним для розуміння англомовною публікою?).
  4. Це вже не технічна особливість, а просто незроблена робота. Багато довідкових сторінок google, що дублюються різними мовами (у т.ч., й менш розповсюдженими, такими як чеська чи данська), з якоїсь незрозумілої причини не мають українського перекладу. Якщо це частина офіційної мовної політики компанії, то дуже сумно. Вже б хоч свій витвір застосували для генерації перекладу, якщо на живого перекладача нема грошей.

P.S. Хоча у вас і могло скластися враження, що я є щирим фанатом Яндекса і ця стаття була написана на його замовлення, насправді я використовую Гугль набагато частіше, адже й англомовної інформації в світі більше, ніж написаної українською чи російською (де перевагу має Яндекс), та й деякі його служби (той же онлайн-автоперекладач з широким вибором мов) є просто унікальними. Однак, ідеальних речей не існує, тому не варто авторам найпродвинутішого сервісу спочивати на лаврах, коли є простір для роботи — в даному випадку, покращення роботи з українською мовою. Ми живемо в світі конкуренції — хто може стверджувати, що монополія google триватиме вічно?..

Автор: Python. Опубліковано 16 грудня 2010 19:00
Змінено 16 грудня 2010 19:29
Категорії: Інтернет, Мова