2015年1月16日金曜日

MediaWiki検索エンジンの仕様変更とギリシャ・ラテン語

MediaWikiの検索エンジンはGoogleのシステムに類似してる。
カタカナ単語の内の一部文字列のみを断片的に検索すれば、Googleと似て、見当と違うようなものばかりヒットする。
私はギリシャ語やラテン語の単語である単語群の同類を探そうと思った。
片や「シア」、片や「ウム」で検索すればよいと思った。

以前の検索エンジンだと、恐らくは「シア」なら「ロシア」などが上位に掛かるはずである。
ところがほとんどが「シア」ではじまるか「シア」の前後に「・」等で区切られたような人名ばかりがヒットした。
「ウム」についても同じように見当違いなものしかヒットしない。
すなわち「ロシア」や「ユーラシア」のように一単語が著名でGoogle等の知能が区切らないよう一単語をあたかも一文字のごとく扱ってるから、両検索エンジンでヒットしない。
「ウム」系でも、「ウムラウト」「ナトリウム」などが、同様に一単語=一文字扱いだからヒットしない。
カタカナ著名単語にこの傾向が強いが、同様に漢字の二字熟語も多くが同じ処理をされてる。

※後で知ったが、これは「形態素解析」の仕組みで、文章の意味を持つ言葉の単位の区切りが機械的に認識されたことに基づいた検索がされている。スペースを用いない言語における、機械(検索アルゴリズムを用いた検索エンジン・検索サイトコンピューター・サーバー)が未知の単語であれば、字ごとにバラバラの認識がされる。なお日本語版Wikipedia一ページに「ウィキペディアの検索では、検索語の全てを含むページを検索します。日本語の形態素解析ができないため、分かち書きをしていない部分は一つのまとまった検索語として認識されます」と記される。「形態素解析」システムの検索をする・しないことをユーザーが用途ごとに選択できればよい。Google, YouTubeなどが何らかの手法を取り入れると、世界中・日本のローカルなサイトまでもがそれをみだりに真似することになる。柔軟さも自由さも何も無い、帝国主義的な世の中だ。

以前ではこのような検索結果はありえない。
実際に検索結果上部に「このウィキでは新しい検索エンジンを使用しています。」というメッセージが添えられている。
検索の最適化ということで「同文字列を含む無関係なページのヒットを防ぐ」という目論見でこれが比較的近年のGoogleでなされたのだが、それをMediaWikiまで真似しなくてもよろしい。



それでは本来の目的「シア」系や「ウム」系を探す方法とは何か。
まずは手動で"jawiki-latest-all-titles-in-ns0"内のデータを検索すればよい。
Chromeブラウザ上でこのファイルを開いた、メモ帳だとなぜか改行されてなく区切りが見分けづらいこと、IEやFirefoxだとメモリ使用量が膨大になってしまう。
よってChromeが最善として実行したのだが、文字コードの相違で、utf-8系の文字化けが発生してしまい、探しづらすぎる、逆手に取って(妥協)こちらもutf-8表記のワードで検索したが、一層困難である。
先述の通り、メモ帳やIE、Firefoxで開くにも一長一短があるわけだから余儀なく辞す。
尚且つ、この画像の通りヒット数が多すぎて(最大5000件を超すか?)探しづらいことこの上ない、という問題に当たったため断念せざるを得ない(ヒット数に脱帽)。



他の手段を探したところ、それならば変更前のMediaWiki検索エンジン同等の検索仕様のサイト、ことに辞書系がいいと思案した。
そこでいつもお世話になってる「Weblio」で「シア」、「ウム」それぞれを後方一致で検索したところ、それなりに期待できる結果になったが、例えば「ウム」だと学名で恐ろしいほど多用されてる(元素名が好例)ことは諸君もご存知であろう。
故にウム系ヒットするのは学名ばかり、これが現実であった。

学名といえば、日本語の難読漢字もそうだが、動植物ことに魚偏とか草冠のアレ、覚えても実は自慢にならないよねっていう(数学の円周率暗記も同様、宴会の余興)。
小5~中1の頃は興味が旺盛であったため、そういう難読漢字を覚えたがったのだが・・・
というわけで実用性に極めて乏しく、専門家や学者様じゃない私は諦めた。



一連の検索をする前にこういう制限下で単語を記憶から探った。
「ア○○○シア」→アナスタシア、アタラクシア、アンブロシア
「○○○リウム」→アクアリウム、クリテリウム(実はフランス語だが、フランス語はラテン語の影響が強く残ってる)、プラネタリウム(七文字じゃん)

目的の動機は、本家1月1日記事のタイトルにもある「モラトリアム」という単語からこっちのラテン由来英単語、カタカナで日本でも用いられるものを探そうと思ったからだ。
アナスタシア、アタラクシア、アンブロシア等は某小説や某アレ系統を見てる最中に知った・・・という以前に、モラトリアムに自体も某小説がきっかけで。

ちなみに、前述の学名についてだが、寄生虫の名前でそのままカタカナ表記される「レウコクロリディウム」というのがある。
ラテン語は多く、字のままに忠実に読めばいいのでこの読み方は実は正しい一方、「ロイコクロリディウム」というのは"leuco"をドイツ語読みしたものだろう。
ドイツ(Deutsche)語では"Teufel"が「トイフェル」、"Kreuz"が「クロイツ」、"Preussen"が「プロイセン」と読むように、"eu"は「オイ」と一般的に発音、カタカナイゼーションされる。
英語読みをしたいのならば"leuco"は「リューコクロリディウム」と読むべきだ。
ちなみにこの"leuco"はギリシャ語根"leuk"であり、"Leukosis(白化、Albedo)"などの用法がある。
一概にどの読みが誤りとは言えないが、筋を通すならラテン語読み、この場合聞く相手によっては「正直にローマ字読みしてる馬鹿」などと思われてしまう場合があるかもしれない。



追記:19時過ぎ
画期的なWikipedia検索方法を見出したので再開する。
カタカナの「ア」から始まる項目だけでも、目測5000超か?
延々と目当ての物が出るまでの回転寿司然とした作業、配慮しなければ目に悪い。

先のアナスタシア、アタラクシア、アンブロシア、そしてアクアリウム、クリテリウムに加えて以下に示す。

「ア○○○シア」→アノレクシア、アブガルシア(ギリシャでもラテンでもない。アブ=ABUらしいが、ラテン語には"Ab"という前置詞がある、"Ab"についての過去記事参照)、アルテミシア、アンダルシア(アブ・ガルシアのガルシア同様スペイン語系)、アヴァンシア(アはaじゃなくierという変型)

「○○○リウム」→アンスリウム(植物)、イットリウム(元素)、エカタリウム(元素別名)、エルトリウム(架空)、エンポリウム(アム互換のデパート名は以前も検索したことがある)、カストリウム(イはe)、カピトリウム、カルダリウム、ガルバリウム(lumeなら百歩譲ってもリュームでしょ)、ガンダリウム(架空)、キノモリウム(植物)、ケトテリウム(動物)、サナトリウム、シバテリウム(動物)、タブラリウム、テピダリウム、トアテリウム、ハーバリウム、バクテリウム(細菌、ラテン語尾umはaで互換可)、バークリウム(元素)、ピロテリウム(動物)、ペニシリウム(細菌)、マシナリウム、メガテリウム(動物)、メソテリウム(動物)、モラトリウム(アム互換)

有象無象、目ぼしいものは僅かだね、俺が未知のものはその程度なのだろうか。
リウム系・古代ローマ勢→カルダリウム、サナトリウム、タブラリウム、テピダリウム
感想・・・肩が凝った、手が疲れた。
正に譫妄 - デリリウム状態に瀕する寸前(冗談)なのでサニタリウムへ行こう。



関係ないけど、ある人関連のタイトルでメガロマニアとかパンデモニウムというのがあるが、その他ギリシャ・ラテン系だとホロコースト、ネクロノミコン、カタストロフ、ユーサネイジア(日本での発音には表記ゆれがあるが、これが英語には忠実、希語はエウサナシア)などがあった。
識別番号(左上より) 458-215 457-211 307 266 183-361 112

もう一個余談、ゴラトリウム(ゴラトリアム)って何?



追記: 2015年9月10日
某所某投稿機能の終了直前に投稿したコンテンツを、年末の閲覧終了に先駆けて引用。

mainen00さん - 2015/07/19 10:13:10
去年末に知ったことを今追記しておく。
精神病理はドイツを中心に進んだ医学であり、「プソイドロギア」という読み方はドイツ流であること、「ソイ"seu"」や「ロギア"logia"」に見て取れる。
前者は質問本文の通りだが、後者は「イデオロギー"Ideology"」という読み方からドイツ読みカタカナ転記だと理解に易い。
ドイツで発見されドイツ語話者に命名されれば、日本の輸入時にドイツ読みが尊重されるのも「レウコ(ラテン)・リューコ(英)・ロイコクロリディウム」の差が有名だ。



追記: 2018年8月9日
アンブロシアとアルテミシアは生物学における学名・属名(それぞれAmbrosiaArtemisia)である場合、日本でいうブタクサ(Ambrosia artemisiifolia)とヨモギ(Artemisia princeps)を意味するが、いずれもキク科である。
日本でいうブタクサ(Ambrosia artemisiifolia)とヨモギ(Artemisia princeps)は、葉の形がよく似ているため、ブタクサ(Ambrosia artemisiifolia)の種小名"artemisiifolia"がヨモギ属"Artemisia"由来する。
ブタクサ(Ambrosia artemisiifolia)の種小名"artemisiifolia"は、artemisi-foliaと分けて「ヨモギ属"Artemisia"に似た葉"-folia, 中性名詞folium"」と解釈できる。

ちなみに、ブタナ(Hypochaeris radicata)という植物も、外見はより一般的なキク花・菊花に似たキク科植物である(特に葉も花もタンポポに似る)。
日本でいう・和名のブタクサもブタナも、その学名に由来せず、"hogweed(ブタクサの英名の一)"とか"Salade de porc, Porcelle enracinée(ブタナの仏名の2種)"とかという英語・フランス語に由来するようである(英語のhog、フランス語のporcはみなブタ・豚"pig, swine, sus, suidae"に関する名)。
和名ブタクサ・ヨモギ・ブタナの三種は、属の名がみなギリシャ語由来でもある(種小名はラテン語まじりのハイブリッド複合語か純然たるラテン語も多い)。

以上、ちょっとしたトリビア、トリヴィアを書く。
奇妙な共通点が、ブタクサ・ヨモギ・ブタナの三種(および関連する同属異種)において見られた。
興味のある方は各自で検証されたい。



おっと!ここまで書いてブタナ(Hypochaeris radicata)の属名について調べると英語版Wikipedia - Hypochaeris に"Its name is derived from Greek ὑπό (under) and χοῖρος (young pig). "だなんて書かれてあった。
属名にある-chaeris部分= χοῖρος 古代ギリシャ語コイロス、現代ギリシャ語ヒロスは、「豚」の意味だとされるので、「日本でいう・和名のブタクサもブタナも、その学名に由来せず」と書いた部分はブタナについてのみ、より検証し直したほうがよい。
例えば仏名のみならず独名にも"Gewöhnliches Ferkelkraut"、豚(子豚)の意味のある"Ferkel"が含まれているので、和名の元が仏名に求められるのみならず、最終的な起源がギリシャ語由来の語彙を持つ学名に求められよう(逆に仏名・独名などからHypochaeris属の学名を作った可能性もあるが)。

おっと!上の調査の数時間後にたまたまジャイアント・ホグウィード"giant hogweed, Heracleum mantegazzianum"という有毒植物の名を思い出した。
先に「"hogweed(ブタクサの英名の一)"」などと書いたが、実際はブタクサが"hogweed"とは英語圏であまり呼ばれず、"ragweed (慣用カナ: ラグウィード)"と呼ばれる。
なんという紛らわしさであろうか。
日本語名の「ブタクサ(中国でも豚草・豬草などと呼ぶ)」のみ、謎が深まった。


0 件のコメント:

コメントを投稿

当ブログのコメント欄は、読者から、当ブログ記事の誤字・脱字の報告や、記事の話題に関する建設的な提案がされる、との期待で解放されていました。
しかし、当ブログ開設以来5年間に一度もそのような利用がされませんでした (e.g. article-20170125, article-20170315, article-20190406)。
よって、2019年5月12日からコメントを受け付けなくしました。
あしからず。

注: コメントを投稿できるのは、このブログのメンバーだけです。