Kazuhiro's BBS

http://green.ribbon.to/~ikazuhiro/にて提供しているソフトウェア及びパッチに関する質問、要望等あれば御記入下さい。

書き込み一覧

oald7について

By noname この投稿を引用

cygwinとfreepwingと変換スクリプトを使って、oald7をepwing化したのですが、
熟語の検索ができません。
これは仕様なのでしょうか?それとも自分のやり方が悪いのでしょうか?
辞書本体のentry数も4万弱だったので、少ないような気がするのですが・・・
御教授お願いします。

No.115 2009/02/18 01:20:21

Re: oald7について

By kazuhiro URL このコメントを引用

今のところ仕様です。
基本的に見出し語のみをインデックスに登録しています。

また、私が紙の辞書にとらわれすぎているのかもしれませんが、
idiomを通常のインデックスに登録する事には違和感を覚えます。
検索できるようにするにしても条件検索を使用したものになると思います。

entryの数については
http://www.obunsha.co.jp/category/jisyo/tokucho5.html
の、

> 総項目で183,500語

と比較して「少ない」と感じているのだと思いますが、
oald7-fpwでの entryの数は「見出し語の数」なので直接比較できる
数字ではありません。
ただし、OALD7をパーサで処理した時は

> ../fpwoald7: Number of entries: 42458

となりますので、四万弱だとすれば変換に失敗している可能性があります。

No.116 2009/02/18 12:42:03

フランス語版Wikipedia変換報告

By rikimaru この投稿を引用

フランス語版Wikipediaが無事epwingに変換出来ましたのでご報告させて頂きます。
日本語版との違いは以下の通りです。(2008年12月3日のダンプデータからの作成)

まず、相互参照でエラーが出ないように元のwikipedia.xmlを編集しました。

Théséeで
|thumb|Thésée enlève une n,  (編集前)
|thumb|Thésée enlève une n]] (編集後)
カッコを閉じる

La Comedie humaineで
[[Image:Sédières 1 110.jpg|<small>
Image:Sédières 1 110.jpg|<small>
カッコを取る

Oretで
la [[Fusion de communes en Belgique|fusion des communes de 1977.
la [[Fusion de communes en Belgique|fusion des communes de 1977]].
カッコを閉じる

そして、fpwwikipediaに、この掲示板のNo.111でkazuhiroさんから頂いたパッチ

http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwwikipedia.diff

を適用。

次に、tablesの%utf2euc_table =に

'é' => 'e',
'î' => 'i',
'ç' => 'c',
'œ' => 'oe',
'€' => 'EUR',
'«' => '≪',
'»' => '≫',
'’' => '\'',

のように書き加えてアクセント記号類を削除、その他記号類を変換。

wikipedia-fpw.confのmy @skip_headings = の所に

'^(Wikipédia|Modèle|Portail|Catégorie|Image|Aide|Projet|Wiktionnaire|Référence|Fichier):',

を追加。(ウィクショナリー用の項目も混じっています)
'/履歴$', のフランス語版はよく分からなかったので放置しました。。

そして、

'^[^a-kA-KàÀâÂçÇéÉèÈêÊëËîÎïÏ]'

として1冊目。

'^[a-kA-KàÀâÂçÇéÉèÈêÊëËîÎïÏ]'

として2冊目を作りました。
分冊の仕方は、このBBSのNo.103でkazuhiroさんが書かれている
通りにしました。サイズはそれぞれ1.84GB、1.85GBで2GB以内に収まります。

というわけで、無事変換をすることが出来ました。
Wikipediaを持ち運べるのはとても便利です。
このような変換ツールを開発して頂いたこと、
また私の質問に回答して頂いたことに深く感謝致します。
どうもありがとうございました。

No.113 2009/01/12 14:50:37

Re: フランス語版Wikipedia変換報告

By kazuhiro URL このコメントを引用

うまくいったようでなによりです。
%utf2euc_table の内容については参考にさせて頂きます。

No.114 2009/01/14 21:10:36

Error 9

By rikimaru この投稿を引用

フランス語版のwikipediaを変換していて、またエラーが出ました。
前回とは違うエラーで、

Entry: 88574; Signes plus et moins
fpwwikipedia: word is empty
make: *** [work/parse.dep] Error 9

となっています。
相互変換の有無には関わらずこのエラーか出るので、
相互変換は関係ないと思います。また不思議なことに、
元のxmlファイルからSignes plus et moinsの1項目だけを
取り出して作業すると、エラーは出ずに変換することが出来ます。

ちなみに環境はWindowsXP上でCygwin(1.5.25-15)を使っています。
何が原因なのでしょうか。よろしくお願い致します。

ちなみに前回のTheseeの項目ですが、相互参照の ]] が
抜けていたのが原因だったようで、]]を補ったところ
エラーは出なくなりました。

No.110 2009/01/08 17:51:52

Re: Error 9

By kazuhiro URL このコメントを引用

見出し語に含まれる'+'等は検索語を登録する際には切り捨てられます。
ですので、そういった切り捨てられる文字だけからなる見出し語を
検索語に登録しようとするとすると検索語がなくなってしまい、
エラーになります。
その様な見出し語はskip_headingsの設定で排除するようにしているのですが、
設定が不十分な為にSignes plus et moinsにリダイレクトされている
見出し語のいずれかがチェックをすり抜けたようです。


http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwwikipedia.diff

のパッチで改善すると思います。
手元の開発版では既にこうなっていますが、
そっちの公開はもう少し先の予定です。

No.111 2009/01/08 21:22:02

Re: Error 9

By rikimaru このコメントを引用

早速のご回答ありがとうございました。
今から試してみます。
どうもありがとうございました。

No.112 2009/01/08 23:43:11

unknown tag name

By rikimaru この投稿を引用

フランス語版のwikipediaを変換しようとしています。

Entry: 13289; Thesee
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwsort -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwindex -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwcontrol -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwlink -workdir work
/usr/local/libexec/freepwing/fpwlink: unknown tag name, text:34863c2a47561657d65696c6c616e647: line 3, work/textref
make: *** [work/link.dep] Error 255

とのエラーが出ました。(実際の表示ではTheseeは文字化けしていますが、
アクセント記号を外した文字で記しました。)
wikipedia.xmlを編集して、該当のtagを処理すれば直せると思い
見てみましたが、どこが問題なのか分かりませんでした。
ちなみに、wikipedia.xmlでのTheseeの冒頭は

<page>
<title>Thesee</title>
<id>20158</id>
<revision>
<id>35590153</id>
<timestamp>2008-11-25T16:12:57Z</timestamp>
<contributor>
<username>Salebot</username>
<id>173239</id>
</contributor>
<comment>bot : revocation de [[Special:Contributions/88.197.209.192|88.197.209.192]] (vandalisme : -8), retour a la version 34853072 de 82.224.142.67</comment>
<text xml:space="preserve">{{voir homonymes}}

[[Image:Minotaur.jpg|thumb|right|180px|Thesee et le [[Minotaure]], [[ceramique]] a figures noires]]

Dans la...

となっています。(アクセント記号は外しました。)
該当するwikipediaのページは

http://fr.wikipedia.org/wiki/Th%C3%A9s%C3%A9e

です。何が問題で、どうすればよいかお分かりでしたら
お教え頂きたく思います。よろしくお願い致します。

No.107 2009/01/03 23:18:11

Re: unknown tag name

By kazuhiro URL このコメントを引用

おそらくCygwinで作業していると思いますが、
perlが途中で異常終了しています。
(詳細は、wikipedia-fpwのページにある
「Cygwinのperlでfpwwikipediaを実行するとperlが落ちる(ことがある)」の
項を参照してください。)
本来はその時点で中断されるべきなのですが、このパターンでPerlが落ちると
異常終了を検出できないようで、そのまま次のプロセスに進み、
後の工程でエラーが発生します。

比較的簡単な対策としては
・Perlが最新でなければアップデートする
・Cygwin以外の環境(Linux等)で作業する
・相互参照を無効にする
のいずれかが考えられます。

No.108 2009/01/04 08:06:25

Re: unknown tag name

By rikimaru このコメントを引用

相互参照を無効にして試してみようと思います。
結果はまたご報告します。コメントをどうもありがとうございました。

No.109 2009/01/04 11:09:54

Cygwin PerlとImage::Magickモジュール

By kazuhiro URL この投稿を引用

現在、Cygwinのインストーラーが提供しているPerlは5.10が最新ですが、
Image::Magickモジュールは5.8用のものしか提供されていません。
Cygwinでoald7-fpwを利用し、Image::Magickモジュールが必要な場合は
古いPerlを使用してください。

No.105 2008/12/01 14:25:59

Re: Cygwin PerlとImage::Magickモジュール

By kazuhiro URL このコメントを引用

Cygwin Perl 5.10で動くImage::Magickモジュールを作ってみました。
興味のある方はどうぞ。
http://ikazuhiro.s206.xrea.com/article.php/20081226135848821

No.106 2008/12/26 14:12:01

分冊時のcatalogs.txtの書き方について

By YKM この投稿を引用

はじめまして。
現在、英語版WikipediaのEPWING化を試みています。
2Gの壁があるので、2つに分けて(分冊)して辞書を作成しようとしています。
「fpwmake catalogs」あるいは、「fpwmake package」を実行する前に、catalogs.txtをどのように記述すればよいのかが、今ひとつわかりません。
お手数ですが、ご教授願います。

現在、以下のような書き方を考えております。

■ 1冊目作成時のcatalogs.txt
[Catalog]
FileName = catalogs1
Type = EPWING1
Books = 1

[Book]
Title = "Wikipedia_A-M"
BookType = 5001
Directory = "WIKIP_EN1"


■ 2冊目作成時のcatalogs.txt
[Catalog]
FileName = catalogs2
Type = EPWING1
Books = 1

[Book]
Title = "Wikipedia_N-Z"
BookType = 5001
Directory = "WIKIP_EN2"

No.102 2008/10/24 13:49:25

Re: 分冊時のcatalogs.txtの書き方について

By kazuhiro URL このコメントを引用

どのようにして分冊を作成しようとしているのかが分からないので、
wikipedia-fpwのソースを展開後、分冊ごとに設定を書換えて
fpwmake package
でパッケージを作成し、
そのパッケージを任意のディレクトリに展開して使用すると仮定します。

catalogs.txtで変更すべき部分は
Title = "ウィキペディア日本語版"
Directory = "WIKIP"
の2行です。
Directory名は分冊毎に異なる名前で、8文字以内にしてください。
Titleの部分は全角文字で記述してください。

続いてMakefileの
DIR = WIKIP
の部分をcatalogs.txtのDirectory名に合わせてください。
それから、Makefileの
PACKAGE = wikipedia-fpw-20080616
の部分でパッケージ名が決まるので、分冊毎に重ならない名前に
変更してください。

ただし、私自身は分冊の作成をしたことがないので、
以上の内容でうまくいくかどうかは不明です。
書式等の詳細はFreePWINGのドキュメントを参照してください。

また、ブログの方に書きましたが、単一ファイルとして作成した場合で
honmonファイルのサイズが15GB弱だったので
分冊の数は2では足りないと思います。

No.103 2008/10/25 09:08:57

Re: 分冊時のcatalogs.txtの書き方について

By YKM このコメントを引用

kazuhiro 様、
たいへん役に立ちました。ありがとうございました。

> どのようにして分冊を作成しようとしているのかが分からないので、

以前このBBSで議論されていた方法で行いました。
つまり、wikipedia-fpw.conf の skip_headings の正規表現の箇所を変更しました。

> ただし、私自身は分冊の作成をしたことがないので、
> 以上の内容でうまくいくかどうかは不明です。
> 書式等の詳細はFreePWINGのドキュメントを参照してください。

了解いたしました。
うまくいきましたら、ご報告いたします。

> また、ブログの方に書きましたが、単一ファイルとして作成した場合で
> honmonファイルのサイズが15GB弱だったので
> 分冊の数は2では足りないと思います。

ご指摘の通りでした。
タイトルの1文字目が「a-mA-M」とそれ以外とで2分冊を考えていましたが、「a-mA-M」の部分だけで約9GBありました。もっと分冊数を大きくします。

No.104 2008/10/27 10:08:15

install.el

By tk++ この投稿を引用

「クリエイト」の綴りです。
--- install.el.ORIG Tue Jul 10 06:51:00 2007
+++ install.el Fri Oct 03 22:34:47 2008
@@ -39,7 +39,7 @@

(defun install-check-directory (directory)
(and (not (file-exists-p directory))
- (y-or-n-p (format "Directory %s is not exist. Creat it? " directory))
+ (y-or-n-p (format "Directory %s is not exist. Create it? " directory))
(make-directory directory t))
(if (not (file-directory-p directory))
(error "%s is not directory" directory))

No.100 2008/10/03 22:40:38

Re: install.el

By kazuhiro URL このコメントを引用

報告ありがとうございます。
手元では修正しておきましたので、次のリリースで反映されます。

No.101 2008/10/04 19:54:30

以下のフォームに記事No.と投稿時のパスワードを入力すれば、 投稿後に記事の編集や削除が行えます。

70/200件 [ ページ : << 1 2 3 4 5 6 7 8 9 10 >> ]

- HOME - お知らせ(3/8) - 記事検索 - 携帯用URL - フィード - ヘルプ - 環境設定 -

Rocket Board Type-X (Free) Rocket BBS