Kazuhiro's BBS

http://green.ribbon.to/~ikazuhiro/にて提供しているソフトウェア及びパッチに関する質問、要望等あれば御記入下さい。

書き込み一覧

jawiki-20090423-pages-articles.xml.bz2変換時エラー

By kolo URL この投稿を引用

いつもお世話になっています。

私はUbuntuの9.04を使って変換しています。

wikipedia-fpw-20090220-src.tar.gzで、 okatti さんと同じエラーが出まして、

Entry: 1136053; ザ・ダッシュ
Entry: 1136059; テリー・カー
fpwwikipedia: Elapsed time : 21466sec.
fpwwikipedia: Number of entries: 590806
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwsort -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwindex -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwcontrol -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwlink -workdir work -module GDBM
/usr/local/libexec/freepwing/fpwlink: unknown tag name, cgraph:math_c364f545548545350203e3: line 968686, work/textref
make: *** [work/link.dep] エラー 9

相対リンクも途中までしかついていなくて、EBWinでの検索も全文検索しか受け付けませんでした。またすべての数式が収録されていなくて数式が収録されるべき場所に空白行が挿入されています。

formulaのエラーの出た、
"形式言語","位取り記数法","仮面ライダーBLACK","線形回帰","デュレーション","スターリングの近似","グラフ彩色","プロトキン限界","ティコノフ正則化",

をはずして変換したところ、

/usr/local/libexec/freepwing/fpwlink: unexpected position.: work/eidxref0
make: *** [work/link.dep] エラー 9

というエラーが出ました。

多分 Link.pm からエラーが出ているものと思われます。


wikipedia-fpw-20090428-src.tar.gzを使って変換したところ、同じ、バッファエラーが出ました。

Entry: 1136053; ザ・ダッシュ
Entry: 1136059; テリー・カー
fpwwikipedia: Elapsed time : 12902sec.
fpwwikipedia: Number of entries: 590806
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwsort -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwindex -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwcontrol -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwlink -workdir work -module GDBM
/usr/local/libexec/freepwing/fpwlink: unexpected position.: work/eidxref0
make: *** [work/link.dep] エラー 9

こちらは検索ができますし、相対リンクもあるようですが、すべての数式が収録されていなくて数式が収録されるべき場所に空白行が挿入されています。

しかし、試しに円周率、積分、数学に関する記事など収録対象タイトルを細かく指定すると、wikipedia-fpw-20090220-src.tar.gz でもちゃんと数式が収録されます。
最初はmimetex,Perlmagickを疑ったのですが、こちらのほうはちゃんと働いているようです。

変換報告まで。

No.121 2009/05/03 21:16:22

Re: jawiki-20090423-pages-articles.xml.bz2変換時エラー

By kazuhiro URL このコメントを引用

現在ダウンロードできる最新のダンプデータからそのまま書籍を作成すると
HONMONファイルが2GBを超えてしまいますが、2GB以上の書籍の作成には
perl側の対応が必要です。
(FreePWINGも 1.6の方が安全だとは思いますが、必須かどうかは
確認はしていません。)

perl -V等で、Compile-time optionsにUSE_64_BIT_INTとUSE_LARGE_FILESが
あるのをを確認してください。
多分USE_64_BIT_INTがないのだと思います。

No.122 2009/05/04 07:36:17

Re: jawiki-20090423-pages-articles.xml.bz2変換時エラー

By kolo URL このコメントを引用

ああ、そこで引っかかるんですね。
確かにUSE_64_BIT_INTが、Ubuntuの9.04のPerlではなぜかわざわざUndefになっているんですよ。
しかし、ご相談したら一発で回答いただけて有難いです。これからworkフォルダーの中のファイルをひとつずつMIFES8であけて見ていこうと思っていたので助かりました。
本当は人に聞かないで自分でなんとかしなきゃないけないんですけどね。今回ギブアップで甘えが出てしまいました。
ちょっといまからPerlをなんとかしてみます。ありがとうございました。

No.123 2009/05/04 18:52:13

wikipedia作成時のエラー

By okatti この投稿を引用

最新のwikipediaを作成中に

---------------------------------------------
fpwwikipedia: Elapsed time : 8541sec.
fpwwikipedia: Number of entries: 590806
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwsort -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwindex -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwcontrol -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwlink -workdir work -module default
/usr/local/libexec/freepwing/fpwlink: unknown tag name, cgraph:math_c364f545548545350203e3: line 968686, work/textref
gmake[1]: *** [work/link.dep] エラー 9
gmake[1]: ディレクトリ `/root/Download/wikipedia-fpw-20090220' から出ます
gmake: *** [package] エラー 2
---------------------------------------------

というエラーが出てしまいます。

cgrtagというファイルを編集して

cgraph:math_c364f545548545350203e3 **********(適当にコピーペースト)

を追加するとエラーが出なくなりました。

ご報告致します。

No.119 2009/04/28 10:11:00

Re: wikipedia作成時のエラー

By kazuhiro URL このコメントを引用

報告ありがとうございます、現象は確認しました。

http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwwikipedia
http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwwikipedia_cgraph

上記のファイルで差し替えてみてください。

No.120 2009/04/28 20:23:57

Contentバッファ

By tk++ この投稿を引用

Contentバッファにて、heading のほか本文にも face を付けてほしいです。

No.117 2009/04/19 14:11:49

Re: Contentバッファ

By kazuhiro URL このコメントを引用

本文の書式は辞書によって異なるので、辞書に合わせた
カスタマイズが必要になります。
Lookup ではそのための仕組みとして:arrangesオプションや
補助パッケージが用意されています。
:arrangesオプションについては texi/lookup.texi の
「テキストの整形」の項を、補助パッケージについては
lisp/lookup-package.el のコメントを参照してください。
また、実際の補助パッケージが packages ディレクトリ
以下にあります。

xxという辞書でこういう表示になっているものが
こうなって欲しいというものが具体的にあれば
提示頂ければ対応できるかもしれません。
ただし、できたとしてもいつになるかはわかりません。

No.118 2009/04/21 10:40:59

oald7について

By noname この投稿を引用

cygwinとfreepwingと変換スクリプトを使って、oald7をepwing化したのですが、
熟語の検索ができません。
これは仕様なのでしょうか?それとも自分のやり方が悪いのでしょうか?
辞書本体のentry数も4万弱だったので、少ないような気がするのですが・・・
御教授お願いします。

No.115 2009/02/18 01:20:21

Re: oald7について

By kazuhiro URL このコメントを引用

今のところ仕様です。
基本的に見出し語のみをインデックスに登録しています。

また、私が紙の辞書にとらわれすぎているのかもしれませんが、
idiomを通常のインデックスに登録する事には違和感を覚えます。
検索できるようにするにしても条件検索を使用したものになると思います。

entryの数については
http://www.obunsha.co.jp/category/jisyo/tokucho5.html
の、

> 総項目で183,500語

と比較して「少ない」と感じているのだと思いますが、
oald7-fpwでの entryの数は「見出し語の数」なので直接比較できる
数字ではありません。
ただし、OALD7をパーサで処理した時は

> ../fpwoald7: Number of entries: 42458

となりますので、四万弱だとすれば変換に失敗している可能性があります。

No.116 2009/02/18 12:42:03

フランス語版Wikipedia変換報告

By rikimaru この投稿を引用

フランス語版Wikipediaが無事epwingに変換出来ましたのでご報告させて頂きます。
日本語版との違いは以下の通りです。(2008年12月3日のダンプデータからの作成)

まず、相互参照でエラーが出ないように元のwikipedia.xmlを編集しました。

Théséeで
|thumb|Thésée enlève une n,  (編集前)
|thumb|Thésée enlève une n]] (編集後)
カッコを閉じる

La Comedie humaineで
[[Image:Sédières 1 110.jpg|<small>
Image:Sédières 1 110.jpg|<small>
カッコを取る

Oretで
la [[Fusion de communes en Belgique|fusion des communes de 1977.
la [[Fusion de communes en Belgique|fusion des communes de 1977]].
カッコを閉じる

そして、fpwwikipediaに、この掲示板のNo.111でkazuhiroさんから頂いたパッチ

http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwwikipedia.diff

を適用。

次に、tablesの%utf2euc_table =に

'é' => 'e',
'î' => 'i',
'ç' => 'c',
'œ' => 'oe',
'€' => 'EUR',
'«' => '≪',
'»' => '≫',
'’' => '\'',

のように書き加えてアクセント記号類を削除、その他記号類を変換。

wikipedia-fpw.confのmy @skip_headings = の所に

'^(Wikipédia|Modèle|Portail|Catégorie|Image|Aide|Projet|Wiktionnaire|Référence|Fichier):',

を追加。(ウィクショナリー用の項目も混じっています)
'/履歴$', のフランス語版はよく分からなかったので放置しました。。

そして、

'^[^a-kA-KàÀâÂçÇéÉèÈêÊëËîÎïÏ]'

として1冊目。

'^[a-kA-KàÀâÂçÇéÉèÈêÊëËîÎïÏ]'

として2冊目を作りました。
分冊の仕方は、このBBSのNo.103でkazuhiroさんが書かれている
通りにしました。サイズはそれぞれ1.84GB、1.85GBで2GB以内に収まります。

というわけで、無事変換をすることが出来ました。
Wikipediaを持ち運べるのはとても便利です。
このような変換ツールを開発して頂いたこと、
また私の質問に回答して頂いたことに深く感謝致します。
どうもありがとうございました。

No.113 2009/01/12 14:50:37

Re: フランス語版Wikipedia変換報告

By kazuhiro URL このコメントを引用

うまくいったようでなによりです。
%utf2euc_table の内容については参考にさせて頂きます。

No.114 2009/01/14 21:10:36

Error 9

By rikimaru この投稿を引用

フランス語版のwikipediaを変換していて、またエラーが出ました。
前回とは違うエラーで、

Entry: 88574; Signes plus et moins
fpwwikipedia: word is empty
make: *** [work/parse.dep] Error 9

となっています。
相互変換の有無には関わらずこのエラーか出るので、
相互変換は関係ないと思います。また不思議なことに、
元のxmlファイルからSignes plus et moinsの1項目だけを
取り出して作業すると、エラーは出ずに変換することが出来ます。

ちなみに環境はWindowsXP上でCygwin(1.5.25-15)を使っています。
何が原因なのでしょうか。よろしくお願い致します。

ちなみに前回のTheseeの項目ですが、相互参照の ]] が
抜けていたのが原因だったようで、]]を補ったところ
エラーは出なくなりました。

No.110 2009/01/08 17:51:52

Re: Error 9

By kazuhiro URL このコメントを引用

見出し語に含まれる'+'等は検索語を登録する際には切り捨てられます。
ですので、そういった切り捨てられる文字だけからなる見出し語を
検索語に登録しようとするとすると検索語がなくなってしまい、
エラーになります。
その様な見出し語はskip_headingsの設定で排除するようにしているのですが、
設定が不十分な為にSignes plus et moinsにリダイレクトされている
見出し語のいずれかがチェックをすり抜けたようです。


http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwwikipedia.diff

のパッチで改善すると思います。
手元の開発版では既にこうなっていますが、
そっちの公開はもう少し先の予定です。

No.111 2009/01/08 21:22:02

Re: Error 9

By rikimaru このコメントを引用

早速のご回答ありがとうございました。
今から試してみます。
どうもありがとうございました。

No.112 2009/01/08 23:43:11

unknown tag name

By rikimaru この投稿を引用

フランス語版のwikipediaを変換しようとしています。

Entry: 13289; Thesee
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwsort -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwindex -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwcontrol -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwlink -workdir work
/usr/local/libexec/freepwing/fpwlink: unknown tag name, text:34863c2a47561657d65696c6c616e647: line 3, work/textref
make: *** [work/link.dep] Error 255

とのエラーが出ました。(実際の表示ではTheseeは文字化けしていますが、
アクセント記号を外した文字で記しました。)
wikipedia.xmlを編集して、該当のtagを処理すれば直せると思い
見てみましたが、どこが問題なのか分かりませんでした。
ちなみに、wikipedia.xmlでのTheseeの冒頭は

<page>
<title>Thesee</title>
<id>20158</id>
<revision>
<id>35590153</id>
<timestamp>2008-11-25T16:12:57Z</timestamp>
<contributor>
<username>Salebot</username>
<id>173239</id>
</contributor>
<comment>bot : revocation de [[Special:Contributions/88.197.209.192|88.197.209.192]] (vandalisme : -8), retour a la version 34853072 de 82.224.142.67</comment>
<text xml:space="preserve">{{voir homonymes}}

[[Image:Minotaur.jpg|thumb|right|180px|Thesee et le [[Minotaure]], [[ceramique]] a figures noires]]

Dans la...

となっています。(アクセント記号は外しました。)
該当するwikipediaのページは

http://fr.wikipedia.org/wiki/Th%C3%A9s%C3%A9e

です。何が問題で、どうすればよいかお分かりでしたら
お教え頂きたく思います。よろしくお願い致します。

No.107 2009/01/03 23:18:11

Re: unknown tag name

By kazuhiro URL このコメントを引用

おそらくCygwinで作業していると思いますが、
perlが途中で異常終了しています。
(詳細は、wikipedia-fpwのページにある
「Cygwinのperlでfpwwikipediaを実行するとperlが落ちる(ことがある)」の
項を参照してください。)
本来はその時点で中断されるべきなのですが、このパターンでPerlが落ちると
異常終了を検出できないようで、そのまま次のプロセスに進み、
後の工程でエラーが発生します。

比較的簡単な対策としては
・Perlが最新でなければアップデートする
・Cygwin以外の環境(Linux等)で作業する
・相互参照を無効にする
のいずれかが考えられます。

No.108 2009/01/04 08:06:25

Re: unknown tag name

By rikimaru このコメントを引用

相互参照を無効にして試してみようと思います。
結果はまたご報告します。コメントをどうもありがとうございました。

No.109 2009/01/04 11:09:54

以下のフォームに記事No.と投稿時のパスワードを入力すれば、 投稿後に記事の編集や削除が行えます。

73/200件 [ ページ : << 1 2 3 4 5 6 7 8 9 10 11 >> ]

- HOME - お知らせ(3/8) - 記事検索 - 携帯用URL - フィード - ヘルプ - メール - 環境設定 -

Rocket Board Type-X (Free) Rocket BBS