Kazuhiro's BBS

http://green.ribbon.to/~ikazuhiro/にて提供しているソフトウェア及びパッチに関する質問、要望等あれば御記入下さい。

書き込み一覧

[要出典]の部分が削除されてしまう

By rikimaru この投稿を引用

こんにちは

日本語版wikipediaの変換で、[要出典]とされている部分が
削除されてしまっているようなのですが、これは意図的に
そうなさっているのでしょうか?
例えば「クラムボン」の記事など、途中がごっそりと抜け落ちて
読みにくくなってしまうので、削除されないようにしたいのですが
どうしたらいいでしょうか。
よろしくお願い致します。

No.173 2010/02/23 02:59:22

Re: [要出典]の部分が削除されてしまう

By kazuhiro URL このコメントを引用

以前にも書きましたが、テンプレートの内容は原則削除で、個人的に
必要だったものや要望があったものについては個別に対応しています。
fpwwikipediaの

# Format supported templates.
$text =~ s/\{\{[lL]ang\|[a-z-]+\|([^\}]+)\}\}/$1/g;
$text =~ s/\{\{:利用者:Bcjp\/t\/fbp国内表_top\|[^\}]*\}\}/\{\|/g;
$text =~ s/\{\{サッカー代表個人成績\|[^\}]+\}\}/\{\|/g;
$text =~ s/\{\{lang-en-short\|([^\}]+)\}\}/英: $1/g;
$text =~ s/\{\{IPA\|([^\}]+)\}\}/[$1]/g;

の後ろに

$text =~ s/\{\{要出典範囲\|([^\}]+)\}\}/$1/g;

のような内容を追加すれば削除はされなくなると思います。
根本的に対応するためにはスクリプトを全面的に変更する必要が
あると思いますが、今のところする予定はありません。

No.174 2010/02/24 21:21:21

Re: [要出典]の部分が削除されてしまう

By rikimaru このコメントを引用

kazuhiro様

コメントをどうもありがとうございました。よく分かりました。
フランス語版だと日付の表示が消えるという現象があるのですが、
これもDateというテンプレートが消されているためだということが分かりました。
今から変換し直そうと思います。どうもありがとうございました。

No.175 2010/02/25 01:16:50

英語版の変換で

By kolo URL この投稿を引用

お世話になっております
お忙しいところ申し訳ありません。
現在、英語版のダンプデータを変換しているのですが、下記エラーが出てしまいました。

---------------------------------------------------
Entry: 9326858; Canfield Island Site
Entry: 9326859; Dalius aurelius bio
Entry: 9326861; Raglan, Chatham-Kent, Ontario
Entry: 9326862; List of Sweet Adelines International quartet champions by year
Entry: 9326863; Raglan, Durham Regional Municipality, Ontario
Entry: 9326865; Ferdinand Faithfull Begg
Entry: 9326868; Railton, Ontario
Entry: 9326870; List of Pan American Games
fuwwikipedia: Elapsed time : 78283sec.
fuwwikipedia: Number of entries: 4040910
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB


/usr/local/libexec/freeuwing/fuwlink: unknown tag name, cgraph:math_xmlns="http://www.w3.org/1998/Math/MathML": line 2119183, work/textref

---------------------------------------------------

どのように訂正すればよろしいでしょうか。ご教授ください。

あと、 Jiro さんのNo.156の投稿に対するNo.157の

---------------------------------------------------

print "Entry: $page_count; $heading\n";

の直前に

if ($heading =~ /^Backfitting algorithm$/) {
$text =~ s/<math /<math> /;
}

のようなコードを入れてください (&は正しくは半角です)。

-----------------------------------------------------

ですが、

<
>

ではなくて、

<(すべて半角)
>(すべて半角)

ではないでしょうか。
念のためご報告まで。

No.158 2010/02/01 15:52:00

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

> 現在、英語版のダンプデータを変換しているのですが、
> 下記エラーが出てしまいました。
> /usr/local/libexec/freeuwing/fuwlink: unknown tag name, cgraph:math_xmlns="http://www.w3.org/1998/Math/MathML": line 2119183, work/textref

半分無理矢理通すようにしたので下記のものと差し替えてください。
真面目な対策はそのうち考えます。

http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fuwwikipedia
http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fuwwikipedia_cgraph

> あと、 Jiro さんのNo.156の投稿に対するNo.157の
(snip)
> ですが、

> <
> >

> ではなくて、

> <(すべて半角)
> >(すべて半角)

> ではないでしょうか。

すみません、その通りです。
このBBSへの書き込みで試行錯誤している間におかしくなった事に
気付いていませんでした。

No.159 2010/02/03 08:34:05

Re: 英語版の変換で

By kolo URL このコメントを引用

早速の回答ありがとうございます。
いつもいつもすみません。

>> あと、 Jiro さんのNo.156の投稿に対するNo.157の
(snip)
>> ですが、

>> <
>> >

>> ではなくて、

>> <(すべて半角)
>> >(すべて半角)

>> ではないでしょうか。

>すみません、その通りです。
>このBBSへの書き込みで試行錯誤している間におかしくなった事に
>気付いていませんでした。

掲示板に投稿してから、なにかキツイ書き方になっていないか心配してましたが、あちゃー、ですね。
いや、掲示板に投稿したら対応していただけるだけでありがたいですし、責めるようなニュアンスはまったくありませんので、その点は誤解なきよう。文字だけのコミュニケーションは難しいですね。

これから早速、英語版に取り掛かってみます。
うちのマシンだとちょっと時間がかかりますので、ここに再度書き込みがなければ問題なし、ということでお願いします。(1週間ぐらいかかるかもしれませんので。)

ありがとうございました。

No.160 2010/02/03 17:41:54

Re: 英語版の変換で

By kolo URL このコメントを引用

えーと、結果が出てきました。

前回20091128版から、ちょうど20100130版のダンプデータがアップされたのでエントリーが増えています。

で、またエラーが出てしまいました。
------------------------------------------------------------------
Entry: 9541302; Chalkboard (disambiguation)
Entry: 9541303; Club haus
Entry: 9541304; Kocarija
Entry: 9541306; Greatest Hits (Beth Nielsen Chapman album)
Entry: 9541307; Maha Dharma
fuwwikipedia: Elapsed time : 72311sec.
fuwwikipedia: Number of entries: 4106106

/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB

/usr/local/libexec/freeuwing/fuwlink: unknown tag name, text:536f7665726569676e207374617465: line 1, work/textref
------------------------------------------------------------------
これはどのように訂正すればよいのでしょうか。

No.161 2010/02/07 16:54:32

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

手元の環境 (openSUSE 11.1 (x86_64), perl 5.10.0) では
問題ありませんでした。
バグ以外の原因として思いつくのは

・wikipedia-fuw.confで、デバッグモードが有効で、skip_count か
 entry_count を 0 以外にしている。
・preparser 実行後に wikipedia-fuw.conf を書き換え、その後に
 touch preparse.dep 等を行ってpreparserの実行をskipした。

くらいでしょうか。前者であればデバッグモードを無効にしてください。
後者の場合はfuwmake cleanを実行してからやり直してください。
今のところこれ以上の心当たりはありません。

No.162 2010/02/10 09:00:34

Re: 英語版の変換で

By kolo URL このコメントを引用

そうですか。
>
> ・wikipedia-fuw.confで、デバッグモードが有効で、skip_count か
>  entry_count を 0 以外にしている。

これはしていませんが

> ・preparser 実行後に wikipedia-fuw.conf を書き換え、その後に
>  touch preparse.dep 等を行ってpreparserの実行をskipした。

ああーなんかありそうだー。

実は
----------------------------------------------
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/bin/sort: ??????: work/sortKFvvbD: No space left on device
make: *** [work/sort.dep] エラー 141
----------------------------------------------
で、100GB超の容量があるから余裕だと思っていたのに残量不足で、急遽いろいろファイルを削除してから、手動で
----------------------------------------------
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB
----------------------------------------------
を一行ずつ入れたんですよ。

残量がないのはこちらのミスですし、お恥ずかしいので、そこのいきさつは関係ないだろうとおもってスキップしたんですよ。
で、もしかして、残量がないのにむりやりファイルをつくってファイルが壊れたのかなとか投稿してからいろいろ可能性を考えていたんですが、ほかのファイルは壊れていないしなにが原因かなぁと悩んでいたんですが、そうか、preparserの実行をskipした可能性があるんですね。

わかりました。もう一度やってみます。

No.163 2010/02/10 18:48:59

Re: 英語版の変換で

By kolo URL このコメントを引用

結果が出てきました。
やはり途中で容量不足で止まってしまって、そこから手作業でコマンドを入れたのがだめだったようです。
今度はエラーもなく最後まで到達しました。

それでまた問題が発生したのですが、今回できた HONMONを

emacs-23.1-bin-i386.zip
lookup-1.4+media-20091030.tar.gz 
eblook-1.6.1+media-20090709-eb4.4.2+u-20100121.exe

で見てみようと思ったのですが、どうにも検索できません。

今までの、日本語版のウィキペディアや、「FreePWING による各種辞書」のサイトで配布されている辞書は問題なく動作して検索もばっちりできましたが、UTF-8 版のほうはちゃんと :coding の指定も utf-8 にしたのですが、検索で出てきません。

検索式は =<>@-w でちゃんとでてくるのですが、アルファベットをいれてもなにも引っかかってきません。
で、eblook 単体でみてみたのですが、
-----------------------------------------------------
eblook> book wikip
eblook> list
1. wikip ウィキペディア英語版
eblook> select 1
eblook> info
disc type: EPWING
character code: JIS X 0208
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア英語版
directory: wikip
search methods:
font sizes:
-----------------------------------------------------
ということで、 search methods: になにも出てきていません。

ちなみにウィキペディアの日本語版だと、
-----------------------------------------------------
eblook> book wikip
eblook> list
1. wikip ウィキペディア日本語版
eblook> select 1
eblook> info
disc type: EPWING
character code: JIS X 0208
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア日本語版
directory: wikip
search methods: word endword exactword wild
font sizes:
eblook>
-----------------------------------------------------

今回 Emacs をはじめて使いましたのでどっか設定が間違っているのかもしれませんがなにかわかりましたら教えていただけないでしょうか。

よろしくお願いします。

No.164 2010/02/14 03:20:58

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

FreeUWINGで作成した書籍は
> character code: JIS X 0208
ではなく
> character code: UTF-8
となるはずです。
実際にはCATALOGSの内容で決まりますので、wikipedia-fpwに付属の
catalogs.txtを使用した、もしくはwikipedia-fpwで作成された
CATALOGSファイルを使用している可能性を疑います。

No.165 2010/02/14 08:20:53

Re: 英語版の変換で

By kolo URL このコメントを引用

Catalogs  はそうでした。12月の中旬に思い立った最初の頃は FPW の方で作ろうと思っていたんですが、英語版なのだから、最初から UTF-8 版の方がいいかなとおもって 1月に変更してました。
最近は 7-ZIP で圧縮して保存しているので、日本語版ウィキペディアでも「皮だけ」再利用して HONMON だけ入れ替えていて(なにか freepwing-1.6.tar.bz2 になってから fpwmake package をやると、リンクのあたりからやり直しをするじゃないですか。なぜなんでしょう。特に不便は感じていないので報告しませんでしたが、まさかここで引っかかってくるとは。とほほ・・・。手を抜いたらいけないってことですね。)シェルスクリプトでダンプのダウンロードから 7-ZIP の圧縮まで自動で更新しているのですが、英語版もそのシェルスクリプトを再利用したので、最初の頃は、

fuwmake HASH_MOD=BDB FPWLINKMOD=BDB

とかやってしまいエラーがバンバン出ていまして、そうですか、またやってしまいましたか。どうも私には文字コードは鬼門みたいです。

で、早速カタログを変更して見ました。

-----------------------------------------------------
eblook> book enwiki_u
eblook> list
1. enwiki_u ウィキペディア英語版
eblook> select 1
eblook> info
disc type: EPWING
character code: UTF-8
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア英語版
directory: enwiki_u
search methods:
font sizes:
eblook> search a
An error occured in search_pattern: no such search method
eblook> search *A*
An error occured in search_pattern: no such search method
eblook>
-----------------------------------------------------
やはりmethods になにも出てきません。

ちなみに、さっき
-----------------------------------------------------
# 書籍に収納するエントリの最大数を指定します。
# 0の場合は無制限になります。
# デバッグ用です。
#
'entry_count' => 2,
------------------------------------------------------
エントリーを2にしてデバッグでやってみましたが、同じ結果が出ました。

search methods: になにも出てきません。

Emacs の Lookup では オープニング画面で日本語版と同じようにいろいろ検索式がでてくるのですが。
------------------------------------------------------
Type `m' to select, `u' to unselect, `?' for help.

% Identifier Title Method
- ---------- ----- ------
* ndeb+/dictionary/ja-wikipedia20100208-7z/WIKIP:wikip ウィキペディア日本語版 =<>@-w
* ndeb+/dictionary/roget-fpw1.0.1/ROGET:roget Roget’s =<>@-w
* ndeb+/dictionary/en-wikipedia20100130-utf8-7z/ENWIKI_U:enwiki_u ウィキペディア英語版 =<>@-w
------------------------------------------------------
今回 20100130 版の英語版ダンプデータからできた HONMON は 9.87 GB (10,599,487,488 バイト)になりました。
ファイルがどこか壊れているということなんでしょうか。

No.166 2010/02/14 10:16:44

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

FreeUWINGで提供されている手段でパッケージを作成やインストールを
行っているのであれば、Makefileの
DIR =
の行と、catalogs.txtの
Directory =
の行に食い違いが無いか確認してください。

そうでない場合は、eblookに指定したディレクトリから見て
enwiki_u/data/honmonが存在しているかどうか確認してください。

それから、Lookupのndeb[s]エージェントにおける検索方法の表示に
ついては実際に書籍がサポートしている検索方法を反映せずに決め打ちに
なっていますので無視してください。

No.167 2010/02/14 21:51:44

Re: 英語版の変換で

By kolo URL このコメントを引用

今朝がた作ったエントリーが2個だけの HONMON でパッケージを作り解凍をして HONMON だけ入れ替えてみました。
フォルダの構造が、なんか勘違いして間違っていました。
中身も 同じフォルダー名の入れ子でしたね。
ヒューマンエラーが一番厄介です。
失礼しました。

英語版をせっかく作ったので WIKIP_U に変更しました。
また HONMON 作り直しかとおもってちょっと気が遠くなりかけましたが、カタログのディレクトリ指定だけで大丈夫ですね?

-----------------------------------------------
eblook> book wikip_u
eblook> list
1. wikip_u ウィキペディア英語版
eblook> select 1
eblook> info
disc type: EPWING
character code: UTF-8
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア英語版
directory: wikip_u
search methods: word endword exactword
font sizes:
eblook> search a
1. 60:1049 A
2. 43426:55 Floppy disk
3. 206784:1210 Ogonek
4. 457979:1744 ・
5. 474259:1900 ・
6. 533246:457 Caron
7. 550099:1108 ・
8. 550100:518 ・
9. 550101:601 ・
10. 777436:1297 A (TV system)
11. 789484:233 Ordinal indicator
12. 806044:141 Vietnamese alphabet
13. 839682:1840 Ring (diacritic)
14. 947099:93 Frontier Wrestling Alliance
15. 1355337:1634 窒
16. 1404142:1045 蓄
17. 1602754:1903 Medal of Honor: Airborne
18. 1633504:648 Unicode subscripts and superscripts
19. 1669885:1539 逐
20. 1785044:27 Anarchy
21. 1815308:248 Static library
22. 1949825:1916 A-
23. 2111146:1800 Umlaut (diacritic)
24. 2374373:236 Grave accent
25. 2557953:49 筈
26. 2697974:876 Double grave accent
27. 3687154:1607 Guitar Hero: Aerosmith
28. 4316084:1630 Enclosed A
29. 4632255:105 ZE:A
eblook>

-----------------------------------------------

Emacs でも表示できるのを確認しました。

ああ、やっと出てきました。ちょっと感動です。

ご助力ありがとうございました。やっと辿り着けました。


EBWin では、辞書名はでてきますが、本文が空で表示されました。




後気になったのですが



間違いがあるといけないと思っていてエントリー数を2から0に戻していたのですが、

いま

fuwmake package 

をする際にやっぱりダーっとエントリーがスクロールされて表示されたので度肝を抜かれました。

私の使用している 東芝 dynabook J40
Intel Pentium M 1.7GHz
ですと、

/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB

が表示されてからだいたい今回の 20100130 英語版ダンプで 14 時間経過しています。

すでに HONMON ができていて後は圧縮してくれればいいだけなのにやり直しになるのはつらいですのでやっぱりフォルダだけ ”着せ替え” になる予感です。
今回 HONMON の差し替えだけで Lookup で表示できたので、とりあえずは満足しています。

ダイレクトにリナックスにインストールするオプションもあるわけですし、HONMON 作成後に必ずしもパッケージ作業が必要というわけではない、とおもっていたんですが、それとも以前はなかったなにかのチェックがパッケージ作業で新たに出現したのでしょうか。生半可な知識が一番怖いということで、思わぬトラップがありそうで気になります。
まあ英語版は 9GB 以上あって、FAT なフォーマットの SD カードには当然入らないですし、DVD に焼いて保存管理しようと思っていますので、必ず 7-ZIP で 1.9GB ごとに分割圧縮する予定す。
パッケージ作業が「必要」でなければ特に不満はないのですが。というか必要なしであってくれ、と祈っているくらいです。
fuwmake package にファイルのボリューム分割指定はたしか無かったですもんね。見落としがあるかもしれませんが。

まあ、この件は FreePWING の作者さんじゃないとわからないですよね。

とくに緊急ではないので問題がなさそうであれば別にいいかな、と思っていますので、wikipedia-fuw-20091202-src.tar.gz のほうでどうしてもパッケージに一旦しなければならない、というような問題が無ければ読み流してください。


あと、英語版なのに、JAWIKI_U というのもちょっとなんなので、ちょっと気がつきにくい点でみな迷うとおもうのでアナウンスを、次回アップデートのときにでもぜひご検討願いたいと思います。もしまた見落としていまして、すでにアナウンス済みであればご容赦ください。

No.168 2010/02/15 06:25:39

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

> 英語版をせっかく作ったので WIKIP_U に変更しました。
> また HONMON 作り直しかとおもってちょっと気が遠くなりかけましたが、
> カタログのディレクトリ指定だけで大丈夫ですね?

ディレクトリに指定した内容はHONMONファイルの内容には影響を与えません。

> EBWin では、辞書名はでてきますが、本文が空で表示されました。

現時点でJIS X 4081 UTF-8 extensionの書籍を検索できるのは
eblook 1.6.1+mediaだけだと思います。

> 間違いがあるといけないと思っていてエントリー数を2から0に
> 戻していたのですが、いま
>
> fuwmake package 
>
> をする際にやっぱりダーっとエントリーがスクロールされて表示されたので
> 度肝を抜かれました。

wikipedia-fuw.conf を更新すれば当然最初から作り直されます。

> なにか freepwing-1.6.tar.bz2 になってから fpwmake package を
> やると、リンクのあたりからやり直しをするじゃないですか。

fpwmake && fpwmake package
と実行するとfpwlinkが2回実行されるという意味でしょうか。
手元では再現しません。
fpwmake packageの実行前に依存するファイルを更新してしまっている
可能性を疑います。

> あと、英語版なのに、JAWIKI_U というのもちょっとなんなので、
> ちょっと気がつきにくい点でみな迷うとおもうのでアナウンスを、
> 次回アップデートのときにでもぜひご検討願いたいと思います。

何をアナウンスして欲しいという主旨なのか分かりませんでした。

No.169 2010/02/15 23:20:11

Re: 英語版の変換で

By kolo URL このコメントを引用

> ディレクトリに指定した内容はHONMONファイルの内容には影響を与えません。


了解しました。



> 現時点でJIS X 4081 UTF-8 extensionの書籍を検索できるのは
> eblook 1.6.1+mediaだけだと思います。


了解しました。


>
> wikipedia-fuw.conf を更新すれば当然最初から作り直されます。
> fpwmake && fpwmake package
> と実行するとfpwlinkが2回実行されるという意味でしょうか。
> 手元では再現しません。
> fpwmake packageの実行前に依存するファイルを更新してしまっている
> 可能性を疑います。

いや、いつもの日本語版でもそうなるのですが・・・。
1.6 になる前までは FPW の方でパッケージまで作って DVD に焼いて保存していたのですが、いまではやらなくなりました。
再現しませんか。


もうかれこれ2008年の4月から変換をしているので、日本語版で試行錯誤はしないのですが、

> fpwmake && fpwmake package

これはやっていませんでしたね。

1.6がでた当時は、まだシェルスクリプトも書いてなくて、手作業で一つ一つ

fpwmake

をやって、おっかなびっくり出来上がっているのを確認してから

fpwmake package

をやっていました。別々にやるとそういう現象が起きるのかも?

&& で間髪いれずにやらないといけないのかな?


というか

fpwmake と fpwmake package の間に 各種データーのチェックが入る・・・なぜ? HONMONはできあがっているのに、とは思いますが、まあ本題からなにか話題がそれてしまいました。



まあ、lzma よりも 7-ZIP のほうが詳しい取説があってオプションがいろいろ選べて便利なのでパッケージ作業が必要なければ別にいいのですが。


> > あと、英語版なのに、JAWIKI_U というのもちょっとなんなので、
> > ちょっと気がつきにくい点でみな迷うとおもうのでアナウンスを、
> > 次回アップデートのときにでもぜひご検討願いたいと思います。
>
> 何をアナウンスして欲しいという主旨なのか分かりませんでした。

wikipedia-fpw の方では フォルダは WIKIP なので、英語版だろうが、日本語版だろうが作っても違和感がないですが、

wikipedia-fuw  のほうは デフォルトで JAWIKI_U になっていて、カタログだけではなくて Makefile のほうも訂正しないとパッケージをつくったらフォルダも JAWIKI_U になってしまうので、 英語版やフランス版を作ったときに 日本語版でもないのに JAWIKI_U というフォルダが自動で出来てしまうのが、ちょっと気になっただけです。

最初にわかっていれば、ああ、ここも変更項目なのだな、 conf ファイルのほかにも、カタログと Makefile も変更するのだな、というのでスムーズにいくかな、くらいの意味です。

まあフォルダとカタログを直せばいいだけなので、そう大騒ぎすることでもないかもしれません。が、ウィキペディアのためにリナックス UNIX に足をつっこんだ初心者には敷居が高くなるかもしれません。


・・・気にしすぎですかね。

ちょっと Readme にひとこと書いていただければうれしいな、くらいの意味だったのですが。

No.170 2010/02/16 00:04:13

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

> wikipedia-fuw  のほうは デフォルトで JAWIKI_U になっていて、
> カタログだけではなくて Makefile のほうも訂正しないと
> パッケージをつくったらフォルダも JAWIKI_U になってしまうので、
> 英語版やフランス版を作ったときに 日本語版でもないのに JAWIKI_U
>  というフォルダが自動で出来てしまうのが、ちょっと気になっただけです。

README にあるように、wikipedia-fuw は
「FreeUWING を利用してウィキペディア日本語版のダンプデータを
JIS X 4081 UTF-8 extension に準拠するように変換するツール」です。
英語版やフランス語版からの変換を積極的にすすめていはいませんし、
FreeUWING のドキュメントの守備範囲なので積極的に READMEに
記載する意思は今のところありません。

catalogs.txt に、変更する場合は FreeUWING (FreePWINGから内容は
変えていませんが) のドキュメントを参照するように書くことを検討します。

No.171 2010/02/17 21:36:17

Re: 英語版の変換で

By kolo URL このコメントを引用

お手数をおかけしてすみません。

あれから快適ライフを満喫しています。

半月近くお付き合いありがとうございました。


またなにか問題が発生したらよろしくお願いします。
(なるべく自分で解決するつもりですが。なかなかPerlは難しいですね。)

No.172 2010/02/19 08:35:56

(No Subject)

By Jiro この投稿を引用

wikipedia-fpw-20091202で、英語版wiki(enwiki-latest-pages-articles.xml.bz2)をEPWINGに変換しようとしたのですが、

Entry: 9261091; Backfitting algorithm
./fpwwikipedia_cgraph: invalid tag name: cgraph:math_\hat{f}_1^(i) </math
gnumake: *** [work/cgraph.dep] Error 2

このようなエラーが出てとまってしまいました。
解決策があれば、よろしくお願いいたします。

No.156 2009/12/18 22:14:07

Re:

By kazuhiro URL このコメントを引用

元データの文法エラーのようなので、fpwwikipediaとfpwwikipedia_cgraphの、

print "Entry: $page_count; $heading\n";

の直前に

if ($heading =~ /^Backfitting algorithm$/) {
$text =~ s/&amp;lt;math /&amp;lt;math&amp;gt; /;
}

のようなコードを入れてください (&は正しくは半角です)。
もしくはダンプデータを直接修正してください。

No.157 2009/12/20 08:40:07

wikipedia-fpw:redirect での検索インデックスが不正です

By たかはし この投稿を引用

バージョン:wikipedia-fpw-20091012-src.tar.gz

【redirect での検索インデックスが不正です】

fpwwikipedia での、以下の部分?:
# Expand search entry by redirect
if (length($entry_headings->get($key))) {
push (@keys, split(/\t/, $entry_headings->get($key)));
}


EBDump での前方一致表記形INDEX の出力結果:
('−>' が、'>' となっているのは、FreePWing で '−' が削除される仕様のため)
block#=11B826(1161254)
ID=60 桁数=120 要素数=10
HASH=HASH(0X9AFFA88)>GET(営団日比谷線脱線衝突事故)[120] <blk=11B827(1161255)>
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(LGA775)[120] <blk=11B828(1161256)>
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(じおきゃっしんぐ)[120] <blk=11B829(1161257)>
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(アカデミー脚色賞)[120] <blk=11B82A(1161258)>
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(バーバラパーマー)[120] <blk=11B82B(1161259)>
・・・
・・・
HASH=HASH(0X9AFFA88)>GET(ERONE)[90] <blk=11B831(1161265)>
HASH=HASH(0X9AFFA88)>GET(MICROSDアタッチメントMASD1)[90] <blk=11B832(1161266)>
HASH=HASH(0X9AFFA88)>GET(XREA)[90] <blk=11B833(1161267)>
HASH=HASH(0X9AFFA88)>GET(うぉーかーぶれいん)[90] <blk=11B834(1161268)>


・このため、「WIKI」で検索すると 38,559 件がヒットします。
・このため、「HASH」で検索すると 89,414 件がヒットします。
・このため、検索用INDEXのサイズが、50575 Blocks x 2,048b ≒ 100MB と肥大化(本来は、その半分程度)
・このため、「リダイレクト元のキーワード」での検索が不可能となっています。


どこを直せば宜しいのでしょうか?

No.152 2009/12/02 04:36:36

Re: wikipedia-fpw:redirect での検索インデックスが不正です

By kazuhiro URL このコメントを引用

すみません、チェックが不十分だったようです。
取り急ぎ、preparserの最後のほうにある、

$output->print("$heading\t$redirects->get($heading)\n");



$output->print("$heading\t" . $redirects->get($heading) . "\n");

と変更してみてください。

No.153 2009/12/02 08:34:37

Re: wikipedia-fpw:redirect での検索インデックスが不正です

By たかはし このコメントを引用

直りました。ありがとうございまいました。

No.154 2009/12/02 21:05:41

Re: wikipedia-fpw:redirect での検索インデックスが不正です

By kazuhiro URL このコメントを引用

修正版を出しました。
ご報告ありがとうございました。

No.155 2009/12/04 08:51:56

wikiのepwing化

By kitani この投稿を引用

久しぶりにwikipediaをEPWING化しようとしました。
Cygwin上でwikipedia-fpw-20080616で変換を試みましたが、反応がほとんどなく変換を始めません。以前は同じ環境でできたはずです。

wikipedia-fpw-20091006に変えたところ変換を始めたのですが、3時間後ぐらいに下記のエラーで止まりました。再度試みましたが同じ結果でした。

'enable_reference' => 0 にすると変換は一応終了しました。しかし、entry:130691までしか変換は行っていませんでした。
wikipediaを現時点のものではなく9月27日のものを使うとentry:249696までいき終了しました。
2Gを当然超えていません。

よくわからないまま、見よう見まねで行っているので的を射ていない文章かもしれませんが、変換できる方法を教えて頂けるとありがたいです。EPWING化の度に質問をして申し訳なく思います。

なお、windows2000 512Mです。
メモリー不足でしょうか?

perlは5.8.8でUSE_64_BIT_INTとUSE_LARGE_FILESはあるようです。

−−−略−−−
Entry: 130691; X-繝。繝ウ
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwsort -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwindex -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwcontrol -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwlink -workdir work
/usr/local/libexec/freepwing/fpwlink:unknow tag name, text:e38393e38383e38388e6bc94e7ae97: line 13,work/textref
make:***[work/link.dep]Error 255

No.148 2009/10/19 18:42:28

Re: wikiのepwing化

By kazuhiro URL このコメントを引用

「Cygwinのperlでfpwwikipediaを実行するとperlが落ちる」に
あてはまっている様に思います。
PerlをCygwinから提供されている最新版 (5.10) にしてみてください。

ちなみに、メモリー不足の場合はその時点で正しくエラーが出て終了します。

No.149 2009/10/19 21:47:51

Re: wikiのepwing化

By kitani このコメントを引用

レス感謝します。
ハードル高そうですが、チャレンジしてみます。
ありがとうございます。

No.150 2009/10/19 22:47:47

Re: wikiのepwing化

By kitani このコメントを引用

ありがとうございました。無事変換できました。
すばらしいソフトと適切なアドバイス感謝します。

No.151 2009/10/23 21:46:28

fuwmakeでのエラーについて

By 柴田 この投稿を引用

WindowsXP上のCygwin環境で、
freeuwing-1.6とwikipedia-fuw(共に最新版)を使って、
2009/09/27版のwikipedia日本語版データをUTF8対応のEPWING辞書に変換しようとしているのですが、
下のようなエラーが出て変換できません。

Entry: 932656; 邯ュ邂。譚滓、咲黄繝ャ繝・ラ繝ェ繧ケ繝医・螟蛾・ (迺ー蠅・怐)
Out of memory during "large" request for 528384 bytes, total sbrk() is 325801984
bytes at fuwwikipedia line 426, <GEN14> line 54827725.
make: *** [work/parse.dep] Error 12

上のエラーは参照無し・数式無しの設定で実行した場合のものですが、
参照有りにしても、やはりエラーが出て変換が出来ません。

perl -Vで64bit intなどは問題なく使用でき、
freepwing-1.6とwikipedia-fpwの組み合わせでは、
エラー無く変換出来ています。

どのようにしたら、変換できるでしょうか。
アドバイス、お願いします。

No.139 2009/10/05 22:50:14

Re: fuwmakeでのエラーについて

By kazuhiro URL このコメントを引用

最近はCygwinで変換していないので確認はしていませんが
メモリ不足で止まっているように見えます。

http://www.cygwin.com/cygwin-ug-net/setup-maxmem.html

を参照してCygwinが利用できるメモリを増やしてみてはどうでしょうか。
上記のページにもありますが、無指定の場合は384MBだそうです (今知りました)。

regtool -i set /HKLM/Software/Cygnus\ Solutions/Cygwin/heap_chunk_in_mb 1024

で1GB使用できるようになります。

# どのくらいに増やせば良いのかは分かりません。

No.142 2009/10/06 21:07:42

Re: fuwmakeでのエラーについて

By 柴田 このコメントを引用

アドバイスありがとうございます。

早速メモリ設定を1Gと1.5Gまで上げて、
念のためfreeuwingを再構成してから、
fuwを実行してみたのですが、
1G,1.5Gの両設定とも、
以前と全く同じ箇所でエラーが出てしまいます。

実搭載RAMは4Gあります。
(XPが認識しているのは3.5Gですが)

また、タスクマネージャーで見た限りでは、
perlのメモリー使用量が、
300Mもいっていない段階で落ちている感じです。

No.144 2009/10/07 02:57:53

Re: fuwmakeでのエラーについて

By kazuhiro URL このコメントを引用

fuwwikipediaを

http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fuwwikipedia

のものと差し替えてみてください。
変換速度は落ちますが、手元のCygwin環境では変換できることを確認しています。

wikipedia-fpwで英語版Wikipediaのダンプデータを変換した際に、
従来の動作とこの版の動作とを切り替えられる様にしようと (1年くらいに) 思って
いたのですが、変換にCygwin環境を使わなくなったので放置状態となっています。

No.145 2009/10/07 17:55:35

Re: fuwmakeでのエラーについて

By 柴田 このコメントを引用

ありがとうございます。
変換できました。

もう一つ変換できる方法を見つけました。
cygwinのコンソールを下のページを使ってUTF8化したら、
元のfreeuwingとfuwのままで変換できました。
http://www.okisoft.co.jp/esc/cygwin-20.html

どちらの辞書もeblookでアクセスしているのですが、
正常表示部分と文字化け部分が出てきてしまっています。
自分の環境でのeblookの作成で問題が起きている可能性もありそうなので、
もうちょっといじってみるつもりです。
(win32用バイナリは、content表示させるときに落ちてしまって使えませんでした)

No.146 2009/10/08 12:56:05

Re: fuwmakeでのエラーについて

By kazuhiro URL このコメントを引用

eblook 1.6.1+mediaの、JIS X 4081 UTF-8 extension対応については
Lookup のバックエンドとして使うことしか想定されておらず、
人間がinteractiveに扱う事は考慮されていません

Win32のバイナリであれば、eblookを"-e euc-jp"オプションで起動したうえで
入出力をUTF-8で行なえばFreeUWINGで作成した書籍のcontent表示が行えます。
(この時、listやsubinfoコマンドの出力はeuc-jpで行われます。)

No.147 2009/10/08 17:05:35

wikip の & と "

By 白井 この投稿を引用

# 変換かかりそうな気もするので、一部全角文字にします。

お久しぶりです。

読み仮名で検索できるっていうんで、久しぶりに wikipedia を変換してみて気づいたのですが、エントリ?の中の "&amp;", "&quot;" がそのまま残っていて、例えば、『スタスキー&ハッチ』だと『スタスキー&amp;ハッチ』で検索しないとヒットしません。

lookup だけなら :expanders で変換しちゃえば良いのだけど、他の辞書引きツールもあるでしょうから、可能なら変換の時に置き換えちゃった方が良いかと思われます。

# しかし、辞書を引くときに " を入力するかどうかははなはだ疑問ですが。。。

No.135 2009/10/01 23:29:26

Re: wikip の & と "

By kazuhiro URL このコメントを引用

お久しぶりです。

wikipedia-fuwではその様になっているのですが、wikipedia-fpwに反映しそこねていたようです。
近日中に修正版を出します。

No.136 2009/10/02 18:57:29

Re: wikip の & と "

By 白井 このコメントを引用

> お久しぶりです。

ども。

> wikipedia-fuwではその様になっているのですが、wikipedia-fpwに反映しそこねていたようです。
> 近日中に修正版を出します。

了解です。だけど、utf-8 extension も良いかなぁー

p.s.
ndwnj.el ですが、なんか Meadow だと出力の filter でごみが残ります。調べてみますね。

No.137 2009/10/04 11:59:59

Re: wikip の & と "

By kazuhiro URL このコメントを引用

修正版を出しました。

> だけど、utf-8 extension も良いかなぁー

今のところはeblookでしか使えませんが、使える環境ではこっちの方がおすすめです。

> ndwnj.el ですが、なんか Meadow だと出力の filter でごみが残ります。調べてみますね。

こちらではMeadow1, 2, 3で簡単に動かした範囲では大丈夫っぽかったです。
何か分かったらお知らせください。

No.138 2009/10/05 22:04:22

Re: wikip の & と "

By 白井 URL このコメントを引用

> 修正版を出しました。

昼間見つけて、ただいま変換中(会社で)です。

> > だけど、utf-8 extension も良いかなぁー
>
> 今のところはeblookでしか使えませんが、使える環境ではこっちの方がおすすめです。

今度試してみますね。

> > ndwnj.el ですが、なんか Meadow だと出力の filter でごみが残ります。調べてみますね。
>
> こちらではMeadow1, 2, 3で簡単に動かした範囲では大丈夫っぽかったです。
> 何か分かったらお知らせください。

日記に現象と解決策を書いておきました。sqlite3 の作り方に完璧に依存するようですが、readline 付けていても大丈夫な人は大丈夫だと思われます。

No.140 2009/10/05 23:14:03

Re: wikip の & と "

By 白井 URL このコメントを引用

> 日記に現象と解決策を書いておきました。

日記の URI 間違えちゃった ^^;;;

No.141 2009/10/05 23:16:18

Re: wikip の & と "

By kazuhiro URL このコメントを引用

調べていただいてありがとうございます。
readline が (私には) よく分からない動きすることはeblookでもあって、
eblook 1.6.1+mediaでは無効にするオプションをつけた事を思い出しました。

あとでndwnjのページにも書いておきます。

No.143 2009/10/06 21:08:31

以下のフォームに記事No.と投稿時のパスワードを入力すれば、 投稿後に記事の編集や削除が行えます。

70/200件 [ ページ : << 1 2 3 4 5 6 7 8 9 10 >> ]

- HOME - お知らせ(3/8) - 記事検索 - 携帯用URL - フィード - ヘルプ - 環境設定 -

Rocket Board Type-X (Free) Rocket BBS