[ 掲示板に戻る ]

記事No.23に関するスレッドです

フランス語版 Wikipedia

By matsugorou この投稿を引用

Bonjour,
matsugorou です。
すぐにご返答いただきありがとうございます。

ご指摘のように、わたしがダウンロードしたファイルは間違いで、伸長前で600MBありました。伸長して2.9GBあります。

教えていただいた、「分冊して」ということでwikipedia-fpw.conf を編集しようとしているのですが、書き換え方がわかりません。
 以下の部分だろうといろいろメクラメッポウやってみましたが、ダメでした。Entry 7537 :Thomas Pyndonのところでいつも止まってしまいます。ちなみに全体のEntry数は114万7662件のようです。


# この正規表現にタイトルがマッチするページは書籍に収録されません。
#
my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$',
# '^Category:.*操り人形だと疑われるユーザー',
);

my $skip_heading = '';

if (@skip_headings) {
foreach $heading (@skip_headings) {
$skip_heading .= '|'.$heading;
}
$skip_heading =~ s/^\|(.*)$/\($1\)/;
$fpwwikipedia_conf{'skip_heading'} = $skip_heading;
}

 AからL で1冊、M からZで 1冊、計2冊でまず、試してみたいと思います。それでだめなら3冊と。

 具体的にはどのような書き換えになるのでしょうか?

 お時間のあるときで結構です、お答え待ちしながら、Linux,Perl,正規表現の学習をしたいとおもいます。

 お元気で、
 

No.23 2007/11/06 08:12:37

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

分冊は、例えば

my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$',
'^[^a-mA-M]'
);

のようにしてA-Mで始まる見出しを収録し、書籍を保存してから

my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|・|・)+$',
'^[a-mA-M]'
);

のようにしてA-M以外でで始まる見出しを収録すればよいと思います。
(確認はしていません)

ただし、Entry 7537で止まるというのは容量の問題ではなく
wikipedia-fpwのバグで止まっている可能性が高いように思います。
相互参照を無効にしても同じ場所で止まるか
一度確認したほうがよいと思います。

No.24 2007/11/07 03:53:23


- HOME - お知らせ(3/8) - 記事検索 - 携帯用URL - フィード - ヘルプ - メール - 環境設定 -

Rocket Board Type-X (Free) Rocket BBS