summaryrefslogtreecommitdiff
path: root/sw/qa/extras/txtimport
diff options
context:
space:
mode:
authorTomofumi Yagi <yagitmknada@gmail.com>2020-09-16 18:11:22 +0900
committerMichael Stahl <michael.stahl@cib.de>2020-09-30 10:18:23 +0200
commitef77a256de527f6d00212839e55f949024f2e7bc (patch)
treea116d76a0fe68f4f5e611452680db2e9f5c357d1 /sw/qa/extras/txtimport
parent0b536d542fe937d221aa465775ece41104b1f0bb (diff)
tdf#60145 sw: fix UTF-8 encoding without BOM is not detected
Writer can now detect Unicode type even if importing text file does not have a BOM. Change-Id: I70fa4145672d855f9ef9df040a930ff5d1564905 Reviewed-on: https://gerrit.libreoffice.org/c/core/+/102884 Tested-by: Jenkins Reviewed-by: Eike Rathke <erack@redhat.com> Reviewed-by: Michael Stahl <michael.stahl@cib.de>
Diffstat (limited to 'sw/qa/extras/txtimport')
-rwxr-xr-xsw/qa/extras/txtimport/data/UTF16BEWITHBOM.txtbin0 -> 1290 bytes
-rwxr-xr-xsw/qa/extras/txtimport/data/UTF16BEWITHOUTBOM.txtbin0 -> 1288 bytes
-rwxr-xr-xsw/qa/extras/txtimport/data/UTF16LEWITHBOM.txtbin0 -> 1290 bytes
-rwxr-xr-xsw/qa/extras/txtimport/data/UTF16LEWITHOUTBOM.txtbin0 -> 1288 bytes
-rwxr-xr-xsw/qa/extras/txtimport/data/UTF8WITHBOM.txt2
-rwxr-xr-xsw/qa/extras/txtimport/data/UTF8WITHOUTBOM.txt2
-rw-r--r--sw/qa/extras/txtimport/data/bullets.odtbin0 -> 10379 bytes
-rw-r--r--sw/qa/extras/txtimport/txtimport.cxx155
8 files changed, 159 insertions, 0 deletions
diff --git a/sw/qa/extras/txtimport/data/UTF16BEWITHBOM.txt b/sw/qa/extras/txtimport/data/UTF16BEWITHBOM.txt
new file mode 100755
index 000000000000..2e0455704058
--- /dev/null
+++ b/sw/qa/extras/txtimport/data/UTF16BEWITHBOM.txt
Binary files differ
diff --git a/sw/qa/extras/txtimport/data/UTF16BEWITHOUTBOM.txt b/sw/qa/extras/txtimport/data/UTF16BEWITHOUTBOM.txt
new file mode 100755
index 000000000000..0551ae547521
--- /dev/null
+++ b/sw/qa/extras/txtimport/data/UTF16BEWITHOUTBOM.txt
Binary files differ
diff --git a/sw/qa/extras/txtimport/data/UTF16LEWITHBOM.txt b/sw/qa/extras/txtimport/data/UTF16LEWITHBOM.txt
new file mode 100755
index 000000000000..43ed8143ef9b
--- /dev/null
+++ b/sw/qa/extras/txtimport/data/UTF16LEWITHBOM.txt
Binary files differ
diff --git a/sw/qa/extras/txtimport/data/UTF16LEWITHOUTBOM.txt b/sw/qa/extras/txtimport/data/UTF16LEWITHOUTBOM.txt
new file mode 100755
index 000000000000..d2cc98e785ce
--- /dev/null
+++ b/sw/qa/extras/txtimport/data/UTF16LEWITHOUTBOM.txt
Binary files differ
diff --git a/sw/qa/extras/txtimport/data/UTF8WITHBOM.txt b/sw/qa/extras/txtimport/data/UTF8WITHBOM.txt
new file mode 100755
index 000000000000..afd812fe6ff3
--- /dev/null
+++ b/sw/qa/extras/txtimport/data/UTF8WITHBOM.txt
@@ -0,0 +1,2 @@
+漢a'
+彼は背後にひそかな足音を聞いた。それはあまり良い意味を示すものではない。誰がこんな夜更けに、しかもこんな街灯のお粗末な港街の狭い小道で彼をつけて来るというのだ。人生の航路を捻じ曲げ、その獲物と共に立ち去ろうとしている、その丁度今。 彼のこの仕事への恐れを和らげるために、数多い仲間の中に同じ考えを抱き、彼を見守り、待っている者がいるというのか。それとも背後の足音の主は、この街に無数にいる法監視役で、強靭な罰をすぐにも彼の手首にガシャンと下すというのか。彼は足音が止まったことに気が着いた。あわてて辺りを見回す。ふと狭い抜け道に目が止まる。 彼は素早く右に身を翻し、建物の間に消え去った。その時彼は、もう少しで道の真中に転がっていたごみバケツに躓き転ぶところだった。 彼は暗闇の中で道を確かめようとじっと見つめた。どうやら自分の通ってきた道以外にこの中庭からの出道はないようだ。 足音はだんだん近づき、彼には角を曲がる黒い人影が見えた。彼の目は夜の闇の中を必死にさまよい、逃げ道を探す。もうすべては終わりなのか。すべての苦労と準備は水の泡だというのか。 突然、彼の横で扉が風に揺らぎ、ほんのわずかにきしむのを聞いた時、彼は背中を壁に押し付け、追跡者に見付けられないことを願った。この扉は望みの綱として投げかけられた、彼のジレンマからの出口なのだろうか。背中を壁にぴったり押し付けたまま、ゆっくりと彼は開いている扉の方へと身を動かして行った。この扉は彼の救いとなるのだろうか。
diff --git a/sw/qa/extras/txtimport/data/UTF8WITHOUTBOM.txt b/sw/qa/extras/txtimport/data/UTF8WITHOUTBOM.txt
new file mode 100755
index 000000000000..b8362e9e789f
--- /dev/null
+++ b/sw/qa/extras/txtimport/data/UTF8WITHOUTBOM.txt
@@ -0,0 +1,2 @@
+漢a'
+彼は背後にひそかな足音を聞いた。それはあまり良い意味を示すものではない。誰がこんな夜更けに、しかもこんな街灯のお粗末な港街の狭い小道で彼をつけて来るというのだ。人生の航路を捻じ曲げ、その獲物と共に立ち去ろうとしている、その丁度今。 彼のこの仕事への恐れを和らげるために、数多い仲間の中に同じ考えを抱き、彼を見守り、待っている者がいるというのか。それとも背後の足音の主は、この街に無数にいる法監視役で、強靭な罰をすぐにも彼の手首にガシャンと下すというのか。彼は足音が止まったことに気が着いた。あわてて辺りを見回す。ふと狭い抜け道に目が止まる。 彼は素早く右に身を翻し、建物の間に消え去った。その時彼は、もう少しで道の真中に転がっていたごみバケツに躓き転ぶところだった。 彼は暗闇の中で道を確かめようとじっと見つめた。どうやら自分の通ってきた道以外にこの中庭からの出道はないようだ。 足音はだんだん近づき、彼には角を曲がる黒い人影が見えた。彼の目は夜の闇の中を必死にさまよい、逃げ道を探す。もうすべては終わりなのか。すべての苦労と準備は水の泡だというのか。 突然、彼の横で扉が風に揺らぎ、ほんのわずかにきしむのを聞いた時、彼は背中を壁に押し付け、追跡者に見付けられないことを願った。この扉は望みの綱として投げかけられた、彼のジレンマからの出口なのだろうか。背中を壁にぴったり押し付けたまま、ゆっくりと彼は開いている扉の方へと身を動かして行った。この扉は彼の救いとなるのだろうか。
diff --git a/sw/qa/extras/txtimport/data/bullets.odt b/sw/qa/extras/txtimport/data/bullets.odt
new file mode 100644
index 000000000000..43e0c2123ffc
--- /dev/null
+++ b/sw/qa/extras/txtimport/data/bullets.odt
Binary files differ
diff --git a/sw/qa/extras/txtimport/txtimport.cxx b/sw/qa/extras/txtimport/txtimport.cxx
new file mode 100644
index 000000000000..a97242641df8
--- /dev/null
+++ b/sw/qa/extras/txtimport/txtimport.cxx
@@ -0,0 +1,155 @@
+/* -*- Mode: C++; tab-width: 4; indent-tabs-mode: nil; c-basic-offset: 4 -*- */
+/*
+ * This file is part of the LibreOffice project.
+ *
+ * This Source Code Form is subject to the terms of the Mozilla Public
+ * License, v. 2.0. If a copy of the MPL was not distributed with this
+ * file, You can obtain one at http://mozilla.org/MPL/2.0/.
+ */
+
+#include <swmodeltestbase.hxx>
+
+#include <shellio.hxx>
+#include <unotextrange.hxx>
+#include <iodetect.hxx>
+#include <unotxdoc.hxx>
+#include <docsh.hxx>
+
+class TxtImportTest : public SwModelTestBase
+{
+public:
+ TxtImportTest()
+ : SwModelTestBase("/sw/qa/extras/txtimport/data/", "Text")
+ {
+ }
+
+ // Export & assert part of the document (defined by SwPaM).
+ void assertExportedRange(const OString& aExpected, SwPaM& rPaM)
+ {
+ WriterRef rAsciiWriter;
+ SwReaderWriter::GetWriter(FILTER_TEXT, OUString(), rAsciiWriter);
+ CPPUNIT_ASSERT(rAsciiWriter.is());
+
+ // no start char
+ rAsciiWriter->m_bUCS2_WithStartChar = false;
+
+ SvMemoryStream aMemoryStream;
+
+ SwWriter aWriter(aMemoryStream, rPaM);
+ ErrCode nError = aWriter.Write(rAsciiWriter);
+ CPPUNIT_ASSERT_EQUAL(ERRCODE_NONE, nError);
+
+ const char* pData = static_cast<const char*>(aMemoryStream.GetData());
+ OString aResult(pData, aMemoryStream.GetSize());
+
+ CPPUNIT_ASSERT_EQUAL(aExpected, aResult);
+ }
+};
+
+#define DECLARE_TXTIMPORT_TEST(TestName, filename) \
+ DECLARE_SW_IMPORT_TEST(TestName, filename, nullptr, TxtImportTest)
+
+DECLARE_TXTIMPORT_TEST(testTdf112191, "bullets.odt")
+{
+ SwXTextDocument* pTextDoc = dynamic_cast<SwXTextDocument*>(mxComponent.get());
+ CPPUNIT_ASSERT(pTextDoc);
+ SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc();
+ CPPUNIT_ASSERT(pDoc);
+
+ // just the 5th paragraph - no bullet
+ uno::Reference<text::XTextRange> xPara(getParagraph(5));
+ SwUnoInternalPaM aPaM(*pDoc);
+ bool bSuccess = sw::XTextRangeToSwPaM(aPaM, xPara);
+ CPPUNIT_ASSERT(bSuccess);
+
+ assertExportedRange("First bullet", aPaM);
+
+ // but when we extend to the next paragraph - now there are bullets
+ xPara = getParagraph(6);
+ SwUnoInternalPaM aPaM2(*pDoc);
+ bSuccess = sw::XTextRangeToSwPaM(aPaM2, xPara);
+ CPPUNIT_ASSERT(bSuccess);
+
+ OUString aString = OStringToOUString(" \xe2\x80\xa2 First bullet" SAL_NEWLINE_STRING
+ " \xe2\x80\xa2 Second bullet",
+ RTL_TEXTENCODING_UTF8);
+
+ SwPaM aPaM3(*aPaM2.GetMark(), *aPaM.GetPoint());
+ assertExportedRange(OUStringToOString(aString, osl_getThreadTextEncoding()), aPaM3);
+}
+
+DECLARE_TXTIMPORT_TEST(testTdf60145_utf8withoutbom, "UTF8WITHOUTBOM.txt")
+{
+ SwXTextDocument* pTextDoc = dynamic_cast<SwXTextDocument*>(mxComponent.get());
+ CPPUNIT_ASSERT(pTextDoc);
+ SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc();
+ CPPUNIT_ASSERT(pDoc);
+
+ uno::Reference<text::XTextRange> xPara(getParagraph(1));
+
+ CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString());
+}
+
+DECLARE_TXTIMPORT_TEST(testTdf60145_utf8withbom, "UTF8WITHBOM.txt")
+{
+ SwXTextDocument* pTextDoc = dynamic_cast<SwXTextDocument*>(mxComponent.get());
+ CPPUNIT_ASSERT(pTextDoc);
+ SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc();
+ CPPUNIT_ASSERT(pDoc);
+
+ uno::Reference<text::XTextRange> xPara(getParagraph(1));
+
+ CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString());
+}
+
+DECLARE_TXTIMPORT_TEST(testTdf60145_utf16lewithoutbom, "UTF16LEWITHOUTBOM.txt")
+{
+ SwXTextDocument* pTextDoc = dynamic_cast<SwXTextDocument*>(mxComponent.get());
+ CPPUNIT_ASSERT(pTextDoc);
+ SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc();
+ CPPUNIT_ASSERT(pDoc);
+
+ uno::Reference<text::XTextRange> xPara(getParagraph(1));
+
+ CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString());
+}
+
+DECLARE_TXTIMPORT_TEST(testTdf60145_utf16lewithbom, "UTF16LEWITHBOM.txt")
+{
+ SwXTextDocument* pTextDoc = dynamic_cast<SwXTextDocument*>(mxComponent.get());
+ CPPUNIT_ASSERT(pTextDoc);
+ SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc();
+ CPPUNIT_ASSERT(pDoc);
+
+ uno::Reference<text::XTextRange> xPara(getParagraph(1));
+
+ CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString());
+}
+
+DECLARE_TXTIMPORT_TEST(testTdf60145_utf16bewithoutbom, "UTF16BEWITHOUTBOM.txt")
+{
+ SwXTextDocument* pTextDoc = dynamic_cast<SwXTextDocument*>(mxComponent.get());
+ CPPUNIT_ASSERT(pTextDoc);
+ SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc();
+ CPPUNIT_ASSERT(pDoc);
+
+ uno::Reference<text::XTextRange> xPara(getParagraph(1));
+
+ CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString());
+}
+
+DECLARE_TXTIMPORT_TEST(testTdf60145_utf16bewithbom, "UTF16BEWITHBOM.txt")
+{
+ SwXTextDocument* pTextDoc = dynamic_cast<SwXTextDocument*>(mxComponent.get());
+ CPPUNIT_ASSERT(pTextDoc);
+ SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc();
+ CPPUNIT_ASSERT(pDoc);
+
+ uno::Reference<text::XTextRange> xPara(getParagraph(1));
+
+ CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString());
+}
+
+CPPUNIT_PLUGIN_IMPLEMENT();
+
+/* vim:set shiftwidth=4 softtabstop=4 expandtab: */